消費金融反欺詐的三大“錯配陷阱”
2019年09月28日11:57

  消費金融反欺詐的三大“錯配陷阱”|特約深度

  來源: 新流財經

  隨著消費金融行業的興起,欺詐風險控製行業水漲船高, 專業反欺詐人才供不應求,市場薪酬價值可到百萬,究其原因是這個領域的“新”。

  所謂新,主要緣於3個方面:一是傳統從事刑事案件偵查的探員型人才熟知線下詐騙套路,多偏向於電信詐騙,對信貸申請的欺詐場景並不熟悉;

  二是信用卡和消費金融公司的反欺詐人員多是經濟學、統計學類算術型學科,對科技並不熟悉;

  三是反欺詐從業者較少有機會涉足真實的黑產市場,對欺詐手法的演變和欺詐事件的爆發並不具備敏感性,無法行之有效及時的做出應對措施。

  因此,形成了一種錯配局面,人才的錯配帶來的常常是對欺詐風險靶向把握不清的問題。

  設備反欺詐策略與業務實際的錯配

  作者在近幾年的工作中,瞭解到一些公司在做反欺詐方面的心得和體會,也有聊到一些反欺詐策略設置方面的問題。

  我發現這裡面有80%的策略是相似度很高的,例如很多策略人員會部署“是否使用模擬器借款”這個規則。

  因為黑產經常會用PC模擬手機設備申請貸款,規則本身沒錯,而有些人並不瞭解一件事,有些APP是不支持X86處理器運行的,幾乎所有的PC是X86處理器的配置,而手機設備是ARM處理器的配置,如果你的APP是只支持ARM架構的,當你把apk文件拖拽到模擬器加載列表時,就會發現系統無響應。

  多數做策略的人並不是科技開發人員出身,對於軟件、硬件、環境信息、網絡資源、設備指紋算法,以及這些信息技術的發展演變趨勢並不十分瞭解,造成了策略與業務實際的錯配。

  大概兩年前,有一家做設備指紋廠商的諮詢專家在介紹設備指紋技術的安全性時,提到了通過檢測一鍵改機軟件識別設備指紋是否被篡改的問題,而很多策略人員也部署了一條名為“是否安裝了一鍵新機軟件”的規則,而其實隨著隱私安全要求的不斷提升,很多機型已經無法獲取root權限。

  也就是說即使安裝了AWZ、NZT這些軟件,也無法達到篡改信息的目的,反而會出現誤殺,即使是已經root的設備,缺少Xposed框架的NZT也是無效軟件。

  再退一步說,篡改信息還不一定要通過下載軟件實現,網上有很多免費的生成IMEI、SN的軟件,所以外部導入文件也可以達到修改的目的,所以這類策略的效果我始終打個問號。

  建議大家在使用這些設備指紋技術的時候,還是要深入瞭解底層的技術原理和算法邏輯,拿設備ID的生成算法來說,目前最多使用的還是相似度算法,除了使用硬件、軟件、環境信息、網絡信息變量進行設備ID的生成外,聰明的製造商還會事先定義多組DeviceId編碼,所以即使你恢復了出廠設置,或者重置了你的IDFA,也可以再次追蹤到你的設備。

  其實再完美的技術都有可能被破解,如果不考慮成本,破解設備ID也並非難事,尤其是在網頁、H5端,但當業務發展到成熟期,高質量的自有數據一定是比設備指紋技術更加有效識別風險,大家不妨嚐試關聯關係挖掘和區域分割。

  文本類語言處理缺陷與信息識別能力的錯配

  相比於英文文本的處理,漢字文本處理面臨了太多的難點,方言、同音字、多音詞、諧音字、音調等等,其中,字詞切割我個人認為是與互聯網金融關聯最密切的一個處理難點。

  舉個例子,“北京市北京市朝陽區光華路陽光100公寓103室”和“北京市北京市朝陽區光華路陽光100103”,在中文語言習慣里我們有時不會給自己所描述的建築物加上單位或者是類別,例如這裡面的“公寓”,去掉了這個類別詞,機器會把“陽光100103”切為一段。

  在眾多的分詞算法中,應用最多最廣的是正向/反向最大匹配法,這是從美國起源的,引用無名人士的一項研究成果:“中文中90%的句子,可以使用正向最大匹配法和逆向最大匹配法達到完全重合且正確,只有大概9%的句子兩種切分方法得到的結果不一樣。

  但其中必有一個是正確的(歧義檢測成功),只有不到1%的句子,正向最大匹配法和逆向最大匹配法的切分雖重合卻是錯的,或者正向最大匹配法和逆向最大匹配法切分不同但兩個都不對(歧義檢測失敗)”。不過我個人對這個數字存疑。

  不論是採用上面的方法還是使用N-gram,原理都是使得目標文本S的切詞路徑概率P(Wi)最優,分詞搜索詞庫的數據量和類型決定了分詞準確率的上限,一些開源的SCWS、ICTCLAS分詞系統都有比較久的中文實踐,但是受業務類型和客戶來源不同的影響,開源詞庫的本地化也是一個漫長的過程。

  實踐中,對於單位名稱這種填單過程中經常會收集的信息,採取正向最大匹配法和逆向最大匹配法的效果尚可,原因在於單位名稱文本中所包含的阿拉伯數字格式相對簡化於地址信息,而且超過4字符的比例很低,甚至可以採用暴力窮舉法定義可能的情況。

  但地址信息涉及到樓號、單元門號、室號,如果採用最大匹配法,很容易將缺失關鍵字的地址匹配誤識為不同地址,而像2-gram這樣的語言模型倒可以試一試,但和TTS應用場景不同(TTS可以看成是一種自然語言翻譯而不是進行文本匹配,前一次翻譯的信息和第二次不一樣也是常事)。

  但我們的應用場景是將兩段看似不同實則相同的信息進行匹配且要成功判斷出“coincident/inconsistent”,這個過程是“先切+再補+後配”,難度首先在於切分,其次在於補全,所以在使用2-gram算法時,加入地圖信息佐證,計算最可能的Wi。

  地理位置信息與識別群體聚集特徵的錯配

  在日常業務中,大家經常用地理位置坐標識別客群聚集的特徵,客戶聚集是識別欺詐的一個重要因素。

  先說一個跟聚集特徵沒什麼關係的事,但也跟地理坐標有關係,我們都知道經度是-180°—180°,緯度是-90°—90°的區間值,像(89°,181°)這樣的經緯度顯然是手動生成的,再比如像(90°,180°)是哪裡?好像是阿蒙森-斯科特站,原來有一個人站在南極圈申請你的貸款。

  言歸正傳,顯然今天我們要說的不是這些簡單欺詐問題,而是使用地理位置信息進行區域劃分容易造成的誤傷問題。對於我們而言,不論是GPS定位,還是基站、WIFI定位的Position只是一個數據,直接應用這個節點信息進行區域劃分只能粗略的對申請人進行區域分割,經常會脫離實際場景。如商場、機場、公園這樣的公共區域,如果不詳細予以區分很容易造成大量的誤殺;另一方面,對移動物體里設備的定位也是存在很多問題,不解決這些問題,地理位置反欺詐的效果一定很差。

  下面我們用精度最高的GPS定位法進行一些必要的說明:

  光照強度和建築物等都會對GPS產生干擾,據Google地圖測算,即使利用卡爾曼濾波校正後的地理位置誤差仍然有10-50m,不過有了RTK之後,這種誤差應該降低了,具體數字不是很清楚。

  正因為這種誤差,使得我們將GPS坐標轉換為地圖結構信息變得非常有實際意義,每個申請人就有了場景屬性。在GPS坐標向地圖位置轉換過程中,一般要經曆以下幾個步驟(感興趣的可以去研究一下高德地圖):

  獲取當前GPS位置信息,根據目標前一狀態和移動速度,移動偏轉速度、傳感器等信息,進行相對位置估算。

  載入地圖數據,獲取結構化的道路(建築物)信息,計算長度和其包含的坐標點,計算可能位置,在一定範圍內篩選一個或多個路段(建築物)作為候選匹配道路(建築物)。

  計算各個位置匹配的質量,將所有可能的匹配進行快速排序法,選擇排序度最高的道路(建築物)信息。

  完成了GPS向地圖轉換的工作,我們就可以給處於公共區域的坐標點進行差異化處理,對於街道、馬路的移動對象可以忽略不檢測,對於常出現在某一個場景的人還可以推測職業,所以不僅僅是反欺詐可以用到,政策也可以拿這個功能打標籤。

  解決了公共區域誤判的問題,又有一個新的問題擺在我們面前,那就是如何進一步識別室內型的公共區域的漏識別問題。

  我們以寫字樓為例,寫字樓里一般都是分室和單位的,我們希望能夠區分室和單位從而定位人員是否異常聚集,但GPS對於室內的效果是非常不理想的,如果沿用上述的方法進行地圖匹配,得到的結果通常是臨街道路名或大樓的名稱,並不能匹配到樓層、單位、室,而室內定位比較好的方法。

  如:藍牙定位、紅外定位、RFID射頻定位、超聲波定位、Zigbee定位、UMB定位,這種物理定位面臨著成本高、部署難的問題,無法推廣應用,當前比較成熟的方法是運用WIFI進行定位,每一個無線AP(WIFI路由器)都有一個全球唯一的MAC地址,並且一般來說,無線AP在一段時間內不會移動。

  在開啟WIFI的情況下,採集設備可以獲取它的MAC地址和信號強度信息,採集設備將這些信息上傳到服務器,經過服務器的計算,保存為“MAC-經緯度”的映射,當採集的信息足夠多,就在服務器上建立了一張巨大的WIFI信息數據庫,所以如果你的WIFI不在服務器記錄里,定位也就無從談起了。

  綜合起來,為了避免地理位置信息與識別群體聚集特徵的錯配,首先是對地理坐標進行地圖場景化,在場景化後再使用GPS進行距離計算,可以以5m*5m的正方形作為一個單位、室。

關注我們Facebook專頁
    相關新聞
      更多瀏覽