
WePay機器學習反欺詐實踐:Python+scikit-learn+隨機森林
什么是shell selling?
雖然欺詐幾乎涉及各種領域,但相對于傳統的買方或賣方僅僅擔心對方是否是騙子,支付平臺需要擔心的是交易雙方。如果其中任何一方存在信用詐騙,真正的持卡人發現和撤銷費用,平臺自身就要進行賬單償還。
shell selling是在這種情況下特別受關注的欺詐類型的一種?;旧?,當交易雙方都帶有欺騙性質時,這種模式便會發生,比如說有一個犯罪分子用偷來的一個信用卡賬戶來支付兩筆支付。
shell selling可能很難發現,因為這些欺騙者姿態很低調。他們通常沒有多少“真正”的客戶,所以你不能依靠用戶反饋結果,用這種方式你會碰到更多傳統的欺騙者。當一個商人在一個很短的時間段里獲得了來自同一個IP的一堆付款時,這很明顯,但主導這種欺詐罪行的情況往往比這還要復雜很多。他們常常使用各種各樣的技術來隱藏自己的身份和逃避偵測。
由于shell selling是一個普遍的難題,而且很難被發現,所以我們決定建立一個機器學習算法來幫助抓住它。
在WePay,我們采用Python建立整個機器學習的流程,采用流行的scikit-learn開源學習機器學習工具包。如果你還沒有使用過scikit-learn,我強烈建議你嘗試。對于欺詐模型這類需要不斷重新訓練和快速部署的任務,它有很多優點:
scikit-learn使用一個統一的API來跨不同機器學習算法實現模型擬合與預測,使得不同算法之間的代碼復用真正有效。
網絡服務(web services)的評分可以利用Django或Flask直接進行基于Python的服務器托管,從而使部署更為簡單。我們只需要安裝scikit-learn,復制導出模型文件和必要的數據處理管道代碼到網絡服務實例用于啟動。
整個模型的開發和部署周期完全用Python獨立編寫。這給了我們一個超過其他流行機器學習語言像R或SAS的優勢,后者需要模型在投入生產之前被轉換成另一種語言。除了通過消除不必要的步驟簡化了開發,這還給予我們更多的靈活性來嘗試不同的算法,因為通常情況下,這個轉換過程并不好處理,它們在另一個環境中的麻煩會多于價值。
算法:隨機森林(Random Forest)
回到shell selling,我們測試了幾種算法,然后選定能給以我們最好的性能的算法:隨機森林。
隨機森林是Leo Breiman 和 Adele Cutler開發的一種基于樹形結構的集成方法,由Breiman于2001年在機器學習期刊的評議文章中首次提出[1]。隨機森林在訓練數據的隨機子集上訓練許多決策樹,然后使用單個樹的預測均值作為最終的預測。隨機子集是從原始的訓練數據抽樣,通過在記錄級有放回抽樣(bootstrap)和在特征級隨機二次抽樣得到。
我們嘗試的算法的召回率,隨機森林提供了最佳的精度,緊隨其后的是神經網絡和另外一種集成方法AdaBoost。相比于其他算法,隨機森林針對我們碰到的各類欺詐數據有許多的優勢:
基于集成方法的樹可以同時很好地處理非線性和非單調性,這在欺詐信號中相當普遍。相比之下,神經網絡對非線性處理地相當不錯,但同時受到非單調性的羈絆,而邏輯回歸都無法處理。對于使用后兩種方法來處理的非線性和/或非單調性,我們需要廣泛的和適當的特征轉換。
隨機森林需要最小的特征預備和特征轉換,它不需要神經網絡和邏輯回歸要求的標準化輸入變量,也不需要聚類和風險評級轉換為非單調變量。
隨機森林相比其他算法擁有最好的開箱即用的性能。另一個基于樹的方法,梯度提升決策樹(GBT),可以達到類似的性能,但需要更多的參數調優。
隨機森林輸出特征的重要性體現在作為模型訓練的副產品,這對于特征選擇是非常有用的[2]。
隨機森林與其他算法相比具有更好的過擬合(overfitting)容錯性,并且處理大量的變量也不會有太多的過擬合[1],因為過擬合可以通過更多的決策樹來削弱。此外,變量的選擇和減少也不像其他算法那么重要。
下圖是隨機森林與其競爭對手的對比情況:
訓練算法
我們的機器學習流程遵循一個標準程序,包括數據抽取、數據清洗、特征推導、特征工程和轉換、特征選擇、模型訓練和模型性能評價:
洞察
經過大量的訓練,我們的隨機森林算法對于shell selling的識別已經成為現實,并且積極地阻止欺詐。當然我們還需要大量的工作去選擇、訓練和部署該算法,但是它已經使得我們的風險流程更加健壯,且有能力使用更少的人工來檢查抓住更多的欺詐。在同一欺詐召回率,這一模型的精度是不斷調整和優化規則的2 – 3倍。
使用這種算法,除了得到明顯的好處以外,我們對于數據和建模過程中使用的方法也有了更多的理解:
通過特征選擇的過程,我們發現對這種欺詐行為最有預測力的特征是速度型的變量。這些包括用戶的交易量、設備、真正的IP和信用卡。我們還發現,設備ID、銀行賬戶和信用卡等賬戶相關特性都是很有用的,如多個賬戶登錄到一個設備,以及多重提款到一個銀行賬戶。
風險等級的分類變量,如電子郵件域,應用程序ID、用戶的國家,以及一天中的時間風險評級,也證明了高度預測性。
數字足跡諸如瀏覽器語言、操作系統字體、屏幕分辨率、用戶代理、flash版本等對于反欺詐是有點用的。稍微有更多預測性的是在人們隱藏他們的數字足跡過程當中,例如VPN隧道或虛擬機和TOR的使用。
我們還發現模型性能迅速惡化。這真的不是一個驚喜——騙子不斷改變他們的方法來避免檢測,所以即使是最好的模型,如果不改變也終將過時。但是我們非常驚訝這發生的速度有多快。對shell selling而言,在模型訓練后僅僅第一個月精度便下降一半。因此, 經常刷新模型來保持高檢測精度對于欺詐檢測的成功是至關重要的。
不幸的是,頻繁刷新暴露出他們自己的問題。雖然刷新模型盡可能經常是理想的,但是在使用最近的事務數據來訓練模型時必須格外小心。欺詐標簽可以需要一個月成熟,所以事實上使用最近的數據也會污染模型。和我們最初的假設不同,利用最新數據在線學習并不會總能得到最好的結果。
隨機森林是一個生產高性能模型的優異的機器學習算法,然而,它通常被用來作為一個黑盒方法。這是一個問題,因為我們并不是試圖要完全削減人類的全部過程,而且很有可能無法做到即使我們愿意。人類分析師總是希望得到原因代碼,告訴他們為什么事情被標記之后來引導他們的案件審查。但隨機森林,就其本身而言,不能隨時提供原因代碼。解釋模型數據是困難的,而且還可能涉及挖掘“森林”的結構,這可以顯著提高評分的時間。實際上,為了應對這個問題,WePay的數據科學團隊發明了一種新的私有方法可以從隨機森林算生成原因代碼,我們為這種方法申請了臨時專利。
結論
風險管理技術是WePay的核心。風險管理不僅僅是技術,它還體現了人類和技術無縫合作的伙伴關系。它在很大程度上仍然是人類不得不思考的方式,騙子可以攻擊一個支付系統,編寫規則來阻止它們,而且還是一個經驗豐富的專業人員,當它下跌到 “明顯欺詐”和“顯然合法” 之間的灰色地帶時,它必須像經常處理的那樣,做出判斷是否阻止交易。
這就是為什么我們如此興奮于機器學習和人工智能。我們并非試圖取代人類,只是希望機器智能更加聰明更好地工作,而我們可以集中人類智慧關注其他的大難題。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25