
如何利用大數據做金融風控
隨著金融科技、科技金融等概念的熱起,以及互聯網金融、無金融服務群體的剛性需求下,大數據風控技術也獲得越來越廣泛地重視和應用。但是,如何利用大數據、機器學習等前沿技術做金融風控?如何通過海量數據與欺詐風險進行博弈?本次硬創公開課我們邀請了同盾科技首次風險官董騮煥博士為我們解答。
董騮煥是南開大學概率統計博士,他博士畢業后加入中科院,2007年加入IBM/ ILOG從事決策模型在各種業務問題中的應用。2010年至2013年先后在FICO和SAS支持金融反欺詐事業。2015年5月15日,董騮煥加入同盾科技,負責反欺詐以及數據分析。目前他仍擔任上海財經大學統計管理學院兼職碩導和教育指導委員會成員。
以下是本次公開課要點:
同盾提倡跨行業聯防聯控,一個維度是打破企業之間的數據孤島,即企業與企業、平臺之間的數據交通障礙。另一方面是行業與行業之間也存在一定的風險重合,比如信貸行業與電商行業、O2O行業之間,需要一定的機制來打破數據障礙。
風控體系:事前、事中、事后調控
整個風控體系包括幾個環節:
事前:在風險發生之前就要通過對風險輿情的監控發現風險,比如在某些惡意的欺詐團伙即將發動欺詐攻擊前就采取措施來提前防御,比如通過規則加緊,把模型閾值調高等方法。
事中:信貸借款申請,在線上注冊激活的過程中,根據自動風險評估,包括申請欺詐,信用風險等來選擇是否拒絕發放貸款。
事后:貸款發放以后的風險監控,如果借款人會出現與其他平臺的新增申請,或者長距離的位置轉移,或者手機號停機等信號,可作為貸后風險預警。
如何提前在網絡中把騙子揪出?最基礎的技術:設備指紋
在介紹整個風控體系時我認為,對于網絡行為或者線上借貸,最最基礎或者最最重要的技術是設備指紋。為什么呢?從上圖中我們可以看到,網絡上的設備模擬或攻擊,比如各種各樣的自動機器人,實際上是對網絡環境造成極大的干擾,在信貸中會導致信用風險的誤判。這個是第一道。
網絡設備最關鍵的地方是要實現對設備唯一性的保證,第二是抗攻擊,抗篡改。網上有各種高手會進行模擬器修改,修改設備的信息和干擾設備的定位等以各種手段來干擾設備的唯一性認定。
所以對抗這樣的情況的技術要點在于:抗攻擊、抗干擾、抗篡改。另一方面能夠識別出絕大部分的模擬器。
設備定位:基站和WiFi三角定位
接下來就是設備定位。
非GPS定位
值得注意的是,在模擬器或者智能設備系統里面它可以把GPS定位功能關掉。而如果通過將基站的三角計算或者WIFI的三角計算定位結合起來,定位的精度較高,且不受GPS關閉的影響。
這可以應用在信貸貸后管理,用來監測借款人的大范圍位置偏移。
地址的模糊匹配
對于位置來講還有一個重要方面是地址的模糊匹配。在信用卡或者線下放貸中,地址匹配是一個重要的風險審核因素,但是地址審批過程存在一個問題:平臺與平臺之間因為輸入格式不同或者輸入錯誤等問題造成難以匹配,那就需要模糊算法來進行兩兩匹配,以及數個地址之間進行比對,或者在存量庫中搜索出歷史中的風險或者相關性名單來進行比對。這其中涉及的技術包括模糊匹配算法和海量地址的管理和實時比對。
復雜網絡
復雜網絡有時候大家稱之為知識圖譜,但這中間有點區別:復雜網絡更偏向于從圖論的角度進行網絡構建后進行實體結構算法分析,知識圖譜更偏重于是在關聯關系的展現。
網絡分析最重要的一點是具有足夠的數據量,能夠對大部分網絡行為進行監控和掃描,同時形成相應的關聯關系,這不僅是實體與實體之間、事件與事件的關系,并且體現出“小世界(7步之內都是一家人)”、“冪分布”等特征。
舉個例子:團伙性欺詐嫌疑識別。有一個被拒絕的用戶中,關聯出來了一個失信的身份證和設備,而且發現其設備有較多的申請行為,那么,這個被關聯出來的用戶或將需要嚴格的人工審核,甚至可以直接拒絕。
通過對借款事件的深入挖掘,我們可以關聯出大量的借款事件。這個需要進行一些算法分團,可以把相關的聯系人都分到一個地方,然后進行關聯成團的團伙性分析,根據圖論上的屬性如團的密集程度和某些路徑的關鍵程度等,比如介數,圖直徑等角度來估計風險。
數據抽樣結果案例:騙子遁形
通過對內部大量數據的抽樣分析,可以看到一些意思的現象:潛在的威脅者,出于惡意目的,他的行為會和正常的用戶有所不同。這里面有幾個例子可以分享:
其中一個是設備與關聯賬戶的數量與欺詐風險的關系。當然這不僅包括了信貸行業的欺詐,還包括賬戶層面的盜取賬戶、作弊、交易等欺詐風險??梢钥吹?,當設備關聯賬戶量大于3-5個時,其風險系數明顯增高。此外,當關聯數量大于五時,風險率也是明顯偏高。
另外一個是對于多頭負責與不良率的比較:7天內貸款平臺數高于5時其風險也是明顯偏高的。雖然這個數據還沒有做進一步的清洗和交叉衍生新的變量,但也可以看出其中的風險相關程度。
另外是某個特定客群的建模抽樣分析。例如多次借款申請人如果180天內夜間申請借款的比例——就是有借款行為的同時,如果大于四分之一的借款申請是在夜間的,其風險明顯增加。
數據都是客觀的,取決于數據形成后對業務的分析和解讀。
優秀的決策引擎是怎樣的?
一個優秀的決策引擎包括以下幾點:
靈活可配——不但可以配規則,還可以配規則的字段和權重。業務友好就不用說了。
快速部署——配置好的規則模型可以實時生效,當然如果涉及一般規則修改時,可以做一個灰度部署。
決策流——它可以把不同的規則和模型串到一起,形成一個決策流,實現貸前、貸中、貸后的全流程監控。它要可以實現對數據的按需調用,比如把成本低的數據放到前面,逐步把成本較高的數據放到后面。因為有些決策在前面成本較低的數據下已經可以形成,就不必調用高成本的數據。
AB測試和冠軍挑戰——對于規則修改、調優時尤其重要。兩套規則跑所有的數據,最終來比較規則的效果。另一種是分流——10%跑新規則,90%跑老規則,隨著時間的推移來根據測試結果的有效性。
支持模型的部署——線性回歸、決策樹等簡單模型容易將其變成規則來部署,但支持向量機、深度學習等對模型支持的功能有更高的要求。
信用評估
那經過以上的手段,我們基本可以具有一個很強的力度來排除信用風險,那么以下便是信用評估階段。
評分卡模型
評分卡分為申請、行為、催收評分卡。申請評分卡用于貸前審核;行為評分卡作為貸中貸后監控,例如調額,提前預知逾期風險。它可以通過歷史的數據和個人屬性等角度來預測違約的概率。信用評分主要用于信用評分過程中的分段,高分段可以通過,低分段可以直接拒絕。
因為行業不同,客群與業務不同,評分卡的標準也有所不同。對于有歷史表現的客戶,我們可以將雙方的XY變量拿出來,進行一個模型共建,做定制化的評分。
構建一個評分卡模型,目前傳統的方法是銀行體系中使用的:數據清洗、變量衍生、變量選擇然后進行邏輯回歸這樣一個建模方式。
那么機器學習和傳統方法最主要的區別是變量選取過程的不同——如果還是基于傳統的變量選取方法,那通過機器學習訓練出來的模型,其實還是傳統的模型,其模型雖然一個非線性模型,但是其背后體現不出機器學習的優勢。
核心技術與挑戰
在目前圍繞大數據、大數據決策為核心的風控技術體系中,整體的數據量達到一定水平,存在的挑戰將會是數據的稀疏化。隨著風控業務覆蓋的行業越來越多,平臺間的數據稀疏問題就越明顯。(雷鋒網(搜索“雷鋒網”公眾號關注)注:“稀疏數據”即矩陣中含零元素特別多,這意味著無益于增加數據信息量的無用元素很多,對于數據從存儲,處理到建模都有挑戰。)
此外,其實對于大數據來說,即便具有數據和大數據決策,如果沒有一個很穩定的落地平臺也是一個空中樓閣。大數據應用要做到完整,還需要符合以下要求的平臺:一是容納量,能夠容納特別多的數據;一個是響應:任何決策都能實時響應;一個是并發,在大量數據并發時也能保持調用。此外,安全性自不待言。
問答:
問:深度學習是怎么用于風險控制的呢?
董騮煥:深度學習本身個框架,是結合非監督學習和監督學習的神經網絡訓練和部署的框架,只要有目標,有數據就可以衍生特征,就可以做目標訓練,可以當成一般機器學習去用。當然深度學習有些優勢,比如無監督的特征選取方式,另外訓練的過程中雖然計算量比較大,但也是可以接受的。
概括地說你可以認為深度學習是模型的一種。因為深度學習有些特殊的優勢,比如特征選取的自動產生,即無監督方式。 另外,它可以實現稀疏數據結構的特征生成,而且可以通過正則化的方式來控制特征的生成,這對于具有大量數據,同時維度特別多,而且稀疏化的情況時就特別有用。
問:有一個問題,有沒有一種可能,對于用戶畫像,判斷的維度越多,得到的一些結論是沖突的。這個情況如果存在,是怎么協調,看權重么?
董騮煥:如果傳統的方法,這些維度,比如幾千個維度經過模型變量的篩選,有些變量是值越高越正面,有些是值越低越正面,就是WOE是不同的方向,這種情況下可以通過建模的方式來進行權重的訓練,來做一個協調。
問:根據最新關于互聯網金融平臺法規的實施,從數據平臺的角度分析下,大數據是否會取代以后的人工審核?您對互金風控未來的發展趨勢認為是什么樣的?
董騮煥:確實取決于不同信貸產品。比如小微的信貸產品,其立足點也許是經營性的評估,甚至包括現場的實際調研——水、電、煤,以及稅務調查。而對于一些小額分散的信貸產品,比如信用卡代償,這些由于量太大金額又很小,人工審核的話成本會太高。當然還有一些中間層面的,比如幾千到幾萬元的借貸,這種情況當前更多還是互相并存的方式。
至于“未來互聯網審核取代人工審核”這個命題,我認為更多取決于線上個人身份認證問題的解決。也就是說,目前線上沒有真正能完全規避偽冒的風險,包括活體認證和手持拍照等措施,尤其是大金額,走線上途徑還是有一定風險的,因此需要從信貸流程的各個維度來控制。
對于未來的風控我認為是往風險經營走,2個方向:一個是個人定制化,讓每個人都有不同的風險識別,以及對應的信貸產品。另外是最優化的授信,實現平臺的某個目標的最大化,比如收入最大化、利潤最大化,此外還有市場占有最大化——對于低風險人群的容忍,這當然取決于一個平臺的風險偏好,但這個風險偏好最大的基礎是對風險的準確識別,這樣相應的風險優化才是有效的。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《劉靜:10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda ...
2025-04-23