
大數據風控模型的基本流程
金融的本質是將風險偏好不同的資金供給方和風險不同的資金需求方匹配起來。而大數據風控看兩個方面的能力,一個是數據積累,另一個就是技術能力。分析可知,大數據風控模型的基本流程來主要分為四個部分:數據收集、數據建模、構建數據畫像和風險定價。
因為大數據風控模型是各家平臺的核心商業機密,我們不得而知。但我們可以從大數據風控模型的建立過程來窺知一二。大數據風控模型的基本流程來主要分為四個部分:數據收集、數據建模、構建數據畫像和風險定價。具體考核數據如下圖所示:
數據收集
大數據精準營銷的藍海領域,消費金融數據。這里簡要歸納一下,互聯網大數據包括:
用戶行為數據(精準廣告投放、內容推薦、行為習慣和喜好分析、產品優化等)
用戶消費數據(精準營銷、信用記錄分析、活動促銷、理財等)
用戶地理位置數據(O2O推廣,商家推薦,交友推薦等)
互聯網金融數據(P2P,小額貸款,支付,信用,供應鏈金融等)
用戶社交等UGC數據(趨勢分析、流行元素分析、受歡迎程度分析、輿論監控分析、社會問題分析等)
模型包含四大方面的數據:
一、個人/公司的基本信息,包括個人資歷、個人/公司的信用信息、公司財務指標、家庭結構關系、家庭社會地位關系、個人社交關系、工商注冊信息等;
二、個人/公司商務信息,包括線上零售交易信息、專利信息、個人/公司資質、土地出讓/轉讓信息、質押抵押信息等;
三、個人/公司社會公眾信息,包括涉訴信息、專利信息、被執行人信息等;
四、個人/公司社會關聯方信息,包括自媒體、證券社區、行政監管/許可、行業背景、商標、招中標、行政處罰、抵押擔保等。
常使用的模型:
1.聚類: 比如常見的相似文本聚類,大量用戶發相似帖子是常見的灌水行為,需要處理。
2.分類:比如我們根據已經識別的有風險和無風險的行為,去預測現在正在發生的行為,根據關鍵字動態去識別預測效果不錯。
3.離群點檢測:比如登錄行為,當同ip登錄大量登錄失敗,這種行為可能是暴力破解,當同ip登錄基本全部成功,這種行為可能是機器登錄,采用離群點檢測發現這兩類行為并處理等。
目前國內90%以上的建模團隊都使用Logistic回歸做評分卡,當然還有少數人使用決策樹,神經網絡和機器學習目前還沒在此行業有顯著成果。Logistic制作評分卡模型的衡量標準是K-S值的大小,依據數據質量和建模能力在0-0.5之間,一般在0.3以上才可用,好的模型可以達到0.35。芝麻分模型的K-S值在0.32左右。
應用案例:
1、欺詐風險用到模型主要是社會關系網絡模型,通過每筆案件之間的關系,判斷新案件是欺詐申請的可能性。
2、信用風險主要用到模型是邏輯回歸建立評分卡(也有的用決策樹),量化新申請人可能違約的概率,根據評分高低制定不同的授信規則和催收策略。
3、貸后管理也用到行為評分卡,例如額度調整和客戶風險分池管理等。
大數據風控對模型的挑戰:
1.模型的泛化能力:復雜的特征和模型可以增強模型的泛化能力,采用復雜特征和更多維度的特征是很有效的。
2.模型的可解釋性:風控模型識別出來的數據需要做相應的處理,任何機器識別處理都不可能完全避免用戶的投訴和異義,對于模型一定要了解業務特征,能夠轉化為客服和用戶可以理解的語言去解釋,使得任何處理我們都有理有據。
3.模型的更新速度:高對抗性場景下,模型快速更新是關鍵。
數據畫像
用戶畫像的底層是機器學習,那么無論是要做客戶分群還是精準營銷,都先要將用戶數據進行規整處理,轉化為相同維度的特征向量,諸多華麗的算法才可以有用武之地,像是聚類,回歸,關聯,各種分類器等等。
對于結構化數據而言,特征提取工作往往都是從給數據打標簽開始的。比如購買渠道,消費頻率,年齡性別,家庭狀況等等。好的特征標簽的選擇可以使對用戶刻畫變得更豐富,也能提升機器學習算法的效果(準確度,收斂速度等)。
我們在項目中根據不同維度提取了數十個多個標簽,下圖展示了其中的一部分。這些標簽主要有三個來源:
一個類是在IT系統中可以取得的信息,比如辦會員卡時留下的信息(性別,年齡,生日),購買渠道,積分情況等;
第二類是可以通過計算或是統計所獲得的,比如用戶對某類促銷活動的參與程度,對某種顏色/款式商品的偏好程度,是否進行過跨品牌的購買等;
第三類則是通過推測所得,比如送貨地址中出現“宿舍”,“學?!?,“大學”等字樣,則用戶身份可以推測為學生,出現“騰訊大廈”,“科技園”等信息時,則可判斷是上班族,并有很大概率是技術從業者。
在標簽的設計上也帶有較強的行業性,比如是否偏好購買當季爆款或是新品多于經典款(時尚度);是否更傾向購買低價或打折商品(價格敏感度);是否喜歡購買高價商品或限量版(反向價格敏感度)。
對于已經打好的標簽,根據不同的分析場景進行離散化,或將分類類型的標簽拆成多個0/1標簽,就可以進行一些機器學習的建模了,比如聚類,分類,預測,或者關聯性分析,最終生成的向量維度在數千個。
風險定價
量化風險管理的一個核心是風險定價,根據銀行自身的風險偏好來對資產進行定價,高風險資產定價較高,低風險產品定價較低,根據風險高低來制定資產收益,RBP(基于風險定價)已經成為主流。雖然對技術的應用日趨成熟,但現實的情況是,行業的業務模式仍然大量基于人海戰術,與上世紀八九十年代傳統金融企業的業務模式類似,在信用評級和風險定價方面過多依賴人的經驗。
目前的互聯網數據+金融已經開始改變這一狀況。尤其是在P2P風控領域,互聯網大數據積累已經讓風控進入2.0時代。通過數據的積累,可以實現客戶開發和數據采集通過人工完成。
多維度的風險定價系統
中國現實的難處是,個人信用數據缺失,央行征信只能覆蓋25%人群。同時金融機構風險定價水平不高,導致市場難以發展。目前京東用定價自己積累的數據推出了“京東白條”,螞蟻金服開發淘寶購買者數據推出了“花唄”,這些都有一個限制就是只能在指定的服務商消費才可以用。但這也從一定程度上說明利用大數據可以實現業務的功能。目前,已有一些P2P平臺通過接入了多家第三方數據用于風控。通過對數據的整合、補充、調用、評判等,使風控模型運算結果更加準確。
定制化的風險定價系統
從商務智能的角度說,模型、評分、策略等都是為具體的業務服務的,脫離了具體場景的模型和評分是無本之木,無源之水,脫離了業務場景談模型的準確性,沒有意義。不同的業務場景,產生了不同的數據,不同的數據包含的規律,體現在數據分析中就是模型、參數和評分。
這也要求評分的模型在設計之初,就要考慮如何更加智能。不同的人風控模型也會不同,因此定制化的風險定價系統將成為未來的趨勢。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24