
社交數據在征信領域的應用探索
在WOT”互聯網+”時代大數據技術峰會上,來自騰訊數據挖掘高級工程師劉黎春做了以《社交數據在征信領域的應用探索》為主題的演講,主要內容由社交征信背景、騰訊社交網絡數據、個體用戶畫像研究、社團圈子研究、模型建設及應用這五部分構成,下面我們就逐一為大家介紹各部分的內容。
社交征信背景
劉黎春表示,征信并不是一個簡單征信評分的模型,而是由數據公司、征信公司、征信使用方三部分組成。數據公司就是采集或做一些數據的初步挖掘,這類公司可能會有特殊的數據源,例如法院、公安等這些數據都是需要深入行業背景才能拿到。征信公司是有一個產權聯系,另外它也會向第三方一些數據公司去購買一些數據回來,豐富它數據的維度,并且基于這些數據去做一些征信的事情,提供一些征信級的解決方案。征信使用方就是征信的解決方案最后給到誰來用。一般來說我們的理解就是銀行和P2P的貸款機構。這三部分綜合起來,就形成了一個整體的征信行業的產業鏈。
傳統征信相關機構
美國著名征信公司
國內征信發展歷程
綜合以上四圖的數據來看,如果社交數據可以用到征信中的話,是不是可以對央行的征信系統做一個很好的補充呢?劉黎春表示,這是騰訊在做社交征信項目時最開始思考的問題。社交數據非常龐大,但并不一定都是有效數據,還要看具體應用的業務場景是不是和數據有相關性,這些數據是不是真的能夠用到最后的模型或者算法中去。這樣問題就接踵而來,社交數據與信用評級有關系嗎? 交易數據天然具備金融屬性,社交數據有嗎? 社交數據非結構化程度高,怎么挖掘并有效使用?
騰訊社交網絡數據
在談騰訊社交網絡數據構成之前,劉黎春先介紹了傳統征信的分析維度。其一是用戶的基礎信息,如年齡、性別、職業、收入、婚姻狀況,工作年限,工作狀況等基本上和每家銀行或者每個做征信的機構獲得的數據都差不多。其二是信貸情況,看用戶申請幾張信用卡,最近一個月的征信報告被查詢的次數,因為我們大家都知道征信報告被查詢的次數可以直接代表最近有沒有比較頻繁地做貸款的申請或者信用卡申請。如果最近的次數特別多,那說明這個人最近非常缺錢,可能就會影響信用,直接影響授信額度。
上圖是騰訊的數據現狀,包含了很多維度的數據,覆蓋的用戶數相對來說更加全面一些。
騰訊社交征信SWOT分析
上圖為騰訊社交征信SWOT分析,優勢、劣勢、機會、風險一目了然。有了這樣詳細的分析,做個人征信是必然的事情,但做征信之前要清楚的知道征信對象是什么樣子,所以開始著手做個體用戶畫像的研究。
個體用戶畫像研究
劉黎春表示,做個體用戶畫像研究遇到的挑戰主要有如下三方面:其一,如何充分利用騰訊各種豐富的數據資源及之間的聯系?其二,如何使用戶畫像適應各種不同的應用場景?其三,如何高效的處理海量的用戶數據(超過10億的QQ用戶, 超過千億級別的各類日志數據) ?面對這些挑戰,劉黎春給出來相應的解決方案如下:
1.針對不同的底層數據類型設計特定的挖掘算法,挖掘用戶的行為特征,形成底 層標簽。綜合考慮不同數據來源的,形成更上層的抽象用戶標簽
2.建立完善的用戶畫像標簽體系結構,從不同維度、粒度對用戶進行描述。
3.搭建用戶畫像挖掘系統,基于大規模存儲和機器學習計算平臺,定期對全 量用戶數據進行計算和挖掘,并提供用戶標簽的使用和查詢服務。
用戶畫像系統架構
用戶畫像行業挖掘
用戶畫像挖掘結果
個人用戶畫像研究的結果就是把結構化數據,文本分類,LBS數據,社交網絡傳播擴散這些挖掘之后形成一個比較完整的畫像,比如說人口的一些基礎屬性如年齡、家鄉、興趣等。同時也會對用戶婚姻狀況來做一個判斷。有了這些數據之后,就可以基于這些用戶數據去做很多社交征信工作。
社團圈子研究
這里說到的社團圈子其實就是QQ圈子,劉黎春表示,在2012年有一個社交網絡的成果非常有影響力,那就是把挖掘出來的結果作用到整個前端的QQ用戶。具體案例就是如用戶的某個同事,你們并不是直接的好友關系,但騰訊會知道這期間的潛在關系,或自動分到同事分組并同時加上備注。這個結果在當時引起了很大爭議有人覺得對于他們找到一些潛在好友提供便利,但有些人覺得觸碰了他們的隱私。
QQ圈子除了它自己本身之外,也會把它作用到很多場其他景里去,比如說用它來挖掘學歷的信息,基于QQ圈子好友的備注,如說很多人把這個用戶備注成一個本科同學,那系統可能會判斷我的學歷是本科學歷。這樣的數據騰訊是拿一些真實的數據做過驗證,數據覆蓋率大概能覆蓋74%,準確到90%以上。
社交網絡拓撲的應用
社交網絡拓撲的應用無外乎有兩種,其一是是判斷拓撲的類型,其二是研究這些類型在這個關系鏈里的影響力。比較有標志性的拓撲類型有三角形和心型兩種結構。
模型建設及應用
那么要如何把個體用戶畫像和社團圈子的研究,用到模型中去呢?劉黎春表示,首先要做的事情就是先建立一個社交模型,但在建模之前要做一些基本假設,如兩個QQ號碼是屬于同一個人的話有一些比較明顯的特征,第一個他會經常在同一個設備里面登陸,或者在同樣的IP里面登陸,或者它有其他特征的表現等等。最后把這些特征用來建立模型,去判斷說某幾個QQ號碼背后對應的到底是不是同樣一個人,這個的準確率大概是85%,覆蓋率是75%左右。
變量衍生與模型結果
模型整體效果
微粒貸應用
最后劉黎春介紹征信模型運用到微粒貸中的具體應用流程,上圖為產品截圖。打開QQ如果能夠看到微粒貸入口,說明是在騰訊篩選出的白名單里面。只要你點擊了申請開通,它會馬上給你算一個額度出來,如果你要借款,這個也是非???,只要你綁定了你的銀行卡,應該在兩分鐘之內會把你的借款打到你的賬上。其實這個相對于去傳統銀行借款的話,它這個效率是有一個質的飛躍。但其前臺產品表現得越簡單,它背后的技術可能是越復雜的技術。征信模型作為微粒貸背后技術就是為了篩選具有良好信用的用戶,為這些用戶提供貸款服務。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25