
建模準備一定要做的這幾件事
今天我們來說建模中容易忽視,但是獨立完成模型時一定要自己分析的一個步驟--建模準備。
建模準備這里我想跟大家分享五個點,就是在建模準備中需要做的五個方面。
1
業務目的
模型都是建立在業務目的上的,我們要根據不同的業務目的建立不同的模型,那么業務目的會從以下三個方面出發:
1、客戶??蛻艨梢苑譃椋河绣X還的,沒錢還但是心里想還的,沒錢但是心里不想還的,以及有錢但是我就是不還的。后面兩種不還錢的人,我們定義他們為欺詐客戶,就是來借錢之前想著不還的,對于前兩種以及后面兩種客戶,我們的有不同的方式區別,
2、產品。不同的客戶的客戶特征是不同的,譬如貸款產品中會分出商人以及上班族的不同貸款,那么這時,我們假設客戶的一個變量,工資流水,對于商人來說可能有淡季旺季,所以流水可能波動大,但是上班族,除了年終的時候會波動一下,其實時候毫無波瀾。
3、行為??蛻粜袨?,是申請進件客戶,還是還款中客戶還是逾期需要催收的客戶。
2
好壞客戶定義
請看圖,c-m1的意思就是正??蛻糇兂捎馄谝黄诘恼急?,15年12月份有10000人來申請,那么在1月份有504個人逾期了,那么這504個人在2月份就是逾期一期的,跟著2月份來了,這504個人里面有77%還了錢就變成正??蛻袅?,但是有23%的人還是不還,所以在2月份里面有大概116個人是2016年1月逾期了2期的人,接著3月份,這些有些還了一期的錢變成逾期兩期的人,有些人全還了變成正常的人了,但是還有41.82%的人還是不還,那么3月是是2016年1月逾期了3期的人里面有大概49個人。到了4月份,之前3月份逾期了3期的那些人有些還錢了,但是還是有82.70%的人繼續逾期,大概是40個人逾期4期了。五月份了,這40個人有那么4.33%的人選擇了還錢,但是還有38個人繼續不還錢,這38個人在五月份就是逾期了5期了,六月份了,這38個人有97.62%的還是繼續不還,大概算一個人還了,可以看大隨著逾期的期數越多,會還錢的人越來越少,可以根據轉化率看到,最后的38個人與剛開始的49人,占比是77%,可以確定是的一旦客戶逾期3期以上的時候就有很大的概率變成壞賬客戶。
定義逾期多少期我們可以定義為逾期客戶之后,還需要確定還多少期之后的逾期三期的客戶算壞客戶,我們這里提一點是,我們本次的評分卡是圍繞申請評分卡展開的,那么申請評分卡的定位客戶是:想要還但是沒錢還的,即會出現短期或者長期資金緊缺的情況,那么這里就需要提到“賬齡”,在圖中可以發現在9個月之后,壞賬率趨于平緩,即在還了9個月到12個月期間的客戶我們可以判定其是因為資金的不足才壞賬的。即可以在9-12之間選擇一個賬齡,確定壞客戶的標準。然而在一般是實戰建模中與新巴塞爾資本協議中針對內部風險規范,也是建議12個月為單位較為合適。
3
準備建模樣本數據
A卡一般可做貸款0-1年的信用分析,B卡則是在申請人有了一定行為后,有了較大數據進行的分析,一般為3-5年,C卡則對數據要求更大,需加入催收后客戶反應等屬性數據。
評分卡數據需要累積到一段時間達到數據量的時候才能見面,圖中的橫軸是一條時間軸,左邊的為客戶的觀察期,右邊為客戶的展現期,那么剛才我們已經有了好壞定義,這時候就要用這個規則取數,假設我們剛才去的是12期逾期90+,那么這時候觀察期就是12期+90天,展現期中逾期30天的客戶就是壞客戶,展現期沒有逾期的客戶就是好客戶,那么這時候你會問還了12期的逾期30天的客戶算什么,算不到展現期的客戶,因為這時候你不能確定他是不是會在第31天就還上了。
如果你們是數學專業或者有上過多元統計分析這類的都知道,建模數據都會分訓練集以及測試集,測試集的作用是測試訓練集出來的模型可不可以對訓練集之外的數據用,那么在實際建模中還會加一個驗證集,測試集以及訓練集的好壞比例是跟建模樣本的比例是一樣的,驗證樣本是取建模數據往后退大概一兩個月的數據作為驗證樣本,這部分數據不僅測試模型能不能訓練集之外客戶可不可以用,還有驗證模型是不是會隨著時間的遷移而出現了效果偏差,但是模型效果出現偏差是肯定的,但是是否效果大幅度下降。
4
排除不可建模樣本數據
排除不要的樣本,以免影響變量效果,在風控系統中,被拒絕規則婉拒的客戶我們不加入建模樣本中,但是后期需要拒絕演繹還是需要這部分樣本,為什么這部分數據不要呢,因為本身我們不能確定他是不是真的是壞的,這里要說明一點是,拒絕規則是拒絕掉那些可能性很大是壞客戶的人,但是并不在公司的貸款中逾期,所以不能定義他就是壞的。
不到展現期客戶,即在觀察期的客戶,就是剛開借錢,但是還了幾期,還沒逾期,不能判定是不是壞人也不能進入模型樣本,至于還了多少期還沒逾期的算好客戶的,命中黑名單的客戶也同樣的道理。
5
討論是否進行樣本分群
剛才說的不同的產品會有不同的客戶特征,但是即使同樣的產品,同樣的客戶行為,那么樣本還會有不同的特征,譬如男女的逾期表現在某種程度上來講,女性逾期了會比男性低,所以如果在數據足夠的前提下,可以考慮通過不同的方式對客戶分群,分群的方式可以根據變量的分類的逾期率的不同,例如剛才講的是男女分群,男女前提是這兩種類型的人逾期率有一個差別,對于其他變量也一樣。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25