熱線電話:13121318867

登錄
首頁精彩閱讀建模準備一定要做的這幾件事
建模準備一定要做的這幾件事
2018-08-21
收藏

建模準備一定要做的這幾件事

今天我們來說建模中容易忽視,但是獨立完成模型時一定要自己分析的一個步驟--建模準備。

建模準備這里我想跟大家分享五個點,就是在建模準備中需要做的五個方面。

1

業務目的

模型都是建立在業務目的上的,我們要根據不同的業務目的建立不同的模型,那么業務目的會從以下三個方面出發:

1、客戶??蛻艨梢苑譃椋河绣X還的,沒錢還但是心里想還的,沒錢但是心里不想還的,以及有錢但是我就是不還的。后面兩種不還錢的人,我們定義他們為欺詐客戶,就是來借錢之前想著不還的,對于前兩種以及后面兩種客戶,我們的有不同的方式區別,

2、產品。不同的客戶的客戶特征是不同的,譬如貸款產品中會分出商人以及上班族的不同貸款,那么這時,我們假設客戶的一個變量,工資流水,對于商人來說可能有淡季旺季,所以流水可能波動大,但是上班族,除了年終的時候會波動一下,其實時候毫無波瀾。

3、行為??蛻粜袨?,是申請進件客戶,還是還款中客戶還是逾期需要催收的客戶。

2

好壞客戶定義

請看圖,c-m1的意思就是正??蛻糇兂捎馄谝黄诘恼急?,15年12月份有10000人來申請,那么在1月份有504個人逾期了,那么這504個人在2月份就是逾期一期的,跟著2月份來了,這504個人里面有77%還了錢就變成正??蛻袅?,但是有23%的人還是不還,所以在2月份里面有大概116個人是2016年1月逾期了2期的人,接著3月份,這些有些還了一期的錢變成逾期兩期的人,有些人全還了變成正常的人了,但是還有41.82%的人還是不還,那么3月是是2016年1月逾期了3期的人里面有大概49個人。到了4月份,之前3月份逾期了3期的那些人有些還錢了,但是還是有82.70%的人繼續逾期,大概是40個人逾期4期了。五月份了,這40個人有那么4.33%的人選擇了還錢,但是還有38個人繼續不還錢,這38個人在五月份就是逾期了5期了,六月份了,這38個人有97.62%的還是繼續不還,大概算一個人還了,可以看大隨著逾期的期數越多,會還錢的人越來越少,可以根據轉化率看到,最后的38個人與剛開始的49人,占比是77%,可以確定是的一旦客戶逾期3期以上的時候就有很大的概率變成壞賬客戶。

定義逾期多少期我們可以定義為逾期客戶之后,還需要確定還多少期之后的逾期三期的客戶算壞客戶,我們這里提一點是,我們本次的評分卡是圍繞申請評分卡展開的,那么申請評分卡的定位客戶是:想要還但是沒錢還的,即會出現短期或者長期資金緊缺的情況,那么這里就需要提到“賬齡”,在圖中可以發現在9個月之后,壞賬率趨于平緩,即在還了9個月到12個月期間的客戶我們可以判定其是因為資金的不足才壞賬的。即可以在9-12之間選擇一個賬齡,確定壞客戶的標準。然而在一般是實戰建模中與新巴塞爾資本協議中針對內部風險規范,也是建議12個月為單位較為合適。

3

準備建模樣本數據

A卡一般可做貸款0-1年的信用分析,B卡則是在申請人有了一定行為后,有了較大數據進行的分析,一般為3-5年,C卡則對數據要求更大,需加入催收后客戶反應等屬性數據。

評分卡數據需要累積到一段時間達到數據量的時候才能見面,圖中的橫軸是一條時間軸,左邊的為客戶的觀察期,右邊為客戶的展現期,那么剛才我們已經有了好壞定義,這時候就要用這個規則取數,假設我們剛才去的是12期逾期90+,那么這時候觀察期就是12期+90天,展現期中逾期30天的客戶就是壞客戶,展現期沒有逾期的客戶就是好客戶,那么這時候你會問還了12期的逾期30天的客戶算什么,算不到展現期的客戶,因為這時候你不能確定他是不是會在第31天就還上了。

如果你們是數學專業或者有上過多元統計分析這類的都知道,建模數據都會分訓練集以及測試集,測試集的作用是測試訓練集出來的模型可不可以對訓練集之外的數據用,那么在實際建模中還會加一個驗證集,測試集以及訓練集的好壞比例是跟建模樣本的比例是一樣的,驗證樣本是取建模數據往后退大概一兩個月的數據作為驗證樣本,這部分數據不僅測試模型能不能訓練集之外客戶可不可以用,還有驗證模型是不是會隨著時間的遷移而出現了效果偏差,但是模型效果出現偏差是肯定的,但是是否效果大幅度下降。

4

排除不可建模樣本數據

排除不要的樣本,以免影響變量效果,在風控系統中,被拒絕規則婉拒的客戶我們不加入建模樣本中,但是后期需要拒絕演繹還是需要這部分樣本,為什么這部分數據不要呢,因為本身我們不能確定他是不是真的是壞的,這里要說明一點是,拒絕規則是拒絕掉那些可能性很大是壞客戶的人,但是并不在公司的貸款中逾期,所以不能定義他就是壞的。

不到展現期客戶,即在觀察期的客戶,就是剛開借錢,但是還了幾期,還沒逾期,不能判定是不是壞人也不能進入模型樣本,至于還了多少期還沒逾期的算好客戶的,命中黑名單的客戶也同樣的道理。

5

討論是否進行樣本分群

剛才說的不同的產品會有不同的客戶特征,但是即使同樣的產品,同樣的客戶行為,那么樣本還會有不同的特征,譬如男女的逾期表現在某種程度上來講,女性逾期了會比男性低,所以如果在數據足夠的前提下,可以考慮通過不同的方式對客戶分群,分群的方式可以根據變量的分類的逾期率的不同,例如剛才講的是男女分群,男女前提是這兩種類型的人逾期率有一個差別,對于其他變量也一樣。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢