熱線電話:13121318867

登錄
首頁精彩閱讀數據挖掘技術在信用卡業務中的應用案例分享
數據挖掘技術在信用卡業務中的應用案例分享
2016-09-10
收藏

數據挖掘技術在信用卡業務中的應用案例分享

信用卡業務具有透支筆數巨大、單筆金額小的特點,這使得數據挖掘技術在信用卡業務中的應用成為必然。國外信用卡發卡機構已經廣泛應用數據挖掘技術促進信用卡業務的發展,實現全面的績效管理。我國自1985年發行第一張信用卡以來,信用卡業務得到了長足的發展,積累了巨量的數據,數據挖掘在信用卡業務中的重要性日益顯現。

一、數據挖掘技術在信用卡業務中的應用

數據挖掘技術在信用卡業務中的應用主要有分析型客戶關系管理、風險管理和運營管理。

1.分析型CRM
分析型CRM應用包括市場細分、客戶獲取、交叉銷售和客戶流失。信用卡分析人員搜集和處理大量數據,對這些數據進行分析,發現其數據模式及特征,分析某個客戶群體的特性、消費習慣、消費傾向和消費需求,進而推斷出相應消費群體下一步的消費行為,然后以此為基礎,對所識別出來的消費群體進行特定產品的主動營銷。這與傳統的不區分消費者對象特征的大規模營銷手段相比,大大節省了營銷成本,提高了營銷效果,從而能為銀行帶來更多的利潤。對客戶采用何種營銷方式是根據響應模型預測得出的客戶購買概率做出的,對響應概率高的客戶采用更為主動、人性化的營銷方式,如電話營銷、上門營銷;對響應概率較低的客戶可選用成本較低的電子郵件和信件營銷方式。除獲取新客戶外,維護已有優質客戶的忠誠度也很重要,因為留住一個原有客戶的成本要遠遠低于開發一個新客戶的成本。在客戶關系管理中,通過數據挖掘技術,找到流失客戶的特征,并發現其流失規律,就可以在那些具有相似特征的持卡人還未流失之前,對其進行有針對性的彌補,使得優質客戶能為銀行持續創造價值。

2.風險管理

數據挖掘在信用卡業務中的另一個重要應用就是風險管理。在風險管理中運用數據挖掘技術可建立各類信用評分模型。模型類型主要有三種:申請信用卡評分卡、行為信用評分卡和催收信用評分卡,分別為信用卡業務提供事前、事中、和事后的信用風險控制。

申請評分模型專門用于對新申請客戶的信用評估,它應用于信用卡征信審核階段,通過申請人填寫的有關個人信息,即可有效、快速地辨別和劃分客戶質量,決定是否審批通過并對審批通過的申請人核定初始信用額度,幫助發卡行從源頭上控制風險。申請評分模型不依賴于人們的主觀判斷或經驗,有利于發卡行推行統一規范的授信政策。行為評分模型是針對已有持卡人,通過對持卡客戶的行為進行監控和預測,從而評估持卡客戶的信用風險,并根據模型結果,智能化地決定是否調整客戶信用額度,在授權時決定是否授權通過,到期換卡時是否進行續卡操作,對可能出現的使其提前進行預警。催收評分模型是申請評分模型和行為評分模型的補充,是在持卡人產生了逾期或壞賬的情況下建立的。催收評分卡被用于預測和評估對某一筆壞賬所采取措施的有效性,諸如客戶對警告信件反應的可能性。這樣,發卡行就可以根據模型的預測,對不同程度的逾期客戶采取相應措施進行處理。以上三種評分模型在建立時,所利用的數據主要是人口統計學數據和行為數據。人口統計學數據包括年齡、性別、婚姻狀況、教育背景、家庭成員特點、住房情況、職業、職稱、收入狀況等。行為數據包括持卡人在過去使用信用卡的表現信息,如使用頻率、金額、還款情況等。由此可見,數據挖掘技術的使用,可以使銀行有效地建立起事前、事中到事后的信用風險控制體系。

3.運營管理

雖然數據挖掘在信用卡運營管理領域的應用不是最重要的,但它已為國外多家發卡公司在提高生產效率、優化流程、預測資金和服務需求、提供服務次序等問題的分析上取得了較大成績。

二、常用的數據挖掘方法

上述數據挖掘技術在信用卡領域的應用中,有很多工具可用于開發預測和描述模型。有些用統計方法,如線性回歸邏輯回歸;有些有非統計或混合方法,如神經網絡、遺傳算法、決策樹及回歸樹。這里僅討論幾種常見的典型方法。

1.線性回歸

簡單線性回歸分析是量化兩個連續變量之間關系的一種統計技術。這兩個變量分別是因變量(預測變量)。使用這一方法,可以發現一條穿過數據的線,線上的點使對應數據點的方差最小。為市場營銷、風險和客戶關系管理建立模型時,通常有多個自變量,用多個獨立自變量來預測一個連續變量稱為多元線性回歸,用線性回歸方法建立的模型通常具有魯棒性。

2.邏輯回歸

邏輯回歸是使用最廣泛的建模技術,與線性回歸很相似。兩者的主要區別在于邏輯回歸的因變量(想預測變量)不是連續的,而是離散的或者類型變量。如申請評分模型可運用邏輯回歸方法,選取關鍵變量確定回歸系數。以申請者的關鍵變量x1,x2,…xm為自變量,以y=[1 申請者是壞客戶;0 申請者是好客戶,為因變量,則對于二分類因變量,一般假設客戶變壞的概率為 p(y=1)=eβ0+β1×1+…+βmxm/1+eβ0+β1×1+…+βmxm式中,β0,β1…,βm是常數,即1n(p/1-p)=β0+β1×1+…+βmxm

3.神經網絡

神經網絡處理和回歸處理大不相同,它不依照任何概率分布,而是模仿人腦功能,可以認為它是從每一次經驗中提取并學習信息。神經網絡系統由一系列類似于人腦神經元一樣的節點組成,這些節點通過網絡彼此互連。如果有數據輸入,它們便可以進行確定數據模式的工作。神經網絡由相互連接的輸入層、中間層(或隱藏層)、輸出層組成。中間層由多個節點組成,完成大部分網絡工作。輸出層輸出數據分析的執行結果。

4.遺傳算法

與神經元網絡類似,遺傳算法也不遵循任何概率分布,是源自“適者生存”的進化過程。它首先將問題的可能解按某種形式進行編碼,編碼后的解稱為染色體。隨機選取n個染色體作為初始種群,再根據預定的評價函數對每個染色體計算適應值,性能較好的染色體有較高的適應值。選擇適應值較高的染色體進行復制,并通過遺傳算子產生一群新的更適應環境的染色體,形成新的種群,直至最后收斂到一個最適應環境的個體,得到問題的最優化解。

5.決策樹

決策樹的目標是逐步將數據分類到不同的組或分支中,在因變量的值上建立最強劃分。由于分類規則比較直觀,所以易于理解。圖1為客戶響應的決策樹,從中很容易識別出響應率最高的組。

三、實例分析

以下以邏輯回歸方法建立信用卡申請評分模型為例,說明數據挖掘技術在信用卡業務中的應用。申請評分模型設計可分為7個基本步驟。

1.定義好客戶和壞客戶的標準

好客戶和壞客戶的標準根據適合管理的需要定義。按照國外的經驗,建立一個預測客戶好壞的風險模型所需的好、壞樣本至少各要有1000個左右。為了規避風險,同時考慮到信用卡市場初期,銀行的效益來源主要是銷售商的傭金、信用卡利息、手續費收入和資金的運作利差。因此,一般銀行把降低客戶的逾期率作為一個主要的管理目標。比如,將壞客戶定義為出現過逾期60天以上的客戶;將壞客戶定義為出現過逾期60天以上的客戶;將好客戶定義為沒有30天以上逾期且當前沒有逾期的客戶。

一般來講,在同一樣本空間內,好客戶的數量要遠遠大于壞客戶的數量。為了保證模型具有較高的識別壞客戶的能力,取好、壞客戶樣本數比率為1:1。

2.確定樣本空間

樣本空間的確定要考慮樣本是否具有代表性。一個客戶是好客戶,表明持卡人在一段觀察期內用卡表現良好;而一個客戶只要出現過“壞”的記錄,就把他認定為壞客戶。所以,一般好客戶的觀察期要比壞客戶長一些、好、壞客戶可以選擇在不同的時間段,即不同的樣本空間內。比如,好客戶的樣本空間為2003年11月-2003年12月的申請人,壞客戶的樣本空間為2003年11月-2004年5月的申請人,這樣既能保證好客戶的表現期較長,又能保證有足夠數量的壞客戶樣本。當然,抽樣的好、壞客戶都應具有代表性。

3.數據來源

在美國,有統一的信用局對個人信用進行評分,通常被稱為“FICO評分”。美國的銀行、信用卡公司和金融機構在對客戶進行信用風險分析時,可以利用信用局對個人的數據報告。在我國,由于征信系統還不完善,建模數據主要來自申請表。隨著我國全國性征信系統的逐步完善,未來建模的一部分數據可以從征信機構收集到。

4.數據整理

大量取樣的數據要真正最后進入模型,必須經過數據整理。在數據處理時應注意檢查數據的邏輯性、區分“數據缺失”和“0”、根據邏輯推斷某些值、尋找反常數據、評估是否真實??梢酝ㄟ^求最小值、最大值和平均值的方法,初步驗證抽樣數據是否隨機、是否具有代表性。

5.變量選擇

變量選擇要同時具有數學統計的正確性和信用卡實際業務的解釋力。Logistic回歸方法是盡可能準確找到能夠預測因變量的自變量,并給予各自變量一定權重。若自變量數量太少,擬合的效果不好 ,不能很好地預測因變量的情況;若自變量太多,會形成過分擬合,預測因變量的效果同樣不好。所以應減少一些自變量,如用虛擬變量表示不能量化的變量、用單變量和決策樹分析篩選變量。與因變量相關性差不多的自變量可以歸為一類,如地區對客戶變壞概率的影響,假設廣東和福建兩省對壞客戶的相關性分別為-0.381和-0.380,可將這兩個地區歸為一類,另外,可以根據申請表上的信息構造一些自變量,比如結合申請表上“婚姻狀況”和“撫養子女”,根據經驗和常識結合這兩個字段,構造新變量“已婚有子女”,進入模型分析這個變量是不真正具有統計預測性。

6.模型建立

借助SAS9軟件,用逐步回歸法對變量進行篩選。這里設計了一種算法,分為6個步驟。

步驟1:求得多變量相關矩陣(若是虛擬變量,則>0.5屬于比較相關;若是一般變量,則>0.7-0.8屬于比較相關)。

步驟2:旋轉主成分分析(一般變量要求>0.8屬于比較相關;虛擬變量要求>0.6-0.7屬于比較相關)。

步驟3:在第一主成分和第二主成分分別找出15個變量,共30個變量。

步驟4:計算所有30個變量對好/壞的相關性,找出相關性大的變量加入步驟3得出的變量。

步驟5:計算VIF。若VIF數值比較大,查看步驟1中的相關矩陣,并分別分析這兩個變量對模型的作用,剔除相關性較小的一個。

步驟6:循環步驟4和步驟5,直到找到所有變量,且達到多變量相關矩陣相關性很而單個變量對模型貢獻作用大。

7.模型驗證

在收集數據時,把所有整理好的數據分為用于建立模型的建模樣本和用于模型驗證的對照樣本。對照樣本用于對模型總體預測性、穩定性進行驗證。申請評分模型的模型檢驗指標包括K-S值、ROC、AR等指標。雖然受到數據不干凈等客觀因素的影響,本例申請評分模型的K-S值已經超過0.4,達到了可以使用的水平。

四、數據挖掘在國內信用卡市場的發展前景

在國外,信用卡業務信息化程度較高,數據庫中保留了大量的數量資源,運用數據技術建立的各類模型在信用卡業務中的實施非常成功。目前國內信用卡發卡銀行首先利用數據挖掘建立申請評分模型,作為在信用卡業務中應用的第一步,不少發卡銀行已經用自己的歷史數據建立了客戶化的申請評分模型??傮w而言,數據挖掘在我國信用卡業務中的應用處于數據質量問題,難于構建業務模型。

隨著國內各家發卡銀行已經建立或著手建立數據倉庫,將不同操作源的數據存放到一個集中的環境中,并且進行適當的清洗和轉換。這為數據挖掘提供了一個很好的操作平臺,將給數據挖掘帶來各種便利和功能。人民銀行的個人征信系統也已上線,在全國范圍內形成了個人信用數據的集中。在內部環境和外部環境不斷改善的基礎上,數據挖掘技術在信用卡業務中將具有越來越廣闊的應用前景。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢