
一、案例綜述
案例編號:
102005
案例名稱:
銀行數據寬表構建和描述分析
作者姓名(或單位、或來源):
朱江
案例所屬行業:
J662 貨幣銀行服務
案例所用軟件:
R
案例包含知識點:
寬表構建 數據描述
案例描述:
案例描述部分主要有兩個內容,一是介紹客戶信息的基本概念和分類;二是案例數據的基本介紹和ER圖
一. 客戶信息
客戶信息的收集主要用于客戶分析,而客戶分析一般是由公司內部不同部門組成的跨領域的團隊實現的??蛻舴治龅哪繕耸钦业揭粋€單一準確的視角來制定策略,從而最優化的獲取和保留客戶、定義高價值客戶。為了能夠更好的實現客戶分析,必須全方面的收集客戶信息,客戶信息主要分為以下四類。
? 描述信息:客戶的基本屬性信息,包括人口統計學的信息諸如性別、年齡、地理位置和收入,也包括自我描述類信息,對于產品的偏好和評價信息。從這些數據中可以細分出關于客戶的有用的特征和分類,例如早期采用者(在產品介紹期和成長期采用新產品,對后面的采用者影響很大)、性價比追求者或特定的顧客角色。這些信息可以來自買賣信息、注冊記錄、調查、回訪、情景訪談。這類信息一般易采集,但是質量難以保證。
? 行為信息:客戶的行為信息,即客戶在使用產品和服務的時候表現出來的一般的模式,包括購買行為、注冊、瀏覽以及使用不同的設備等。例如經調查發現一些特定產品分類(消費性電子產品、家具)的顧客,晚上傾向于使用平板電腦購買,而白天傾向于使用臺式機購買。行為信息的特點在于實時采集,需要整合匯總。
? 交互信息:客戶和網站的交互信息,包含網站或者軟件的點擊信息、導航路徑以及瀏覽行為。主要用途在于網站或軟件實用性能測試,例如通過模擬真實的交互得到點擊間隔對應的等級。收集數據的途徑有:A/B測試,谷歌分析師(Google Analytics),實驗室收集等。
? 態度信息:客戶偏感性的信息,例如偏好、選擇、愿望、品牌認可度及情懷等,可以通過調查問卷、特定關注群體的調查以及使用性測試等獲得。一些知名的調查問卷公司常用來量化行為和交互信息對態度信息的影響。這些態度可能會影響描述信息中的量化的某些自我描述信息。
下圖解釋了這些信息之間的關系。
客戶信息通常存儲在數據倉庫中,結合基于CRM的數據挖掘方法論進行信息分析,與商業應用結合最終產生價值。
二. 案例介紹
本案例的數據源自某銀行的真實客戶與交易數據,主要涉及客戶的主記錄、賬號、交易、業務和信用卡數據等,即客戶的一些描述信息和行為信息。一共八張二維表,存儲在關系型數據庫中,這些表的信息如下。
表名 |
標簽 |
備注 |
主鍵 |
accounts |
賬戶表 |
賬戶信息 |
account.id |
card |
信用卡表 |
賬戶的信用卡信息 |
card_id |
clients |
客戶信息表 |
客戶的特征信息 |
client_id |
disp |
權限分配表 |
客戶與賬戶的操作權限信息 |
disp_id |
district |
人口統計信息表 |
客戶所在地區的人口統計信息 |
A1 |
loans |
貸款表 |
客戶的貸款信息表 |
loan_id |
order |
消費信息表 |
客戶的刷卡消費的信息 |
order_id |
trans |
交易表 |
客戶的交易信息 |
trans_id |
這里使用實體聯系模型圖(Entity-relationship model,俗稱ER圖)來描述這些表的關系,這里沒有嚴格的引用標準的ER模型圖形符號,我們的目標在于能夠詳盡的說明各表的組成和相互之間的邏輯關系。
圖中共八個表格,其中深灰色帶下劃線的字段是主鍵。數據中包含的邏輯關系有:1. 一個人可以有多個賬戶,一個賬戶id可以對應多個客戶id,即可以多個人共同管理一個賬戶,賬戶與客戶的關系在權限分配信息表中顯示。2. 貸款和信用卡為銀行提供給客戶的服務。3. 一個賬戶可以有多張信用卡。4. 一個賬戶只能一筆貸款。
數據可以用于構建客戶違約貸款模型,即根據客戶的描述信息和行為信息預測新客戶是否會產生違約行為,為銀行客戶關系管理提供數據依據,從而有效的控制違約風險。于是這里就需要一個結構化的規整的寬表數據。用于數據清洗、描述及挖掘。
涉及到的數據處理有:1. 數據清洗,即根據業務知識將初始數據轉換成在邏輯上對目標變量有預測能力的衍生數據,形成寬表,且在時間上只考慮客戶最近兩年的行為信息。2. 依據貸款表的還款狀態定義客戶是否違約。3. 描述分析衍生變量和目標變量之間的關系,從而分析這些變量對目標變量的影響程度。
本案例共包含三個知識點
1 讀取數據,根據業務知識生成衍生變量,形成寬表
2 描述分析衍生變量和目標變量之間的關系
3 使用邏輯回歸預測是否違約
案例執行形式:
單人上機
二、案例知識點:
知識點1:
知識點名稱:讀取數據,形成寬表
知識點所屬工作角色:
數據導入,數據轉換
知識點背景:
使用R導入csv格式的文件,依據業務邏輯轉換目標變量,形成寬表
知識點描述
加載使用到的包,讀取多個文件,轉變目標變量
知識點關鍵詞:
R 讀取數據,數據轉換
知識點所用軟件:
Rstudio
操作目的:
R讀取csv文件,轉換目標變量
知識點素材(包括數據):
accounts.csv card.csv clients.csv disp.csv district.csv load_credit.csv loans.csv order.csv trans.csv
操作步驟:
操作步驟:
? 將bank文件夾拷貝到工作路徑下,設置工作路徑
? 加載要用的數據包
? 讀取數據,一般情況下都要設置參數stringsAsFactors(字符自動轉為因子)為假
得到的讀取結果:
可見其中trans表包含的觀測最多,有105萬行
? 生成違約標識變量,根據loans表中變量status生成違約標識變量bad_good,這里使用ifelse函數。
? 客戶描述信息
客戶信息這里涉及到loans、clients、disp和district 表,需要進行橫向連接操作,這里篩選賬戶權限為‘所有者’的客戶賬戶,根據相同字段進行簡單的四表相連。而當數據量較大時一般先在單一表內計算衍生字段再進行連接。先將四表橫向連接。
客戶描述信息基于base表進一步衍生,客戶貸款時的年齡可以由客戶出生日期與貸款的時間差產生,同事計算客戶居住地區的平均失業率、居住地區的平均犯罪率、人均GDP。
選擇對自己有用的字段生成客戶基本信息表。
至此包含目標變量的客戶基本信息表info已經生成。得到的結果:
? 客戶行為信息
在trans表中,amount和balance兩個字段格式需要處理成數值型。
這里選擇兩年作為一個時間段,即選取每一個客戶貸款前兩年的數據。即需要根據trans表中客戶的貸款時間找到每一個客戶最近的貸款時間,并以此選擇前兩年的數據。
根據tmp2表生成貸款前兩年每個客戶的平均賬戶余額、標準差、變異系數。
根據tmp2表生成貸款前兩年的出入賬比率。首先按照客戶賬號和借貸類型計算對應的總金額,然后計算出入賬比率。
生成客戶行為信息表。
? 寬表匯總
將客戶描述信息表與客戶行為信息表進行連接得到待分析的寬表。
最終得到的寬表data0有682個客戶觀測,14個維度變量,變量匯總如下:
至此我們得到了最終用于描述性分析和進一步推斷分析使用的寬表。寬表中可見原始變量只有4個(包含標識變量),而衍生變量有10個,占了七成以上。在實際需求中,尤其是數據量較大的時候,需要生成一些衍生變量抽取數據中的關鍵信息。也可以根據業務邏輯需求生成特定的衍生變量。
? 保存表
操作結果:
如操作步驟中顯示生成新的衍生變量,匯總成新的寬表
知識點小結:
本知識點顯示了數據前期處理的完整流程,關鍵在于衍生變量邏輯上的選取和生成
? 知識點2:
知識點名稱:數據描述
知識點所屬工作角色:
數據描述
知識點背景:
基本的數據描述分析包括描述性數據分析和探索性數據分析,描述性分析的目標主要在于描述數據集,而探索性分析的目標主要是在描述的基礎上發現新的關聯或者是未知的關系
知識點描述
描述性分析,探索性分析
知識點關鍵詞:
描述性分析 探索性分析 箱線圖 柱狀圖
知識點所用軟件:
Rstudio
操作目的:
? 進行部分描述性分析,觀察某些自變量與因變量之間的關系。因變量是否違約屬于分類變量,多用箱線圖和柱狀圖進行初步的觀察。
知識點素材(包括數據):
data_final.csv
操作步驟:
? 讀取數據,處理因變量使得易于理解
? 觀察因變量,對因變量是否違約進行探索,觀察變量分布情況。
? 探索因變量與連續變量
這里分析年齡和因變量之間的關系,探索不同年齡下客戶的違約行為是否有差異。
? 探索因變量與分類變量
操作結果:
以上例舉了常用的描述性分析的方法,用于初步觀察數據之間的關系。
知識點小結:
描述性分析和探索性分析都是直觀的通過圖形來描述和探索變量之間的關系。
? 知識點3:
知識點名稱:3 使用邏輯回歸預測是否違約
知識點所屬工作角色:
回歸分析
知識點背景:
? 使用多元邏輯回歸進行推斷和預測分析
? 得到系數并且進行初步的觀察和解釋
? 通過逐步法和方差膨脹因子優化模型
知識點描述
知識點關鍵詞:
邏輯回歸 逐步法 方差膨脹因子
知識點所用軟件:
Rstudio
操作目的:
? 使用多元邏輯回歸進行推斷和預測分析
? 得到系數并且進行初步的觀察和解釋
? 通過逐步法和方差膨脹因子優化模型
知識點素材(包括數據):
data_final.csv
操作步驟:
? 讀取數據,去除缺失值
? 初步邏輯回歸
結果中只有一個顯著性變量,并不合理,可能是因為別的變量之間相互抵消減弱了對預測變量的影響,故接著用逐步法對模型進一步優化
? 進行逐步logsitic回歸
最終得到結果
可見其中對y有影響的變量是貸款金額,余額標準差,變異系數,出入賬比率
? 查看共線性
可見沒有多重共線性的影響
? 總結
從經過優化的回歸結果可以看出衍生變量對預測模型產生的重要作用
操作結果:
見操作步驟中的總結部分
知識點小結:
邏輯回歸中一般需要用逐步法對模型進行優化,并且需要注意多重共線性的檢驗。
學數據分析技能一定要了解的大廠入門券,CDA數據分析師認證證書!
CDA(數據分析師認證),與CFA相似,由國際范圍內數據科學領域行業專家、學者及知名企業共同制定并修訂更新,迅速發展成行業內長期而穩定的全球大數據及數據分析人才標準,具有專業化、科學化、國際化、系統化等特性。
同時,CDA全??荚嚥季趾驼J證體系已得到教育部直屬中國成人教育協會認可,并由為IBM、華為等提供全球認證服務的Pearson VUE面向全球提供靈活的考試服務。
報名方式
登錄CDA認證考試官網注冊報名>>點擊報名
報名費用
Level Ⅰ:1200 RMB
Level Ⅱ:1700 RMB
Level Ⅲ:2000 RMB
考試地點
Level Ⅰ:中國區30+省市,70+城市,250+考場,考生可就近考場預約考試 >看看我所在的地哪里報名<
Level Ⅱ+Ⅲ:中國區30所城市,北京/上海/天津/重慶/成都/深圳/廣州/濟南/南京/杭州/蘇州/福州/太原/武漢/長沙/西安/貴陽/鄭州/南寧/昆明/烏魯木齊/沈陽/哈爾濱/合肥/石家莊/呼和浩特/南昌/長春/大連/蘭州>看看我所在的地哪里報名<
報考條件
業務數據分析師 CDA Level I >了解更多<
? 報考條件:無要求。
? 考試時間:隨報隨考。
建模分析師 CDA Level II >了解更多<
? 報考條件(滿足任一即可):
1、獲得CDA Level Ⅰ認證證書;
2、本科及以上學歷,需從事數據分析相關工作1年以上;
3、本科以下學歷,需從事數據分析相關工作2年以上。
? 考試時間:
一年四屆 3月、6月、9月、12月的最后一個周六。
大數據分析師 CDA Level II >了解更多<
? 報考條件(滿足任一即可):
1、獲得CDA Level Ⅰ認證證書;
2、本科及以上學歷,需從事數據分析相關工作1年以上;
3、本科以下學歷,需從事數據分析相關工作2年以上。
? 考試時間:
一年四屆 3月、6月、9月、12月的最后一個周六。
數據科學家 CDA Level III >了解更多<
? 報考條件(滿足任一即可):
1、獲得CDA Level Ⅱ認證證書;
2、本科及以上學歷,需從事數據分析相關工作3年以上;
3、本科以下學歷,需從事數據分析相關工作4年以上。
? 考試時間:
一年四屆 3月、6月、9月、12月的最后一個周六。
(備注:數據分析相關工作不限行業,可涉及統計,數據分析,數據挖掘,數據庫,數據管理,大數據架構等內容。)
——熱門課程推薦:
想學習PYTHON數據分析與金融數字化轉型精英訓練營,您可以點擊>>>“人才轉型”了解課程詳情;
想從事業務型數據分析師,您可以點擊>>>“數據分析師”了解課程詳情;
想從事大數據分析師,您可以點擊>>>“大數據就業”了解課程詳情;
想成為人工智能工程師,您可以點擊>>>“人工智能就業”了解課程詳情;
想了解Python數據分析,您可以點擊>>>“Python數據分析師”了解課程詳情;
想咨詢互聯網運營,你可以點擊>>>“互聯網運營就業班”了解課程詳情;
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25