
SPSS—二元Logistic回歸結果分析
1: 在“案例處理匯總”中可以看出:選定的案例 489 個,未選定的案例 361 個,這個結果是根據設定的 validate = 1
得到的,在“因變量編碼”中可以看 出“違約”的兩種結果“是”或者“否” 分別用值“1“和“0”代替, 在“分 類變量編碼”中教育水平分為 5
類, 如果選中“為完成高中,高中,大專,大 學等,其中的任何一個,那么就取值為 1,未選中的為 0,如果四個都未被選中, 那么就是”研究生“
頻率分別代表了處在某個教育水平的個數,總和應該為 489 個
1:在“分類表”中可以看出: 預測有 360 個是“否”(未違約)
有 129 個是 “是”(違約) 2:在“方程中的變量”表中可以看出:最初是對“常數項”記性賦值,B 為 -1.026,
標準誤差為:0.103 那么 wald =( B/S.E)?=(-1.026/0.103)? = 99.2248, 跟表中的“100.029
幾乎 接近,是因為我對數據進行的向下舍入的關系,所以數據會稍微偏小, B 和 Exp(B) 是對數關系,將 B
進行對數抓換后,可以得到:Exp(B) = e^-1.026 = 0.358, 其中自由度為 1, sig 為 0.000,非常顯著
1:從“不在方程中的變量”可以看出,最初模型,只有“常數項”被納入了模 型,其它變量都不在最初模型內 表中分別給出了,得分,df , Sig 三個值, 而其中得分(Score)計算公式如下:
(公式中 (Xi- X?) 少了一個平方)
下面來舉例說明這個計算過程:(“年齡”自變量的得分為例)
從“分類表”中可以看出:有 129 人違約,違約記為“1” 129, 選定案例總和為 489 那么: y? = 129/489 =
0.2638036809816 x? = 16951 / 489 = 34.664621676892 所以:∑(Xi-x?)? =
30074.9979 y?(1-y?)=0.2638036809816 *(1-0.2638036809816 ) 則 違約總和為
=0.19421129888216 則:y?(1-y?)* 840.9044060372 ∑(Xi-x?)? =0.19421129888216 * 30074.9979 = 5
則:[∑Xi(yi - y?)]^2 = 43570.8 所以:
=43570.8 / 5 840.9044060372 = 7.4595982010876 = 7.46 (四舍五入)
計算過程采用的是在 EXCEL 里面計算出來的,截圖如下所示:
從“不在方程的變量中”可以看出,年齡的“得分”為 7.46,剛好跟計算結果 吻合??!答案得到驗證~?。。?!
1:從“塊
1” 中可以看出:采用的是:向前步進 的方法, 在“模型系數的綜 合檢驗”表中可以看出: 所有的 SIG 幾乎都為“0” 而且隨著模型的逐漸步
進,卡方值越來越大,說明模型越來越顯著,在第 4 步后,終止, 根據設定的顯著性值 和 自由度,可以算出 卡方臨界值, 公式為:
=CHIINV(顯著性值,自由度) ,放入 excel 就可以得到結果 2:在“模型匯總“中可以看出:Cox&SnellR 方 和
Nagelkerke R 方 擬合效果 都不太理想,最終理想模型也才:0.305 和 0.446, 最大似然平方的對數值 都比較大,明顯是顯著的
似然數對數計算公式為:
計算過程太費時間了,我就不舉例說明
計算過程了 Cox&SnellR 方的計算值 是根據: 1:先擬合不包含待檢驗因素的 Logistic 模型,求對數似然函數值
INL0 (指只包含“常數項”的檢驗) 2:再擬合包含待檢驗因素的 Logistic 模型,求新的對數似然函數值 InLB (包含自變量的檢驗)
再根據公式: 值!
即可算出:Cox&SnellR 方的
提示:
將 Hosmer 和 Lemeshow 檢驗 和“隨機性表” 結合一起來分析 1:從 Hosmer 和 Lemeshow
檢驗表中,可以看出:經過 4 次迭代后,最終的卡 方統計量為:11.919, 而臨界值為:CHINV(0.05,8) = 15.507
卡方統計量< 臨界值,從 SIG 角度來看: 0.155 > 0.05 , 說明模型能夠很好 的擬合整體,不存在顯著的差異。 2:從
Hosmer 和 Lemeshow 檢驗隨即表中可以看出: ”觀測值“和”期望值 “幾乎是接近的, 不存在很大差異,
說明模型擬合效果比較理想, 印證了“Hosmer 和 Lemeshow 檢驗”中的結果 而“Hosmer 和 Lemeshow
檢驗”表中的“卡方”統計量,是通過“Hosmer 和 Lemeshow 檢驗隨即表”中的數據得到的(即通過“觀測值和”預測值“)得到
的,計算公式如下所示:
x?(卡方統計量) =
∑(觀測值頻率- 預測值頻率)^2 / 預測值的頻率
舉例說明一下計算過程:以計算 "步驟 1 的卡方統計量為例 " 1:將“Hosmer 和 Lemeshow 檢驗隨即表”中“步驟 1 ” excel 中,得到如下所示結果: 的數據,復制到
從“Hosmer 和 Lemeshow 檢驗”表中可以看出, 步驟 1 的卡方統計量為: 7.567, 在上圖中,通過 excel 計算得到,結果為 7.566569 ~~7.567 (四舍 五入),結果是一致的,答案得到驗證??!
1:
從“分類表”—“步驟 1” 中可以看出: 選定的案例中, “是否曾今違約” 總計:489 個,其中 沒有違約的 360 個,并且對 360
個“沒有違約”的客戶進 行了預測, 340 個預測成功, 個預測失敗, 有 20 預測成功率為: / 360 =94.4% 340
其中“違約”的有 189 個,也對 189 個“違約”的客戶進行了預測,有 95 個 預測失敗, 34 個預測成功,預測成功率:34 / 129
= 26.4% 總計預測成功率:(340 + 34)/ 489 = 76.5% 步驟 1 的 總體預測成功率為: 76.5%, 在步驟 4
終止后, 總體預測成功率為: 83.4, 預測準確率逐漸提升 76.5%—79.8%—81.4%—83.4。 83.4 的預測準確率,
不能夠算太高,只能夠說還行。
從“如果移去項則建?!北碇锌梢钥闯觯骸霸?2 對數似然中的更改” 中的數值 是不是很眼熟???,跟在“模型系數總和檢驗”表中“卡方統計量"量的值是 一樣的?。?!
將“如果移去項則建?!焙?
“方程中的變量”兩個表結合一起來看 1: 在“方程中的變量”表中可以看出: 在步驟 1 中輸入的變量為“負債率” ,
在”如果移去項則建?!氨碇锌梢钥闯?,當移去“負債率”這個變量時,引起了 74.052 的數值更改,此時模型中只剩下“常數項”-282.152
為常數項的對數似 然值 在步驟 2 中,當移去“工齡”這個自變量時,引起了 44.543 的數值變化(簡 稱:似然比統計量),在步驟 2
中,移去“工齡”這個自變量后,還剩下“負債 率”和“常量”,此時對數似然值 變成了:-245.126,此時我們可以通過公式
算出“負債率”的似然比統計量:計算過程如下: 似然比統計量 = 2(-245.126+282.152)=74.052 答案得到驗證?。?!
2:在“如果移去項則建?!北碇锌梢钥闯觯翰还芤迫ツ且粋€自變量,“更改的 顯著性”都非常小,幾乎都小于 0.05,所以這些自變量系數跟模型顯著相關, 不能夠剔去??! 3:根據" 方程中的變量“這個表,我們可以得出 logistic 回歸模型表達式:
= =
1 / 1+ e^-(a+∑βI*Xi)
我們假設 Z
么可以得到簡潔表達式:
P(Y)
= 1 / 1+e^ (-z) 將”方程中的變量“ —步驟 4 中的參數代入 模型表達式中,可以得 到 logistic 回歸 模型
如下所示: P(Y) = 1 / 1 + e ^ -(-0.766+0.594*信用卡負債率+0.081*負債率-0.069*地
址-0.249*功齡)
從”不在方程中的變量“表中可以看出: 年齡,教育,收入,其它負債,都沒 有納入模型中,其中:sig 值都大于 0.05,所以說明這些自變量跟模型顯著不 相關。
在”觀察到的組和預測概率圖”中可以看出:
1:the Cut Value is 0.5, 此處以 0.5 為切割值,預測概率大于 0.5,表示 客戶“違約”的概率比較大,小于 0.5
表示客戶“違約”概率比較小。 2: 從上圖中可以看出:預測分布的數值基本分布在“左右兩端”在大于 0.5 的切割值中,大部分都是“1”
表示大部分都是“違約”客戶,( 大約 230 個 違約客戶) 預測概率比較準,而在小于 0.5 的切割值中,大部分都是“0” 大
部分都是“未違約”的客戶,(大約 500 多個客戶,未違約) 預測也很準
在運行結束后,會自動生成多個自變量,如下所示:
1:從上圖中可以看出,已經對客戶“是否違約”做出了預測,上面用顏色標記
的部分-PRE_1 表示預測概率, 上面的預測概率,可以通過 前面的 Logistic 回歸模型計算出來,計算過程不 演示了 2:
COOK_1 和 SRE_1 的值可以跟 預測概率 (PRE_1) 進行畫圖, 來看 COOK_1 和 SRE_1 對預測概率的影響程度,因為
COOK 值跟模型擬合度有一定的關聯,發生 奇異值,會影響分析結果。如果有太多奇異值,應該單獨進行深入研究!
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25