
SPSS分析技術:二元logistic回歸
今天我們介紹另外一種應用范圍更加廣泛的回歸分析方法:二元logistic回歸。
應用背景
數據分析技術在實際應用過程中,大量的研究都需要對只有“是”和“否”兩種選擇的結論給予解釋,即研究中的因變量并不是常用的定距變量和定序變量,而是僅有兩種狀態的二分變量。針對這種變量的回歸分析稱為二元Logistic回歸分析技術。二元Logistic回歸分析是一種多元回歸分析,這里的二元不是自變量個數,而是指因變量的取值范圍,與多元回歸分析中的多元代表自變量個數截然不同。
例如,作為汽車銷售商,其最關心的問題是顧客是否會購買某種品牌小汽車,為了預測未來顧客的購車可能性,汽車銷售商可以采集半年來咨詢該種小汽車的顧客的基本信息,以這些顧客最終是否購買了小汽車作為因變量,以顧客的職業、文化程度、收入情況、民族、宗教、喜好等因素作為自變量、借助二元Logistic回歸分析技術,構造顧客購買此品牌小汽車的回歸方程。然后,汽車銷售商就可以以此回歸方程式為依據,對前來咨詢的顧客做出初步判定。這就是二元Logistic回歸分析的主要目的。
理論基礎
在因變量取值只能是0和1時,雖然從理論上講無法直接使用一般多元線性回歸模型建模,但是如果借助普通多元線性回歸模型研究該問題,則在大量個案的情況下,所獲得的因變量的均值將是因變量取“真”值時的概率。由此,可以得到初步想法:把因變量取值為1的概率作為新的因變量,把二元回歸分析轉化為針對新因變量的普通多元線性回歸。
由于在二元回歸模型中,因變量取值為1的概率P的值應在0~1之間。在借助普通多元線性回歸模型解釋二元回歸中的概率P時,模型中的因變量與概率值之間的關系是線性的,然而在實際應用中,這個概率值與因變量之間往往是一種非線性關系。例如,在一定的條件范圍內,購買新型手機的概率與收入增長情況呈正比,但這種情況并不穩定,經常是在收入增長初期,購買新手機的概率增長得比較緩慢,當收入增長到一定水平后,購買新手機的概率會快速增長,但當收入增長到某個數額后,購買新手機的概率人會增長,但增長速度已經逐漸變緩,對這樣的概率P進行必要的轉化,使之符合常規線性模型,例如下式:
上式就是Logistic函數,它是在增長函數的基礎上,針對二元回歸中的概率P值所做的專門變形。如果將上式推廣到多元線性回歸公式,就形成了針對二分變量的多元回歸分析。
參數求解
二元Logistic回歸方程的參數求解采用極大似然估計法。極大似然估計是一種在總體分布密度函數和樣本信息的基礎上,求解模型中未知參數估計值的方法,它基于總體的分布密度函數來構造一個包含未知參數的似然函數,并求解在似然函數值最大情況下的未知參數的估計值。在這一原則下得到的模型,其產生的樣本數據的分布與總體分布相近的可能性最大。因此,似然函數的函數值實際上也是一種概率值,它反映了在所確定擬合模型為真時,該模型能夠較好的擬合樣本數據的可能性,所以似然函數的取值也是0~1。
Logistic回歸系數顯著性檢驗的目的是逐個檢驗模型中各個自變量是否與LogitP有顯著的線性關系,對于解釋LogitP是否有重要貢獻。在二元Logistic回歸分析中,對回歸系數的判定統計量是Wald統計量。Wald統計量的原理與普通線性回歸分析中的T值的概念相似。Wald值越大,表示回歸系數的影響力越顯著。
二元Logistic回歸分析也是一種多元回歸分析,在面臨多個自變量時,同樣存在著自變量的篩選標準和自變量進入方程的順序問題。
自變量篩選方法
極大似然估計的方法;極大似然估計方法,即基于極大似然估計算法對每個待選自變量進行評價,以便確定該自變量是否進入方程。似然比檢驗的原理是通過分析模型中自變量的變化對似然比的影響來檢驗增加或減少自變量的值是否對因變量有統計學上的顯著意義。
采用Wald檢驗方法;這是一種類似T檢驗的自變量篩選方法,根據二元數據處理的特點,人們對T檢驗的算法進行了擴展,剔提出了Wald統計量,通過檢查Wald統計量的強度,以確定相對應的自變量能否進入方程。
采取比分檢驗方式;在已經設計好的回歸模型的基礎上增加一個變量,并假設新變量的回歸系數為0,。此時以似然函數的一階偏導和信息矩陣的乘積作為比分檢驗的統計量S。在樣本量較大時,S服從自由度為檢驗參數個數的卡方分布。然后借助卡方分布的原理對自變量實施判定。
自變量進入方程順序
直接進入方式;所謂直接進入,就是所有給定自變量都進入到回歸方程中。在最終的回歸方程中,應該包含全部自變量。直接進入方式的最大缺點是需要用戶根據回歸分析的輸出表格,人工判定回歸方程的質量和各個回歸系數的質量。
逐個進入法;逐個進入發,也叫向前法。其思路是對于給定自變量,按照其檢驗概率的顯著性程度選擇最優的自變量,把它依次加入到方程中,然后按照選定的篩選技術進行自變量的判定。在SPSS的二元Logistic回歸分析中,對于自變量的篩選,在向前方式下,分別有條件、似然和Wald三種篩選方法。
向后,逐漸剔除法;逐個剔除法的基本思路是對于給定自變量,先全部進入方程,按照其檢驗概率P的顯著性水平一次選擇最差的自變量,從方程中剔除。在SPSS的二元Logistic回歸分析中,對于自變量的剔除,在向后方式下,也分別有條件、LR和Wald三種篩選技術。
回歸方程質量評價
二元Logistic回歸分析也提供了類似于線性回歸的判定系數R方,F值和Sig值的專門數據指標。
判定系數;在二元Logistic回歸分析中,衡量其擬合程度高低的指標是二元回歸分析的判定系數,它叫“Cox&Snell R方”統計量,這是一個與普通線性回歸中的判定系數R方作用相似的統計量。但是,由于它的取值范圍不易確定,因此在使用時并不方便。為了解決這個問題,SPSS引入了NagelkerteR方統計量,它是對CS R方的修正,取值范圍為0~1。它的值越接近1,越好。
回歸系數顯著性及其檢驗概率;在二元Logistic回歸分析中,對于納入方程的每個自變量,都可以計算其Wald值(相當于線性回歸中的T值)。利用Wald值,可以判定該自變量對回歸方程的影響力,通常Walds值應大于2。另外,與Walds值配套的檢驗概率Sig值也能發揮同樣的作用。
錯判矩陣;錯判矩陣是一個二維表格,用于直觀的顯示出二元Logistic回歸中原始觀測數據與預測值之間的吻合程度。由于二元Logistic回歸的因變量只有2個取值,所以錯判矩陣的結構很簡單。如下表:
在錯判矩陣中,A+D的值占總數的比例越大,說明二元回歸的吻合程度越高,回歸方程的質量越高。
Hosmer-Lemeshow擬合度檢驗;對于自變量較多且多為定距型數據的二元回歸分析,通常在執行回歸分析時把選項對話框中的【Hosmer-Lemeshow擬合度】復選框選中,以便使系統自動輸出其統計量。在擬合度表格中,檢驗概率值越大,表示回歸方程與觀測值的差異性越小,回歸方差的你和程度越高。
案例分析
現在有一份某個大學的學生資料,請以是否喜歡數學為因變量,以性別、愛好、專業和數學成績為自變量開展回歸分析,并解釋回歸分析結果。
SPSS分析步驟
1、利用菜單【轉換】-【重新編碼為不同變量】,將性別、專業和愛好進行數值化編碼。
2、利用菜單【分析】-【回歸】-【二元Logistic】命令,啟動Logistic回歸對話框;如下圖所示,將變量選入不同方框;同時在【方法】欄選擇“向前 LR”;
3、選中【分類】菜單,將定類變量Sex、zy和ah選中,選中的作用是使這些變量在計算過程中成為不被關注大小值的啞元,這些變量的每一項都會獨立參與到回歸分析當中。所有變量中,只有數學成績是定距變量。
4、點擊【確定】,進行二元Logistic回歸分析,獲得回歸結果。
結果解讀
由于選擇的是向前LR,所以分析首先是對每一個變量進行檢驗,得出Wald值和檢驗概率Sig。然后根據檢驗概率從低到高逐個代入回歸方程進行迭代運算,迭代運算最高為20次。我們接下來直接分析迭代運算的最終結果:
第一個表格顯示最后產生兩個回歸模型,顯著性都為0.000,小于0.05,表示模型有效,但是還不能說明模型的質量好壞。第二個表格包含了NagelkerkeR方結果,兩個值都大于0.4,表示質量可以接受,但是第二個模型的R方值為0.820,很接近1,說明模型二的質量高于模型一。
上圖是錯判矩陣,從結果來看,模型1的判斷正確率為80%,而模型2的為91.7%。因此,模型1的判定率明顯優于模型2。
最后這個表格顯示進入到方程中的自變量。B列是回歸方程的系數。Wald是各自變量對應的Wald值,相當于線性回歸中的t值,反映該自變量在方程中的價值。顯著性水平小于0.05,代表影響力大,但是使用極大似然法時會出現顯著性大于0.05的情況,需要謹慎對待。
推薦學習書籍
《CDA一級教材》適合CDA一級考生備考,也適合業務及數據分析崗位的從業者提升自我。完整電子版已上線CDA網校,累計已有10萬+在讀~
免費加入閱讀:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25