熱線電話:13121318867

登錄
首頁大數據時代SPSS分析技術:二元logistic回歸
SPSS分析技術:二元logistic回歸
2017-07-11
收藏

SPSS分析技術:二元logistic回歸

今天我們介紹另外一種應用范圍更加廣泛的回歸分析方法:二元logistic回歸。

應用背景

數據分析技術在實際應用過程中,大量的研究都需要對只有“是”和“否”兩種選擇的結論給予解釋,即研究中的因變量并不是常用的定距變量和定序變量,而是僅有兩種狀態的二分變量。針對這種變量的回歸分析稱為二元Logistic回歸分析技術。二元Logistic回歸分析是一種多元回歸分析,這里的二元不是自變量個數,而是指因變量的取值范圍,與多元回歸分析中的多元代表自變量個數截然不同。


例如,作為汽車銷售商,其最關心的問題是顧客是否會購買某種品牌小汽車,為了預測未來顧客的購車可能性,汽車銷售商可以采集半年來咨詢該種小汽車的顧客的基本信息,以這些顧客最終是否購買了小汽車作為因變量,以顧客的職業、文化程度、收入情況、民族、宗教、喜好等因素作為自變量、借助二元Logistic回歸分析技術,構造顧客購買此品牌小汽車的回歸方程。然后,汽車銷售商就可以以此回歸方程式為依據,對前來咨詢的顧客做出初步判定。這就是二元Logistic回歸分析的主要目的。

理論基礎

在因變量取值只能是0和1時,雖然從理論上講無法直接使用一般多元線性回歸模型建模,但是如果借助普通多元線性回歸模型研究該問題,則在大量個案的情況下,所獲得的因變量的均值將是因變量取“真”值時的概率。由此,可以得到初步想法:把因變量取值為1的概率作為新的因變量,把二元回歸分析轉化為針對新因變量的普通多元線性回歸。


由于在二元回歸模型中,因變量取值為1的概率P的值應在0~1之間。在借助普通多元線性回歸模型解釋二元回歸中的概率P時,模型中的因變量與概率值之間的關系是線性的,然而在實際應用中,這個概率值與因變量之間往往是一種非線性關系。例如,在一定的條件范圍內,購買新型手機的概率與收入增長情況呈正比,但這種情況并不穩定,經常是在收入增長初期,購買新手機的概率增長得比較緩慢,當收入增長到一定水平后,購買新手機的概率會快速增長,但當收入增長到某個數額后,購買新手機的概率人會增長,但增長速度已經逐漸變緩,對這樣的概率P進行必要的轉化,使之符合常規線性模型,例如下式:

上式就是Logistic函數,它是在增長函數的基礎上,針對二元回歸中的概率P值所做的專門變形。如果將上式推廣到多元線性回歸公式,就形成了針對二分變量的多元回歸分析。

參數求解

二元Logistic回歸方程的參數求解采用極大似然估計法。極大似然估計是一種在總體分布密度函數和樣本信息的基礎上,求解模型中未知參數估計值的方法,它基于總體的分布密度函數來構造一個包含未知參數的似然函數,并求解在似然函數值最大情況下的未知參數的估計值。在這一原則下得到的模型,其產生的樣本數據的分布與總體分布相近的可能性最大。因此,似然函數的函數值實際上也是一種概率值,它反映了在所確定擬合模型為真時,該模型能夠較好的擬合樣本數據的可能性,所以似然函數的取值也是0~1。


Logistic回歸系數顯著性檢驗的目的是逐個檢驗模型中各個自變量是否與LogitP有顯著的線性關系,對于解釋LogitP是否有重要貢獻。在二元Logistic回歸分析中,對回歸系數的判定統計量是Wald統計量。Wald統計量的原理與普通線性回歸分析中的T值的概念相似。Wald值越大,表示回歸系數的影響力越顯著。

二元Logistic回歸分析也是一種多元回歸分析,在面臨多個自變量時,同樣存在著自變量的篩選標準和自變量進入方程的順序問題。

自變量篩選方法

極大似然估計的方法;極大似然估計方法,即基于極大似然估計算法對每個待選自變量進行評價,以便確定該自變量是否進入方程。似然比檢驗的原理是通過分析模型中自變量的變化對似然比的影響來檢驗增加或減少自變量的值是否對因變量有統計學上的顯著意義。

采用Wald檢驗方法;這是一種類似T檢驗的自變量篩選方法,根據二元數據處理的特點,人們對T檢驗的算法進行了擴展,剔提出了Wald統計量,通過檢查Wald統計量的強度,以確定相對應的自變量能否進入方程。

采取比分檢驗方式;在已經設計好的回歸模型的基礎上增加一個變量,并假設新變量的回歸系數為0,。此時以似然函數的一階偏導和信息矩陣的乘積作為比分檢驗的統計量S。在樣本量較大時,S服從自由度為檢驗參數個數的卡方分布。然后借助卡方分布的原理對自變量實施判定。

自變量進入方程順序

直接進入方式;所謂直接進入,就是所有給定自變量都進入到回歸方程中。在最終的回歸方程中,應該包含全部自變量。直接進入方式的最大缺點是需要用戶根據回歸分析的輸出表格,人工判定回歸方程的質量和各個回歸系數的質量。

逐個進入法;逐個進入發,也叫向前法。其思路是對于給定自變量,按照其檢驗概率的顯著性程度選擇最優的自變量,把它依次加入到方程中,然后按照選定的篩選技術進行自變量的判定。在SPSS的二元Logistic回歸分析中,對于自變量的篩選,在向前方式下,分別有條件、似然和Wald三種篩選方法。

向后,逐漸剔除法;逐個剔除法的基本思路是對于給定自變量,先全部進入方程,按照其檢驗概率P的顯著性水平一次選擇最差的自變量,從方程中剔除。在SPSS的二元Logistic回歸分析中,對于自變量的剔除,在向后方式下,也分別有條件、LR和Wald三種篩選技術。

回歸方程質量評價

二元Logistic回歸分析也提供了類似于線性回歸的判定系數R方,F值和Sig值的專門數據指標。

判定系數;在二元Logistic回歸分析中,衡量其擬合程度高低的指標是二元回歸分析的判定系數,它叫“Cox&Snell R方”統計量,這是一個與普通線性回歸中的判定系數R方作用相似的統計量。但是,由于它的取值范圍不易確定,因此在使用時并不方便。為了解決這個問題,SPSS引入了NagelkerteR方統計量,它是對CS R方的修正,取值范圍為0~1。它的值越接近1,越好。

回歸系數顯著性及其檢驗概率;在二元Logistic回歸分析中,對于納入方程的每個自變量,都可以計算其Wald值(相當于線性回歸中的T值)。利用Wald值,可以判定該自變量對回歸方程的影響力,通常Walds值應大于2。另外,與Walds值配套的檢驗概率Sig值也能發揮同樣的作用。

錯判矩陣;錯判矩陣是一個二維表格,用于直觀的顯示出二元Logistic回歸中原始觀測數據與預測值之間的吻合程度。由于二元Logistic回歸的因變量只有2個取值,所以錯判矩陣的結構很簡單。如下表:

在錯判矩陣中,A+D的值占總數的比例越大,說明二元回歸的吻合程度越高,回歸方程的質量越高。

Hosmer-Lemeshow擬合度檢驗;對于自變量較多且多為定距型數據的二元回歸分析,通常在執行回歸分析時把選項對話框中的【Hosmer-Lemeshow擬合度】復選框選中,以便使系統自動輸出其統計量。在擬合度表格中,檢驗概率值越大,表示回歸方程與觀測值的差異性越小,回歸方差的你和程度越高。

案例分析

現在有一份某個大學的學生資料,請以是否喜歡數學為因變量,以性別、愛好、專業和數學成績為自變量開展回歸分析,并解釋回歸分析結果。

SPSS分析步驟

1、利用菜單【轉換】-【重新編碼為不同變量】,將性別、專業和愛好進行數值化編碼。

2、利用菜單【分析】-【回歸】-【二元Logistic】命令,啟動Logistic回歸對話框;如下圖所示,將變量選入不同方框;同時在【方法】欄選擇“向前 LR”;

3、選中【分類】菜單,將定類變量Sex、zy和ah選中,選中的作用是使這些變量在計算過程中成為不被關注大小值的啞元,這些變量的每一項都會獨立參與到回歸分析當中。所有變量中,只有數學成績是定距變量。

4、點擊【確定】,進行二元Logistic回歸分析,獲得回歸結果。


結果解讀

由于選擇的是向前LR,所以分析首先是對每一個變量進行檢驗,得出Wald值和檢驗概率Sig。然后根據檢驗概率從低到高逐個代入回歸方程進行迭代運算,迭代運算最高為20次。我們接下來直接分析迭代運算的最終結果:

第一個表格顯示最后產生兩個回歸模型,顯著性都為0.000,小于0.05,表示模型有效,但是還不能說明模型的質量好壞。第二個表格包含了NagelkerkeR方結果,兩個值都大于0.4,表示質量可以接受,但是第二個模型的R方值為0.820,很接近1,說明模型二的質量高于模型一。

上圖是錯判矩陣,從結果來看,模型1的判斷正確率為80%,而模型2的為91.7%。因此,模型1的判定率明顯優于模型2。

最后這個表格顯示進入到方程中的自變量。B列是回歸方程的系數。Wald是各自變量對應的Wald值,相當于線性回歸中的t值,反映該自變量在方程中的價值。顯著性水平小于0.05,代表影響力大,但是使用極大似然法時會出現顯著性大于0.05的情況,需要謹慎對待。


推薦學習書籍
《CDA一級教材》適合CDA一級考生備考,也適合業務及數據分析崗位的從業者提升自我。完整電子版已上線CDA網校,累計已有10萬+在讀~

免費加入閱讀:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢