熱線電話:13121318867

登錄
首頁精彩閱讀SPSS實例教程:多重線性回歸,你用對了么
SPSS實例教程:多重線性回歸,你用對了么
2017-09-27
收藏

SPSS實例教程:多重線性回歸,你用對了么

在實際的醫學研究中,一個生理指標或疾病指標往往受到多種因素的共同作用和影響,當研究的因變量為連續變量時,我們通常在統計分析過程中引入多重線性回歸模型,來分析一個因變量與多個自變量之間的關聯性。

一、多重線性回歸的作用

多重線性回歸模型在醫學研究領域得到了廣泛的應用,其作用主要體現在以下幾個方面:

1、探索對于因變量具有影響作用的因素;

2、控制混雜因素,評價多個自變量對因變量的獨立效應;

3、用已知的自變量來估計和預測因變量的值及其變化。

二、多重線性回歸的形式

多重線性回歸的一般表達形式為:


由表達式可以看出,每個因變量的實際測量值yi由兩部分組成,即  和ei 。

 為估計值,即在給定自變量取值時因變量y的估計值,表示能由自變量決定的部分;ei為殘差,即因變量實測值yi與估計值  之間的差值,表示不能由自變量決定的部分,而對于殘差的分析是多重線性回歸建模過程中需要重點關注的地方。

此外在多線性回歸的表達式中,b0為常數項,表示當所有自變量取值為0時因變量  的估計值;bi為偏回歸系數,表示當其他自變量不變時,xi每改變一個單位時所引起的的  變化量。

三、多重線性回歸的適用條件

多重線性回歸模型作為一種統計模型,它有嚴格的適用條件,在建模時也需要對這些適用條件進行判斷。但是許多使用者往往忽視了這一點,在使用過程中只是單一的構建模型,最終很有可能得出錯誤的結論。因此在應用多重線性回歸之前,我們應該了解它需要滿足哪些前提條件呢?

總結起來可用4個詞來概況:線性(Linear),獨立(Independence),正態(Normality),齊性(Equal variance),縮寫為LINE原則。

(1) 線性:各自變量xi與因變量yi之間存在線性關系,可以通過繪制散點圖來進行判斷;

(2) 獨立:因變量yi的取值之間相互獨立,反映到回歸模型中,實際上就是要求殘差ei之間相互獨立;

(3) 正態性:構建多重線性回歸模型后,殘差ei服從正態分布;

(4) 方差齊性:殘差ei的大小不隨xi取值水平的變化而變化,即殘差ei具有方差齊性。

只有準確把握了LINE核心原則,才能夠保證構建符合統計學要求的多重線性回歸模型。但是,由于多重線性回歸模型具有一定的“抗偏倚性”,如果只是想通過構建方程來探討自變量和因變量之間的關聯性,而非對因變量進行預測,那么后面兩個條件可以適當放寬。

此外,還應該注意以下幾點:

(5) 因變量yi為連續性變量,而非分類變量;

(6) 自變量xi可以為連續變量,也可以為分類變量,當自變量為多分類無序變量時,則需要設置啞變量,當為有序變量時,則需要根據等級順序進行賦值。

(7) 對于自變量xi的分布特征沒有具體的限定,只要求自變量xi間相互獨立,不存在多重共線性;

(8) 對于樣本量的要求,根據經驗一般要求樣本量應當為納入模型的自變量的20倍以上為宜,比如模型納入5個自變量,則樣本量應當在100以上為宜。

四、SPSS實例操作

1. 研究設計

某研究人員收集了100名研究者的最大攝氧量(VO2max),并記錄了他們的年齡,體重,心率和性別,擬探討年齡,體重,心率和性別對VO2 max的影響,并希望能夠根據一個人的年齡,體重,心率和性別來對他的VO2 max值進行評估和預測。

2. 錄入數據

SPSS數據文件如圖所示,分析數據結構:

因變量VO2max為連續變量,滿足上述條件(5);

自變量中年齡(age),體重(weight),心率(heart_rate)為連續變量,性別(gender)(女=0,男=1)為二分類變量,滿足條件(6);

樣本量為100,納入的自變量為4個,滿足條件(8)中大于20倍的要求。在滿足上述幾個基本條件后,根據研究目的研究人員擬采用多重線性回歸的方法來進行統計分析,而對于其他幾點適用條件我們將在后面的介紹中進行一一驗證。

3. 多重線性回歸操作

(1)選擇Analyze → Regression → Linear

在Linear Regression對話框中,將VO2max選入Dependent,將age,weight,heart_rate,gender選入Independent(s)中。

點擊Method下拉列表,會出現Enter,Stepwise,Remove,Backward,Forward共5種方法可供選擇,這里選擇默認的Enter法,表示將所有的變量都納入到回歸模型中。(自變量篩選共有5種方法,每種方法的區別我們將會在以后的內容中進行詳細介紹。)

(2)點擊Statistic選項

在Regression Coefficients復選框中,勾選Estimates和Confidence Intervals Level(%)并設定為95,可輸出自變量的回歸系數及其95%可信區間。

選擇Model fit,輸出模型擬合優度的檢驗結果;選擇Descriptive,輸出對所有變量的基本統計描述;選擇Part and partial correlations,輸出自變量之間的相關系數;選擇Collinearity diagnostics,輸出對自變量進行共線性診斷的統計量。

在Residus復選框中,選擇Durbin-Watson,輸出值用于判斷殘差之間是否相互獨立。選擇Casewise Diagnositics,默認在3倍標準差內來判定離群點。一般來說,95%的值在 ± 2倍標準差內,99%的值在 ± 2.5倍標準差內,可根據具體情況來進行設定。

(3)點擊Save選項

在Predicted Values復選框中選擇Unstandardized,保存模型對因變量的原始預測值,在Residuals是復選框中選擇Standardized,保存均數為0標準差為1的標準化殘差值,在Prediction Intervals復選框中選擇Individuals,設定Confidence Intervals為95%,保存個體預測值的95%可信區間。

數據標準化:用觀察值減去該變量的均數,然后除以標準差所得,標準化后數據的均數為0,標準差為1,經標準化的數據都是沒有單位的純數量。)

(4)點擊Plot選項

在Plots對話框中將*ZRESID(標準化殘差)放入Y軸,將*ZPRED(標準化預測值)放入X軸,繪制殘差散點圖;同時選擇Histogram和Normal probability plot來繪制標準化殘差圖,考察殘差是否符合正態分布;選擇Produce all partial plots繪制每一個自變量與因變量殘差的散點圖。

(5)點擊Continue回到Linear Regression主對話框,點擊OK完成操作。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢