SPSS實例教程：多重線性回歸，你用對了么-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀SPSS實例教程：多重線性回歸，你用對了么

SPSS實例教程：多重線性回歸，你用對了么

2017-09-27

收藏

SPSS實例教程：多重線性回歸，你用對了么

在實際的醫學研究中，一個生理指標或疾病指標往往受到多種因素的共同作用和影響，當研究的因變量為連續變量時，我們通常在統計分析過程中引入多重線性回歸模型，來分析一個因變量與多個自變量之間的關聯性。

一、多重線性回歸的作用

多重線性回歸模型在醫學研究領域得到了廣泛的應用，其作用主要體現在以下幾個方面：

1、探索對于因變量具有影響作用的因素；

2、控制混雜因素，評價多個自變量對因變量的獨立效應；

3、用已知的自變量來估計和預測因變量的值及其變化。

二、多重線性回歸的形式

多重線性回歸的一般表達形式為：

由表達式可以看出，每個因變量的實際測量值yi由兩部分組成，即和ei 。

為估計值，即在給定自變量取值時因變量y的估計值，表示能由自變量決定的部分；ei為殘差，即因變量實測值yi與估計值之間的差值，表示不能由自變量決定的部分，而對于殘差的分析是多重線性回歸建模過程中需要重點關注的地方。

此外在多線性回歸的表達式中，b0為常數項，表示當所有自變量取值為0時因變量的估計值；bi為偏回歸系數，表示當其他自變量不變時，xi每改變一個單位時所引起的的變化量。

三、多重線性回歸的適用條件

多重線性回歸模型作為一種統計模型，它有嚴格的適用條件，在建模時也需要對這些適用條件進行判斷。但是許多使用者往往忽視了這一點，在使用過程中只是單一的構建模型，最終很有可能得出錯誤的結論。因此在應用多重線性回歸之前，我們應該了解它需要滿足哪些前提條件呢？

總結起來可用4個詞來概況：線性(Linear)，獨立(Independence)，正態(Normality)，齊性(Equal variance)，縮寫為LINE原則。

(1) 線性：各自變量xi與因變量yi之間存在線性關系，可以通過繪制散點圖來進行判斷；

(2) 獨立：因變量yi的取值之間相互獨立，反映到回歸模型中，實際上就是要求殘差ei之間相互獨立；

(3) 正態性：構建多重線性回歸模型后，殘差ei服從正態分布；

(4) 方差齊性：殘差ei的大小不隨xi取值水平的變化而變化，即殘差ei具有方差齊性。

只有準確把握了LINE核心原則，才能夠保證構建符合統計學要求的多重線性回歸模型。但是，由于多重線性回歸模型具有一定的“抗偏倚性”，如果只是想通過構建方程來探討自變量和因變量之間的關聯性，而非對因變量進行預測，那么后面兩個條件可以適當放寬。

此外，還應該注意以下幾點：

(5) 因變量yi為連續性變量，而非分類變量；

(6) 自變量xi可以為連續變量，也可以為分類變量，當自變量為多分類無序變量時，則需要設置啞變量，當為有序變量時，則需要根據等級順序進行賦值。

(7) 對于自變量xi的分布特征沒有具體的限定，只要求自變量xi間相互獨立，不存在多重共線性；

(8) 對于樣本量的要求，根據經驗一般要求樣本量應當為納入模型的自變量的20倍以上為宜，比如模型納入5個自變量，則樣本量應當在100以上為宜。

四、SPSS實例操作

1. 研究設計

某研究人員收集了100名研究者的最大攝氧量（VO2max），并記錄了他們的年齡，體重，心率和性別，擬探討年齡，體重，心率和性別對VO2 max的影響，并希望能夠根據一個人的年齡，體重，心率和性別來對他的VO2 max值進行評估和預測。

2. 錄入數據

SPSS數據文件如圖所示，分析數據結構：

因變量VO2max為連續變量，滿足上述條件（5）；

自變量中年齡（age），體重（weight），心率（heart_rate）為連續變量，性別（gender）（女=0，男=1）為二分類變量，滿足條件（6）；

樣本量為100，納入的自變量為4個，滿足條件（8）中大于20倍的要求。在滿足上述幾個基本條件后，根據研究目的研究人員擬采用多重線性回歸的方法來進行統計分析，而對于其他幾點適用條件我們將在后面的介紹中進行一一驗證。

3. 多重線性回歸操作

(1)選擇Analyze → Regression → Linear

在Linear Regression對話框中，將VO2max選入Dependent，將age，weight，heart_rate，gender選入Independent(s)中。

點擊Method下拉列表，會出現Enter，Stepwise，Remove，Backward，Forward共5種方法可供選擇，這里選擇默認的Enter法，表示將所有的變量都納入到回歸模型中。（自變量篩選共有5種方法，每種方法的區別我們將會在以后的內容中進行詳細介紹。）

(2)點擊Statistic選項

在Regression Coefficients復選框中，勾選Estimates和Confidence Intervals Level（%）并設定為95，可輸出自變量的回歸系數及其95%可信區間。

選擇Model fit，輸出模型擬合優度的檢驗結果；選擇Descriptive，輸出對所有變量的基本統計描述；選擇Part and partial correlations，輸出自變量之間的相關系數；選擇Collinearity diagnostics，輸出對自變量進行共線性診斷的統計量。

在Residus復選框中，選擇Durbin-Watson，輸出值用于判斷殘差之間是否相互獨立。選擇Casewise Diagnositics，默認在3倍標準差內來判定離群點。一般來說，95%的值在 ± 2倍標準差內，99%的值在 ± 2.5倍標準差內，可根據具體情況來進行設定。

(3)點擊Save選項

在Predicted Values復選框中選擇Unstandardized，保存模型對因變量的原始預測值，在Residuals是復選框中選擇Standardized，保存均數為0標準差為1的標準化殘差值，在Prediction Intervals復選框中選擇Individuals，設定Confidence Intervals為95%，保存個體預測值的95%可信區間。

（數據標準化：用觀察值減去該變量的均數，然后除以標準差所得，標準化后數據的均數為0，標準差為1，經標準化的數據都是沒有單位的純數量。）

(4)點擊Plot選項

在Plots對話框中將*ZRESID（標準化殘差）放入Y軸，將*ZPRED（標準化預測值）放入X軸，繪制殘差散點圖；同時選擇Histogram和Normal probability plot來繪制標準化殘差圖，考察殘差是否符合正態分布；選擇Produce all partial plots繪制每一個自變量與因變量殘差的散點圖。

(5)點擊Continue回到Linear Regression主對話框，點擊OK完成操作。

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

線性回歸散點圖正態分布統計分析數據標準化特征

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇CDA認證再升一檔！與國家共同推進大數據人才培養標準教育事業

下一篇Excel-漏斗圖分析（差異分析）

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊