
SPSS實例教程:多重線性回歸,你用對了么
在實際的醫學研究中,一個生理指標或疾病指標往往受到多種因素的共同作用和影響,當研究的因變量為連續變量時,我們通常在統計分析過程中引入多重線性回歸模型,來分析一個因變量與多個自變量之間的關聯性。
一、多重線性回歸的作用
多重線性回歸模型在醫學研究領域得到了廣泛的應用,其作用主要體現在以下幾個方面:
1、探索對于因變量具有影響作用的因素;
2、控制混雜因素,評價多個自變量對因變量的獨立效應;
3、用已知的自變量來估計和預測因變量的值及其變化。
二、多重線性回歸的形式
多重線性回歸的一般表達形式為:
由表達式可以看出,每個因變量的實際測量值yi由兩部分組成,即 和ei 。
為估計值,即在給定自變量取值時因變量y的估計值,表示能由自變量決定的部分;ei為殘差,即因變量實測值yi與估計值
之間的差值,表示不能由自變量決定的部分,而對于殘差的分析是多重線性回歸建模過程中需要重點關注的地方。
此外在多線性回歸的表達式中,b0為常數項,表示當所有自變量取值為0時因變量 的估計值;bi為偏回歸系數,表示當其他自變量不變時,xi每改變一個單位時所引起的的
變化量。
三、多重線性回歸的適用條件
多重線性回歸模型作為一種統計模型,它有嚴格的適用條件,在建模時也需要對這些適用條件進行判斷。但是許多使用者往往忽視了這一點,在使用過程中只是單一的構建模型,最終很有可能得出錯誤的結論。因此在應用多重線性回歸之前,我們應該了解它需要滿足哪些前提條件呢?
總結起來可用4個詞來概況:線性(Linear),獨立(Independence),正態(Normality),齊性(Equal variance),縮寫為LINE原則。
(1) 線性:各自變量xi與因變量yi之間存在線性關系,可以通過繪制散點圖來進行判斷;
(2) 獨立:因變量yi的取值之間相互獨立,反映到回歸模型中,實際上就是要求殘差ei之間相互獨立;
(3) 正態性:構建多重線性回歸模型后,殘差ei服從正態分布;
(4) 方差齊性:殘差ei的大小不隨xi取值水平的變化而變化,即殘差ei具有方差齊性。
只有準確把握了LINE核心原則,才能夠保證構建符合統計學要求的多重線性回歸模型。但是,由于多重線性回歸模型具有一定的“抗偏倚性”,如果只是想通過構建方程來探討自變量和因變量之間的關聯性,而非對因變量進行預測,那么后面兩個條件可以適當放寬。
此外,還應該注意以下幾點:
(5) 因變量yi為連續性變量,而非分類變量;
(6) 自變量xi可以為連續變量,也可以為分類變量,當自變量為多分類無序變量時,則需要設置啞變量,當為有序變量時,則需要根據等級順序進行賦值。
(7) 對于自變量xi的分布特征沒有具體的限定,只要求自變量xi間相互獨立,不存在多重共線性;
(8) 對于樣本量的要求,根據經驗一般要求樣本量應當為納入模型的自變量的20倍以上為宜,比如模型納入5個自變量,則樣本量應當在100以上為宜。
四、SPSS實例操作
1. 研究設計
某研究人員收集了100名研究者的最大攝氧量(VO2max),并記錄了他們的年齡,體重,心率和性別,擬探討年齡,體重,心率和性別對VO2 max的影響,并希望能夠根據一個人的年齡,體重,心率和性別來對他的VO2 max值進行評估和預測。
2. 錄入數據
SPSS數據文件如圖所示,分析數據結構:
因變量VO2max為連續變量,滿足上述條件(5);
自變量中年齡(age),體重(weight),心率(heart_rate)為連續變量,性別(gender)(女=0,男=1)為二分類變量,滿足條件(6);
樣本量為100,納入的自變量為4個,滿足條件(8)中大于20倍的要求。在滿足上述幾個基本條件后,根據研究目的研究人員擬采用多重線性回歸的方法來進行統計分析,而對于其他幾點適用條件我們將在后面的介紹中進行一一驗證。
3. 多重線性回歸操作
(1)選擇Analyze → Regression → Linear
在Linear Regression對話框中,將VO2max選入Dependent,將age,weight,heart_rate,gender選入Independent(s)中。
點擊Method下拉列表,會出現Enter,Stepwise,Remove,Backward,Forward共5種方法可供選擇,這里選擇默認的Enter法,表示將所有的變量都納入到回歸模型中。(自變量篩選共有5種方法,每種方法的區別我們將會在以后的內容中進行詳細介紹。)
(2)點擊Statistic選項
在Regression Coefficients復選框中,勾選Estimates和Confidence Intervals Level(%)并設定為95,可輸出自變量的回歸系數及其95%可信區間。
選擇Model fit,輸出模型擬合優度的檢驗結果;選擇Descriptive,輸出對所有變量的基本統計描述;選擇Part and partial correlations,輸出自變量之間的相關系數;選擇Collinearity diagnostics,輸出對自變量進行共線性診斷的統計量。
在Residus復選框中,選擇Durbin-Watson,輸出值用于判斷殘差之間是否相互獨立。選擇Casewise Diagnositics,默認在3倍標準差內來判定離群點。一般來說,95%的值在 ± 2倍標準差內,99%的值在 ± 2.5倍標準差內,可根據具體情況來進行設定。
(3)點擊Save選項
在Predicted Values復選框中選擇Unstandardized,保存模型對因變量的原始預測值,在Residuals是復選框中選擇Standardized,保存均數為0標準差為1的標準化殘差值,在Prediction Intervals復選框中選擇Individuals,設定Confidence Intervals為95%,保存個體預測值的95%可信區間。
(數據標準化:用觀察值減去該變量的均數,然后除以標準差所得,標準化后數據的均數為0,標準差為1,經標準化的數據都是沒有單位的純數量。)
(4)點擊Plot選項
在Plots對話框中將*ZRESID(標準化殘差)放入Y軸,將*ZPRED(標準化預測值)放入X軸,繪制殘差散點圖;同時選擇Histogram和Normal probability plot來繪制標準化殘差圖,考察殘差是否符合正態分布;選擇Produce all partial plots繪制每一個自變量與因變量殘差的散點圖。
(5)點擊Continue回到Linear Regression主對話框,點擊OK完成操作。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25