
SPSS教程:做多重線性回歸,方差不齊怎么辦
今天我們就來繼續討論一下,如果殘差不滿足方差齊性時,應該如何解決?
一、殘差方差齊性判斷
1. 殘差方差齊性
回顧一下前面介紹過的殘差方差齊性,即殘差ei的大小不隨預測值水平的變化而變化。我們在進行殘差分析時,可以通過繪制標準化殘差和標準化預測值的散點圖來進行判斷。若殘差滿足方差齊性,則標準化殘差的散點會在一定區域內,圍繞標準化殘差ei=0這條直線的上下兩側均勻分布,不隨標準化預測值的變化而變化,如圖1所示。
圖1. 標準化殘差散點圖(方差齊性)
2. 殘差方差不齊
但有時殘差不滿足方差齊性的假設,其標準化殘差散點圖顯示,殘差的變異程度隨著變量取值水平的變化而發生變化,如圖2(a)顯示標準化殘差的分布隨變量取值的增大而呈現擴散趨勢,圖2(b)顯示標準化殘差的分布隨變量取值的增大而呈現收斂趨勢,說明殘差不滿足方差齊性的條件。
圖2. 標準化殘差散點圖(方差不齊)
二、加權最小二乘法
在多重線性回歸模型中,我們采用的是普通最小二乘法(Ordinary Least Square,OLS)來對參數進行估計,即要求每個觀測點的實際值與預測值之間的殘差平方和最小,對于模型中的每個觀測點是同等看待的,殘差滿足方差齊性的假設。
但是在有些研究問題中,例如調查某種疾病的發病率,以地區為觀測單位,很顯然地區人數越多,所得到的率就越穩定,變異程度越小,而地區人數越少,所得到的率的變異就越大。在這種情況下,因變量的變異程度會隨著自身數值或其他變量的變化而變化,殘差不滿足方差齊性的條件。此時如果繼續采用OLS方法進行模型估計,則擬合結果就會受到變異程度較大的數據的影響,在這種情況下構建的回歸模型就會發生偏差,預測精度降低,甚至預測功能失效。
為了解決這一問題,我們可以采用加權最小二乘法(Weighted Least Squares,WLS)的方法來進行模型估計,即在模型擬合時,根據數據變異程度的大小賦予不同的權重,對于變異程度較小、測量更精確的數據賦予較大的權重,對于變異程度較大、測量不穩定的數據賦予較小的權重,從而使得加權后回歸直線的殘差平方和最小,保證擬合的模型具有更好的預測價值。
三、SPSS操作
1. 研究問題
某研究人員擬研究PM2.5濃度與癌癥發病率之間的關聯性,以地區為觀測單位,收集了40個地區的癌癥發病率(/10萬),PM2.5年平均濃度(μg/m3),人口數量(萬),地區來源(0=農村,1=城市)等信息。(注:數據為模擬數據,不代表真實情況)
2. 判斷殘差是否滿足方差齊性
參考多重線性回歸的SPSS操作步驟,結果顯示采用普通最小二乘法方法擬合的線性回歸模型具有統計學意義(P<0.001),決定系數R Square為0.798,PM2.5平均濃度、不同地區來源(District)和不同人口數量對癌癥發病率的影響有統計學顯著性(P<0.05)。
殘差散點圖顯示,標準化殘差的變異程度會隨著標準化預測值的增大而增大,呈現擴散趨勢,表明殘差不滿足方差齊性的假設。
3. 權重估計
根據專業知識和經驗判斷,人口數量(Population)可能為導致殘差不滿足方差齊性的一個重要因素,下面對人口數量進行權重估計。
(1)選擇Analyze → Regression → Weight Estimation,在Weight Estimation對話框中,將Cancer選入Dependent,將District和PM2.5選入Independent(s)中。
(2)將擬加權的變量Population選入Weight Variable中,系統將按照1/(權重變量)的power次冪對每條記錄進行加權。
(3)Power range用于定義權重變量的指數,默認為-2~2,步長為0.5,即將擬合指數分為-2、-1.5、-1、-0.5、0、0.5、1、1.5和2一共構建9個方程中,并從中選取效果最佳的一個擬合指數。本例中標準化殘差隨著標準化預測值的增大而增大,因此Power range為正值,此處設定Power range的范圍為0~5,步長為0.5。
(4)點擊Option,選擇Save best weight as new variable,生成一個新的變量用以保存效果最佳的權重。最后點擊Continue回到Weight Estimation主對話框,點擊OK完成操作。
(5)結果匯總
Log-Likelihood Values表中輸出了在給定步長下每個指數值對應的對數似然值,選取對數似然值最大的一項為最優指數,因此本例中最終確定的最優指數值為3,即權重按照1/population3的函數關系來計算權重。同時系統會在確定最優指數的情況下,自動生成一個名為WGT_1的變量用于保存權重系數。
4. 最小二乘法操作
(1)選擇Analyze → Regression → Linear,在Linear Regression對話框中,將Cancer選入Dependent,將District、PM2.5、Population選入Independent(s)中,將新生成的變量Weight for Cancer from WLS(WGT_1)選入WLS Weight中。
(2)點擊Save選項,在Predicted Values和Residuals框下均選擇Unstandardized。最后點擊Continue回到Linear Regression主對話框,點擊OK完成操作。
(3)繪制殘差散點圖
由于在SPSS中使用WLS模型無法直接繪制加權殘差散點圖,SPSS會給出相應的警示(如下圖所示),因此我們需要按照SPSS提示中提供的計算公式,對加權預測值和加權殘差值進行一定的轉換,然后再繪制轉換后的加權殘差散點圖。
選擇Transform → Compute Variable,利用前幾步操作生成的權重值(WGT_1)、加權預測值(PRE_1)和加權殘差值(RES_1)來計算生成兩個新變量,即轉換的加權預測值wgtpred = PRE_1 * sqrt(WGT_1)和轉換的加權殘差值wgtresid = RES_1 * sqrt(WGT_1)。
然后選擇Graphs → Legacy Dialogs → Scatter/Dot → Simple Scatter,將wtgpred選入X Axis,將wtgresid選入Y Axis,點擊OK繪制散點圖。
5. 結果匯總
(1)結果顯示,采用加權最小二乘法擬合的線性回歸模型仍具有統計學意義(P<0.001),決定系數R Square為0.779。由于決定系數計算方法本身的問題,在加權線性回歸里會出現一定的偏差,導致加權方法計算得到的R2往往要小于普通最小二乘法的R2,但這并不代表加權的模型比普通模型的擬合效果差,兩者不能簡單相比。
(2)模型結果顯示,PM2.5平均濃度、不同地區來源(District)和不同人口數對癌癥發病率的影響有統計學顯著性(P<0.05),且偏回歸系數較普通最小二乘法更為穩健。
(3)轉換后的加權殘差散點圖顯示,殘差的散點圍繞ei=0這條直線的上下兩側均勻分布,不隨預測值的變化而變化,說明經過加權校正后,殘差已滿足方差齊性的條件,達到了加權校正的目的。
本文介紹了殘差不滿足方差齊性的處理方法,如果是其他條件不滿足時,該如何處理呢?我們后續還會再做介紹,敬請期待!
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25