
多重共線性問題的幾種解決方法
在多元線性回歸模型經典假設中,其重要假定之一是回歸模型的解釋變量之間不存在線性關系,也就是說,解釋變量X1,X2,……,Xk中的任何一個都不能是其他解釋變量的線性組合。如果違背這一假定,即線性回歸模型中某一個解釋變量與其他解釋變量間存在線性關系,就稱線性回歸模型中存在多重共線性。多重共線性違背了解釋變量間不相關的古典假設,將給普通最小二乘法帶來嚴重后果。
這里,我們總結了8個處理多重共線性問題的可用方法,大家在遇到多重共線性問題時可作參考:
1、保留重要解釋變量,去掉次要或可替代解釋變量
2、用相對數變量替代絕對數變量
3、差分法
4、逐步回歸分析
5、主成份分析
6、偏最小二乘回歸
7、嶺回歸
8、增加樣本容量
這次我們主要研究逐步回歸分析方法是如何處理多重共線性問題的。
逐步回歸分析方法的基本思想是通過相關系數r 、擬合優度R2 和標準誤差三個方面綜合判斷一系列回歸方程的優劣,從而得到最優回歸方程。具體方法分為兩步:
第一步,先將被解釋變量y對每個解釋變量作簡單回歸:
對每一個回歸方程進行統計檢驗分析(相關系數r 、擬合優度R2 和標準誤差),并結合經濟理論分析選出最優回歸方程,也稱為基本回歸方程。
第二步,將其他解釋變量逐一引入到基本回歸方程中,建立一系列回歸方程,根據每個新加的解釋變量的標準差和復相關系數來考察其對每個回歸系數的影響,一般根據如下標準進行分類判別:
1.如果新引進的解釋變量使R2 得到提高,而其他參數回歸系數在統計上和經濟理論上仍然合理,則認為這個新引入的變量對回歸模型是有利的,可以作為解釋變量予以保留。
2.如果新引進的解釋變量對R2 改進不明顯,對其他回歸系數也沒有多大影響,則不必保留在回歸模型中。
3.如果新引進的解釋變量不僅改變了R2 ,而且對其他回歸系數的數值或符號具有明顯影響,則認為該解釋變量為不利變量,引進后會使回歸模型出現多重共線性問題。不利變量未必是多余的,如果它可能對被解釋變量是不可缺少的,則不能簡單舍棄,而是應研究改善模型的形式,尋找更符合實際的模型,重新進行估計。如果通過檢驗證明回歸模型存在明顯線性相關的兩個解釋變量中的其中一個可以被另一個很好地解釋,則可略去其中對被解釋變量影響較小的那個變量,模型中保留影響較大的那個變量。
下邊我們通過實例來說明逐步回歸分析方法在解決多重共線性問題上的具體應用過程。
具體實例
例1 設某地10年間有關服裝消費、可支配收入、流動資產、服裝類物價指數、總物價指數的調查數據如表1,請建立需求函數模型。
表1 服裝消費及相關變量調查數據
年份 |
服裝開支 C (百萬元) |
可支配收入 Y (百萬元) |
流動資產 L (百萬元) |
服裝類物價指數Pc 1992年=100 |
總物價指數 P0 1992年=100 |
1988 |
8.4 |
82.9 |
17.1 |
92 |
94 |
1989 |
9.6 |
88.0 |
21.3 |
93 |
96 |
1990 |
10.4 |
99.9 |
25.1 |
96 |
97 |
1991 |
11.4 |
105.3 |
29.0 |
94 |
97 |
1992 |
12.2 |
117.7 |
34.0 |
100 |
100 |
1993 |
14.2 |
131.0 |
40.0 |
101 |
101 |
1994 |
15.8 |
148.2 |
44.0 |
105 |
104 |
1995 |
17.9 |
161.8 |
49.0 |
112 |
109 |
1996 |
19.3 |
174.2 |
51.0 |
112 |
111 |
1997 |
20.8 |
184.7 |
53.0 |
112 |
111 |
(1)設對服裝的需求函數為
用最小二乘法估計得估計模型:
模型的檢驗量得分,R2=0.998,D·W=3.383,F=626.4634
(2)求各解釋變量的基本相關系數
上述基本相關系數表明解釋變量間高度相關,也就是存在較嚴重的多重共線性。
(3)為檢驗多重共線性的影響,作如下簡單回歸:
各方程下邊括號內的數字分別表示的是對應解釋變量系數的t檢驗值。
觀察以上四個方程,根據經濟理論和統計檢驗(t檢驗值=41.937最大,擬合優度也最高),收入Y是最重要的解釋變量,從而得出最優簡單回歸方程。
(4)將其余變量逐個引入,計算結果如下表2:
表2 服裝消費模型的估計
結果分析:
①在最優簡單回歸方程中引入變量Pc,使R2由0.9955提高到0.9957;根據經濟理論分析,
正號,
負號是合理的。然而t檢驗
不顯著(
),而從經濟理論分析,Pc應該是重要因素。雖然Y與Pc高度相關,但并不影響收入Y回歸系數
的顯著性和穩定性。依照第1條判別標準,Pc可能是“有利變量”,暫時給予保留。
②模型中引入變量L ,R2 由0.9957提高到0.9959, 值略有提高。一方面,雖然Y 與L ,Pc與L 均高度相關,但是L 的引入對回歸系數、
的影響不大(其中
的值由0.1257變為0.1387,
值由-0.0361變為-0.0345,變化很?。?;另一方面,根據經濟理論的分析,L與服裝支出C之間應該是正相關關系,即
的符號應該為正號而非負號,依照第2條判別標準,解釋變量L不必保留在模型中。
③舍去變量L ,加入變量P0 ,使R2 由0.9957提高到0.9980,R2 值改進較大。、
、
均顯著(這三個回歸系數的t檢驗值絕對值均大于
),從經濟意義上看也是合理的(服裝支出C與Y,P0之間呈正相關,而與服裝價格Pc之間呈負相關關系)。根據判別標準第1條,可以認為Pc、P0皆為“有利變量”,給予保留。
④最后再引入變量L ,此時R2 =0.9980沒有增加(或幾乎沒有增加),新引入變量對其他三個解釋變量的參數系數也沒有產生多大影響,可以確定L 是多余變量,根據判別標準第2條,解釋變量L 不必保留在模型中。
因此我們得到如下結論:回歸模型為最優模型。
通過以上案例的分析,我們從理論和實際問題兩方面具體了解了逐步回歸分析是如何對多重共線性問題進行處理的。事實上,一般統計軟件如SPSS,在回歸模型的窗口中都會提供變量逐步進入的選項,勾選后實際上就是選擇了運用逐步回歸的思想來構建回歸模型。運用SPSS軟件不需要我們懂得其背后的運行規律,然而作為分析師,了解并理解模型背后的理論知識,將更有助于我們理解模型、解釋結論背后的內在含義,從而達到更好地分析問題的目的。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25