熱線電話:13121318867

登錄
首頁精彩閱讀【從零開始學統計】10.共線性與異方差
【從零開始學統計】10.共線性與異方差
2014-07-04
收藏
傳統的多元線性回歸模型中,總是存在一個基本假設:解釋變量為非隨機變量且彼此間互不相關(實際上一般只要求不存在完全共線性),隨機誤差項相互獨立且服從零均值同方差的特性。那么這次,我們就來看看時常困擾我們的共線性和異方差的問題。
首先我們來了解一下什么是共線性

所謂多重共線性是指線性回歸模型中的解釋變量之間由于存在精確相關關系或高度相關關系而使模型估計失真或難以估計準確。一般來說,由于經濟數據的限制使得模型設計不當,導致設計矩陣中解釋變量間存在普遍的相關關系。完全共線性的情況并不多見,一般出現的是在一定程度上的共線性,即近似共線性。它產生的主要原因有三個方面:
(1)經濟變量相關的共同趨勢
(2)滯后變量的引入
(3)樣本資料的限制

如果解釋變量存在共線性,那么模型的參數估計情況就不太樂觀了,比如完全共線性下參數估計量不存在;近似共線性下OLS估計量非有效,多重共線性使參數估計值的方差增大;參數估計量經濟含義不合理;變量的顯著性檢驗失去意義,可能將重要的解釋變量排除在模型之外;模型的預測功能失效(變大的方差容易使區間預測的“區間”變大,使預測失去意義)
需要注意:即使出現較高程度的多重共線性,OLS估計量仍具有線性性等良好的統計性質。但是OLS法在統計推斷上無法給出真正有用的信息。
Q:我們該如何判斷變量存在共線性?
1、系數判定法
(1)如果決定系數很大(一般大于0.8),但模型中全部或部分參數卻不顯著,那么,此時解釋變量之間往往存在多重共線性。
(2)從經濟理論知某些解釋變量對因變量有重要影響,或經檢驗變量之間線性關系顯著,但其參數的檢驗均不顯著,一般就應懷疑是多重共線性所致。
(3)如果對模型增添一個新的解釋變量之后,發現模型中原有參數估計值的方差明顯增大,則表明在解釋變量之間(包括新添解釋變量在內)可能存在多重共線性。
2、用解釋變量之間所構成的回歸方程的決定系數進行判別
3、逐步回歸判別法:被解釋變量逐個引入解釋變量,構成回歸模型,進行參數估計,根據決定系數的變化決定新引入的變量是否能夠加入模型之中。首先將對所有的解釋變量分別作回歸,得到所有的模型,取決定系數最大的模型中的解釋變量加入模型,作為第一個引入模型的變量;其次,再對剩余的解釋變量分別加入模型,進行二元回歸,再次,取決定系數最大的解釋變量加入模型;依次做下去,直到模型的決定系數不再改善為止。
4、方差膨脹因子VIF判別法:對于多元線性回歸模型,一般當VIF>10時(此時 >0.9),認為模型存在較嚴重的多重共線性。

Q:遇到多重共線性,我們該怎么辦?
(1)刪除不重要的自變量:自變量之間存在共線性,說明自變量所提供的信息是重疊的,可以刪除不重要的自變量減少重復信息。但從模型中刪去自變量時應該注意從實際經濟分析確定為相對不重要并從偏相關系數檢驗證實為共線性原因的那些變量中刪除。如果刪除不當,會產生模型設定誤差,造成參數估計嚴重有偏的后果。
(2)追加樣本信息:多重共線性問題的實質是樣本信息的不充分而導致模型參數的不能精確估計,因此追加樣本信息是解決該問題的一條有效途徑。但是,由于資料收集及調查的困難,要追加樣本信息在實踐中有時并不容易。
(3)利用非樣本先驗信息:非樣本先驗信息主要來自經濟理論分析和經驗認識。充分利用這些先驗的信息,往往有助于解決多重共線性問題。
(4)改變解釋變量的形式:改變解釋變量的形式是解決多重共線性的一種簡易方法,例如對于橫截面數據采用相對數變量,對于時間序列數據采用增量型變量。
(5)逐步回歸法:是一種常用的消除多重共線性、選取“最優”回歸方程的方法。其做法是將逐個引入自變量,引入的條件是該自變量經F檢驗是顯著的,每引入一個自變量后,對已選入的變量進行逐個檢驗,如果原來引入的變量由于后面變量的引入而變得不再顯著,那么就將其剔除。引入一個變量或從回歸方程中剔除一個變量,為逐步回歸的一步,每一步都要進行F 檢驗,以確保每次引入新變量之前回歸方程中只包含顯著的變量。這個過程反復進行,直到既沒有不顯著的自變量選入回歸方程,也沒有顯著自變量從回歸方程中剔除為止。
(6)可以做主成分回歸:利用主成分提取的原理(比如變量間方差最大等)提取新的變量,新變量間一般不存在線性相關(但也會存在如何給新變量命名的問題),這是比較常用的一種降維方式。




接下來就是同樣讓人為之煩惱的異方差問題了
通常說的異方差性就是(Var(εi ) ≠Var (εj ) , 當i≠j時) 。經濟現象是錯綜復雜的,在建立經濟問題的回歸分析模型時,經常會出現某一因素或一些因素隨著解釋變量觀測值的變化而對被解釋變量產生不同的影響,導致隨機誤差項產生不同方差,即異方差性。當我們所研究的問題存在異方差性時,線性回歸模型的基本假定就被違反了。引起隨機誤差項產生異方差的原因很多,其中樣本數據為截面數據時較容易出現異方差性。而當一個回歸問題存在異方差性時,如果仍用OLS估計未知參數,就會造成估計值不是最優、參數的顯著性檢驗失效、回歸方程的應用效果極不理想等嚴重后果。
讓我們來看看同方差和異方差殘差圖上的區別:

異方差.jpg


那我們該如何更加精確的檢驗是否存在異方差呢?
1、戈德菲爾德-夸特(Goldfeld-Quandt)檢驗:G-Q檢驗以F檢驗為基礎,適用于樣本容量較大、異方差遞增或遞減的情況。G-Q檢驗的思想:先按某一解釋變量(通常是可能引起異方差的解釋變量)對樣本排序,再將排序后的樣本一分為二,對子樣①和子樣②分別作回歸,然后利用兩個子樣的殘差平方和之比構造統計量進行異方差檢驗。
步驟:(1)將解釋變量排序,從中間去掉c=n/4個觀測值
          (2)分成兩個部分,利用樣本1和樣本2分別建立回歸模型
          (3)根據回歸求出各自殘差平方和RSS1和RSS2
          (4)在同方差假定下,構造F統計量:F=(RSS2/V2)/(RSS1/V1),與F(V2,V1)進行比較,若F值大于等于比較值則拒絕同方差假設,否則則不拒絕
注意:
(1)該檢驗的功效取決于c 值,c 值越大,則大小方差的差異越大,檢驗功效越好
(2)兩個回歸所用的觀測值的個數是否相等并不重要,因為可以通過公式改變自由度和統計量的計算公式來調整
(3)當模型中包含多個解釋變量時,應對每個可能引起方差的解釋變量都進行檢驗
2、懷特(White)檢驗:懷特檢驗不需要排序,且適合任何形式的異方差。
步驟:
(1)對原模型進行OLS 回歸,得到殘差ei
(2)以ei2為被解釋變量,以各種解釋變量、個解釋變量的平方項、解釋變量之間兩兩交叉項為解釋變量建立輔助回歸方程,并估計
(3)根據輔助回歸方程估計結果構造并計算統計量nR2 ,它服從卡方分布(自由度為輔助回歸式中解釋變量個數)
(4)根據臨界值判斷,若大于臨界值,拒絕同方差假定;小于臨界值,則不拒絕同方差假定
注意:
(1)輔助回歸中可引入解釋變量的更高次冪
(2)在多元回歸中,由于解釋變量個數太多,可去掉輔助回歸式中解釋變量間的交叉項
Q:檢驗出異方差之后我們改如何處理?
1、WLS(加權最小二乘估計)是一種特殊的廣義最小二乘估計,其思想就是對于誤差越大的關系額賦予更加大的權重??梢缘玫疥P于GLS的穩健的統計量。GLS系數的解釋要回到原先的方程中去。如果分析的問題不是個體的數據,而是一個組或者是一個地區的數據平均值,那么就會出現系統性的異方差性。
2、FGLS(可行的最小二乘估計),當我們不知道誤差函數的時候,可以采用相應的模型,然后使用數據來估計相應的參數,得到相應的函數形式,最后替代GLS估計中的函數,后面的操作就不變。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢