廣義上說共線性指的自變量之間的相關性,那么相關性有雙變量間的相關,也有多變量間的相關,由此可以進一步區分為共線性和多重共線性。下文首先從共線性的闡述逐步過渡到多重共線性。假設我們需要擬合包含了兩個影響因素線性回歸,并且假設x_1和x_2的相關系數為r_12,

k 表示自變量數??梢妳⑴cβ ?計算的是由3部分統計量組成,分子的殘差平方和、分母的自變量方差、自變量間的相關性。殘差平方和可以看成是來自于因變量的信息,方差可以看成是來自于自變量的信息,相關系數來自于自變量之間的信息。
如果我們假設變量之間的相關性為0,回歸系數β ?的方差是最小的。當然,這在數學上看起來很完美,但并不符合實際應用,因為在回歸分析中,所有影響因素可以看成是共享同一個因變量,如果能夠共享同一個潛在的因變量,影響因素之間沒有任何關系,則違反普通的理論或業務假定,所以相關系數為零,表示完全無共線性,在理論上行得通,但實際應用比較少。
如果相關系數取最大值1,會導致整個回歸系數方差變得不可估計,我們把這種現象稱之為完全共線性。完全共線性的場景,在小數據中極為少見,甚至不會出現,但在大數據中,由于數據鏈的存在,幾乎不可避免,但常見的方法論可以事先篩選掉這類問題。不過一旦出現完全共線性問題,并不會同時將涉及共線性的變量放入方程,因為這樣仍會帶來如過擬合、速度、冗余等問題??傮w來說無需傾注太多關注。
因此我們最常見的場景是介于0到1之間的相關性。理論統計研究顯示變量間出現適度的相關性,不會帶來嚴重的統計估計問題,但如果相關性很高,嚴重的估計問題就會出現,這是不容忽視的。如下圖所示,R方取值越大,對應的系數估計方差的倍數越大,如果R方等于0.9,系數方差是原來(R方取值0)的10倍,0.95對應的是20倍的方差。理論研究顯示 系數方差超出10倍,則對系數估計穩定性造成一定程度的影響。由此得出的結論是將R方為0.9視作為出現共線性診斷的標準之一,如果R方超過0.95則存在嚴重的共線性。









暫無數據