熱線電話:13121318867

登錄
首頁精彩閱讀如何衡量多元線性回歸模型優劣
如何衡量多元線性回歸模型優劣
2018-05-30
收藏

如何衡量多元線性回歸模型優劣

最近再做一些多元回歸分析方面的分析,但對于得出的回歸模型的好壞不知道如何才判斷,于是查找了一下相關的教材書籍,找到了張文彤老師寫的《SPSS統計分析高級教程》這本書,里面對于回歸模型的優劣評價給出來了幾點看法,我在此做了摘錄分享一下。

當供建立回歸模型的自變量有p 個時,僅考慮各因素的主效應,可以建立2^P 個模型(包括僅含常數項的模型)。如果來衡量這些模型的好壞?常用有以下幾種標準:

1.復相關系數R

復相關系數(Multiple Correlation Coefficient) 又稱多元相關系數,表示模型中所有自變量xi間與反應變量y之間線性回歸關系的密切程度大小。實際上它是Yi 與其估計值的簡單線性相關系數,即Pearson 相關系數。但其取值范圍為(0 ,1),沒有負值。R 值越大,說明線性回歸關系越密切。但R值直大至多少才算足夠好?不同學科的研究其判斷標準也不一樣。如社會科學研究學者可能認為R >0.4 己經足夠好了(想想對股價的預測吧) ,而醫學研究學者認為R =0.8 仍嫌偏小,這可能是因為社會科學研究中存在較多的對反應變量確有影響卻無法進行測量的變量,當然也就無法對其進行統計分析。此外,用復相關系數評價多元線性回歸模型優劣時存在不足,即使向模型中增加的變量沒有統計學意義, R 值仍會增大。

2. 決定系數R2

模型的決定系數(Determinate Coefficient) 等于復相關系數的平方。與簡單線性回歸中的決定系數相類似,它表示反應變量y 的總變異中可由回歸模型中自變量解釋的部分所占的比例,是衡量所建立模型效果好壞的指標之一。顯然, R2 越大越好,但是也存在與復相關系數一樣的不足。決定系數的計算公式如下:

3. 校正的決定系數R_adj^2
由于用R2評價擬合模型的好壞具有一定的局限性,即使向模型中增加的變量沒有統計學意義, R2值仍會增大。因此需對其進行校正,從而形成了校正的決定系數(Adjusted R Square) 。 校正的決定系數總小于決定系數。校正的決定系數公式如下:

與R2不同的是,當模型中增加的變量沒有統計學意義時,校正決定系數會減小,因此校正R2 是衡量所建模型好壞的重要指標之一,校正R2 越大,模型擬合得越好。但當p/n 很小時,如小于0.05 時,校正作用趨于消失。

實際應用中,R2、R_adj^2值的大小還與研究中實際觀測到的自變量取值范圍有關,一種可能的情況是,某個實際觀測的自變量取值范圍很窄,但此時所建模型的R2 很大,但這并不代表模型在外推應用時的效果肯定會很好。此外,有時雖然校正決定系數(或決定系數)很大,但誤差均方仍很大,這會導致估計的?可信區間很寬,從而失去實際應用價值。

4. 剩余標準差

剩余標準差(Std. Error Of The Estimate) ,等于誤差均方MSE 的算術平方根,就是殘差之標準差,其大小反應了用建立的模型預測因變量時的精度。剩余標準差越小,說明建立的模型效果越好。與校正決定系數相類似地,當模型中增加無統計學意義的自變量時,剩余標準差反而會增大。此外,剩余標準差還在因變量估值的可信區間估計、自變量的選擇等很多方面有著重要作用。

上面介紹的4項可以在SPSS軟件上直接輸出,除此之外還有一些常用的衡量多元回歸模型優劣的標準在這里點一下,有興趣的讀者可參考相關參考書。

5、赤池信息準則

赤池信息準則也被稱為AIC 準則(Akaike’s Information Criterion) ,由日本學者赤池于1973年提出,除應用于一般線性模型、廣義線性模型的變量篩選外,還被應用于時間序列分析中自回歸階數的確定。AIC 由兩部分組成,一部分反映模型的擬合精度,一部分反映了模型中參數的個數,即模型的繁簡程度。其計算公式為:

n 為樣本含量,與前面走義不同的是,這里的p 為模型中參數個數(包括常數項) ,L 為模型的最大似然函數。一昧地增加模型中自變量的個數雖然能使前半部分減小,而后一部分卻不斷增大,當模型中納入無統計學意義的自變量時,前半部分減小的幅度小于后一部分增大的幅度,虧本的生意當然沒人去做。AIC 值越小,說明擬合的模型既精度高又簡潔。

應用不同的方法擬合的回歸模型其AIC 值是不一樣的,因此,在應用AIC 準則對不同的模型進行比較時,不同擬合方法得到的模型不能進行比較,AIC 準則只能用于比較同一種方法擬合得到的回歸模型。

6、C_p 統計量

Cp 統計量由C. L. Mallows 于1964 年提出。

MSE_p 指模型中含有p 個參數(包括常數項)時的誤差均方, MSE_p 為所有自變量均引入模型時的誤差均方。用Cp 統計量選擇模型的標準是選擇Cp 最接近p 的那個模型。

7、其他標準

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢