熱線電話:13121318867

登錄
首頁精彩閱讀【從零開始學統計】2.可決系數真的決定一切么?
【從零開始學統計】2.可決系數真的決定一切么?
2014-07-04
收藏
       前幾天逛知乎的時候看到一個帖子,學計量的和學統計的在爭論關于anova里的可決系數的問題。突然萌生了一個念頭,想聽聽大家對這個R2是怎么理解的。(引用的知乎鏈接,大家可以前去看看http://www.zhihu.com/question/22935472;當然本壇里也展開過一個關于計量和統計兩學科區別的討論,大家也可看看http://bbs.pinggu.org/thread-2930588-1-1.html

       那我先來說說我對這個R2的理解吧:

       R2是什么?它就是可決系數(coefficient of determination),也被稱為擬合優度。說到擬合優度一般理解為回歸直線與觀測值的一個擬合程度,請看圖:

1.png

       如果樣本回歸線對樣本觀測值擬合程度越好,各樣本觀測點與回歸線靠得越近,由樣本回歸做出解釋的離差平方和與總離差平方和越相近;反之,擬合程度越差,相差越大。(說的更簡單點,R2越大,自變量對因變量的解釋程度越高,自變量引起的變動占總變動的百分比高。觀察點在回歸直線附近越密集)。既然是平方那么可決系數的取值范圍在0到1之間,它是一個非負統計量。試想如果所有的點都在直線上,一點也沒有離開直線,那就說明擬合度很好,是1。就是能夠完全解釋。

       而現實情況肯定沒有這樣的。就比如你的努力程度和歷次考試成績,雖然越努力成績越好,但是你不能保證自己沒有失誤啊。這個失誤就是殘差,但是失誤肯定不是主要部分,所以R2還是很大的。

       R2沒有很明確的界限,說什么就是好什么就是不好,有的時候時間序列的擬合程度都不是很好,甚至只有0.3到0.4,所以要綜合來看,沒有很確定的界限。例如,考慮這樣一個例子。在冬季的幾個月里,人們經常通過燃油取暖,因為取暖用的燃油在冬季的銷售額比在夏天的銷售額要高。同樣,滑雪設備的銷售額在冬季也比夏天要高。事實上,如果我們打算運行一個以滑雪設備的銷售額作為自變量x以及取暖用的燃油的銷售額作為因變量y的回歸模型,那么產生的模型將是很好的模型,并具有很高的R2數值。不過,我們知道滑雪設備的銷售額并沒有造成人們購買更多的家用取暖的燃油。

       當然還有其他情況,比如當回歸直線是平行于x軸,并且與原始數據的散點圖擬合度也非常高,但R2=0.說明一個低的R2數值,并不一定意味著回歸模型缺乏可信度。(極端舉例)又或者,一個高的R2數值但原始數據的散點圖表明因變量y的觀測值用一條曲線擬合比用一條直線擬合的效果可能會更好。(這是我們也會考慮參考其他擬合指標,比如AIC準則……)

       So,樓主覺得R2數值有時會給出有關線性回歸模型對數據擬合程度好的誤導信息。一般說來,較高的R2數值比較低的R2數值要好。接受回歸模型足夠好的R2數值的決定因素主要取決于這個模型的應用目的以及經驗和良好的管理知識。

  
       在擴展一下,擬合優度檢驗和F檢驗有區別嗎?
       還是有區別的,擬合優度是指這個模型對于數據來說,解釋變量能夠解釋被解釋變量的程度,F說明的是整個模型中所有的解釋變量的顯著程度,和T值是對應的。

       在問,那R2與R的關系呢?
       撇開平方不說,R指的是線性相關系數,也就是說因變量和自變量之間的線性相關程度(注意強調的是線性?。?,如果兩者關系很大,那么自然用他們做出的模型當然比較好用自變量解釋因變量。(當然這又要引申出多重共線的問題了……這就不深究了)

       樓主也希望聽聽大家的見解,特別是看到知乎上的那位學計量的高票答案,有些確實說的有道理,但可能作為學統計的我,確實有些地方也不太能完全贊同吧,不知大家怎樣覺得?

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢