熱線電話:13121318867

登錄
首頁大數據時代回歸系列(三)| 談談線性回歸的殘差和預測值
回歸系列(三)| 談談線性回歸的殘差和預測值
2020-09-02
收藏

作者:丁點helper 

來源:丁點幫你

前面兩篇文章,我們聚焦于線性回歸的回歸系數,理清了樣本與總體回歸方程的區別、回歸系數的最小二乘法估計等問題,今天我們重點來看看線性回歸的殘差和預測值。

回歸分析的殘差

前面我們談到過樣本回歸方程有兩種寫法:

這里,殘差的頭上也有一個“^”(hat),意味著殘差也有總體與樣本之分。由上面殘差的計算公式也可推知這一點,因為預測值有樣本與總體之分,所以殘差也自然也是有的。

我們做線性回歸的時候一般需滿足:

1)線性(L):因變量與自變量之間呈線性關系;

2)獨立(I):各觀測值相互獨立;

3)正態(N):自變量(X)固定時所對應的因變量(Y)服從正態分布;

4)方差齊(E):不同自變量取值下因變量的方差相等。

以上四個條件即俗稱的LINE條件。這些條件雖然是針對因變量而言的,但我們卻可以通過對殘差進行分析達到檢驗的目的。一般而言,如果殘差滿足以上四個條件,則稱線性回歸的假設條件得到滿足。

(有關回歸診斷的問題,后面我們會專門詳細介紹。)

回歸分析的預測值

看完殘差,我們再來看看預測值。這里要指出回歸方程的第三種寫法(一般對于總體回歸):

看到 μ第一反應應該是均數,而且是總體均數(非樣本均數),所以 μγ在相關教材上被稱作“X取某個特定數值時,Y的條件總體均數”。

這里的“條件總體均數”估計會看暈不少人。所謂“條件”,意味著Y的取值是依據X的取值而定的,“X的取值”是確定Y的前提條件。

由此,嚴格來說, Y應該是 μγ 的預測值。

這意味著給定X的取值,我們通過回歸獲得的是Y的一個平均值。比如前面文章中談到的教育程度(X)和收入(Y)的回歸方程:

當X=15時,可以計算得出 Y=5000,嚴格來講,這里算出的5000并非是某個人的具體收入,而是一群接受了15年教育的人,其收入的平均數。

因為即便是大家都接受了15年教育,但收入也并不完全相同,有的可能一兩萬,而有的也可能一兩千。而我們通過回歸獲得是收入(Y)在教育程度為15年(X=15)的一個平均數。

理解了這一層,再看下面這圖應該會比較輕松。

回歸線與豎線的交點,即是回歸預測值,也是這個正態曲線的均值。均值對應著正態分布的波峰,意味著即使這一群人的實際收入有差距,但大部分人仍然會圍繞5000上下小幅波動(當X=15時)。

這里的正態分布之所以有四個,是因為在不同X的取值水平下,Y的取值會發生(系統性)的變化,即Y的均值會隨著X的變化而變化。

這一點其實描述了回歸最本質的意義,試想,如果Y的正態分布不隨X變化,那意味就X不會對Y產生影響,則兩者可能就不存在線性相關。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢