熱線電話:13121318867

登錄
首頁精彩閱讀【從零開始學統計】9.回歸:統計方法的大結合!
【從零開始學統計】9.回歸:統計方法的大結合!
2014-07-04
收藏

在開始本次的專題之前,樓主先問個小問題:姚明和他妻子葉莉生的孩子(兒子或女兒)會超過其父母的身高么?當然這是同性的相比(兒子一般都會比母親高,女兒一般不會超過父親……樓主才不會這么二呢……)

       當然這個問題提的也有點極端(畢竟像姚明那身高的世界上也沒幾個,要長那么高真心不容易?。?,但是這個問題,則引入了我們今天的話題:回歸~~

       這個回歸不是香港澳門的回歸,而是數學上的回歸?;貧w最初被提出的時候,是作為現象出現的。在此引用《女士品茶》中的一段文字,來描述一下這個現象:高爾頓用這種方法,發現了他稱之為“向平均回歸”(regression to the mean)的現象,這表現為:非常高的父親,其兒子往往要比父親矮一些;而非常矮的父親,其兒子往往要比父親高一些。似乎是某種神秘的力量,使得人類的身高從高矮兩極移向所有人的平均值。不只是人類身高存在著向平均數回歸的現象,幾乎所有的科學觀察都著了魔似的向平均值回
歸。下面一段話,則說明了回歸現象是符合直觀的(為什么出現這個現象):

       高爾頓仔細思考了他的驚人發現,而后認識到這必定是真實的,在進行所有觀察之前這就是可以預言的。他說,假設不發生這種向平均值的回歸,那么從平均意義上看,高身材父親的兒子將與他們的父親一樣高,在這種情況下,一些兒子的身材必須高于他們的父親,以抵消身材比父親矮小者的影響,使平均值不變。高身材者這一代人的兒子也將如此,那么會有一些兒子身材更高。這個過程將一代一代延續下去。同樣地,將會有一部分兒子身材比他們的父親矮小,而且有一部分孫子將更加矮小,如此下去,不用多少代,人類種族就將由特別高和特別矮的兩極構成。 上述的情形并沒有發生,人類的身高在平均意義上趨向于保持穩定。只有當非常高的父親其兒子平均身材變矮,而非常矮的父親其兒子的平均身材變高,才能出現這種穩定。向平均值回歸是一種保持穩定性的現象,它使得某給定物種代際之間大致相同。

回歸的現象.jpg


       看這篇文章的很多童鞋,在接觸回歸的時候,有多少是被老師用這段話(或大致內容差不多的例子)引入回歸之門的呢?樓主肯定是的。也正因為如此,樓主對自己的身高終于心理平衡點了……好了,既然引入了回歸,那我們就入正題,來講講回歸的故事。

       有人要問了,樓主你說這么多,和回歸分析(或回歸模型)有什么關系?
      樓主:乍一看,是有點聯系不上(頂多讓人聯想到中心極限定理),但我們若是將父親的身高作為自變量X;兒子的身高作為因變量Y,那么我們也許就能根據父親的身高大致預測兒子的身高了。兒子身高的均值E(Y)可以大致用公式E(y)=bx+a+ε來做簡單預測,這就是回歸的現代意義:一個被解釋變量(因變量)與若干個解釋變量(自變量)依存關系的研究。要做回歸分析,有2個必需具備的條件
1、變量之間存在相關關系
Q:兩個變量間有哪些關系
A:兩個變量間有不相關、函數關系(函數關系是兩個變量之間有確定的關系,可以明確用函數表達的)和相關關系(相關關系包括線性相關和非線性相關)
備注:通常我們使用的線性回歸分析都會計算一個相關系數,這里的相關系數特指線性相關系數,如果哪天你計算出的相關系數為0.001~~那也僅僅表示他們的線性相關度很低,并不說明他們不存在非線性的什么關系……當然,當我們遇到的變量存在非線性相關關系,可以構建非線性回歸方程,也可以想辦法將其轉換成線性方程。

2、自變量間相互獨立且服從正態分布
變量間的相互獨立是為了保證其不會產生共線性(這個是要多元回歸才有的),正態分布的要求則保證了他們能使用那些基于正態分布而推導得出的統計理論(比如最小二乘,假設檢驗之類的)。這里還要求ε的均值為0,方差為σ2,且σ2與自變量無關。
Q:為什么會有ε?
A:若沒有隨機誤差,則變量間就為函數關系,加入了隨機誤差,則表明此方程模型中的X只能解釋或影響部分的Y,在他們之間可能還有其他的因素同樣牽引Y的變動(可能是一些我們沒有發現的因素,也可能是樣本獲取中的一些誤差引起的……)
我們來看一個小例子: 身高和體重圖.jpg 
假設隨機誤差對體重沒有影響,那么散點圖中所有的點將完全落在回歸直線上。但是,圖中的數據點并沒有完全落在回歸直線上,而是散布在回歸直線的附件,我們可以認為是那些隨機誤差將點從回歸直線上“推”開了。

回歸的目的也可以說是實質是由解釋變量(自變量)去估計被解釋變量(因變量)的均值!這個目的往往會被我們忽視,最終導致模型建立后因變量到底是什么都不清楚了。

再說回回歸方程的表達式,E(y)=bx+a+ε,b為斜率,a為截距,他們的計算公式為:清晰公式.jpg 
這里,在計算a,b時運用到最小二乘的方法,利用最小二乘法可以簡便地求得未知的數據,并使得這些求得的數據與實際數據之間誤差的平方和為最小,樓主之前做過一個最小二乘的專題,大家可點擊:http://bbs.pinggu.org/thread-3041002-1-1.html參看一下。

為了更好的理解回歸方程的含義,我們舉個例子來說:
比如有方程表達式為:y=0.849x-85.7(y其實應該用y的估計,計算所得的參數值也是b和a的估計,但那個符號,打不上去~~大家將就一下),它表示x每增加1個單位,y就增加0.849個單位,且兩者具有正相關性。

那是不是這個方程就OK了,就能拿來用來預測呢?當然沒那么簡單,在這里我們就要來說說一個概念,那叫殘差。
Q:什么是殘差,殘差有什么作用?
A:在線性回歸模型中,殘差是真實值與估計值之間的差值,還記得前文中的ε,它是一個不可測量的隨機誤差,但我們可以用殘差去估計隨機誤差的方差。當然我們還能用殘差制作殘差圖來判斷模型擬合的好壞以及原始數據時候有奇異值。通常,我們將殘差作為縱軸,樣本序號、自變量或因變量的估計值作為橫軸畫殘差圖。
舉個例子來說吧:(圖中橫軸為樣本觀測編號)

殘差圖.jpg


由圖可知,樣本1和6的殘差較大,需要查看一下是否數據采集過程中有所錯誤,或是否有其他原因導致數值異常。
備注:殘差點比較均勻的分布在水平帶狀區域內,說明選用的模型比較合適,帶狀區域寬度越窄,說明擬合精度越高,回歸方程的估計精度越高。

Q:Adjusted R2與R2之間有什么關系?
A:R2稱為方程的確定系數,0~1之間,越接近1,表明方程的變量對y的解釋能力越強。 對于回歸方程來說,總結了以下幾個意義: 
1.R2可以作為選擇不同模型的標準。如果在擬合數據之前,不能確定數據到底是什么模型,那么可以對變量的不同數學形式進行擬合,然后看R2的大小,R2大的模型,說明這個模型對數據擬合的較好。 
2.在數據的關系存在非線性可能情況下:
(a)不一定R2越大擬合越好,因為R2只是回歸平方和占總平方和的比例。 (b)如果一個模型的R2很小,不一定代表數據之間沒有關系,而很有可能是選擇的模型不對,因為數據之間也許的其他的函數關系,比如對數關系或者指數關系。這意味著需要對數據作進一步的擬合。(當然,最好的方法應該是在數據擬合之前先觀察散點圖)。如果是線性模型,那么R square才是方程擬合優度的度量,R2越大,回歸方程擬合數據越好,線性關系越強。 
3.當自變量個數增加時,盡管有的自變量與y的線性關系不顯著,R2也會增大。R2受自變量個數與樣本規模影響。對于這點,采用Adjusted R2進行調整。 
4.當想確定方程中的每一個自變量對y的邊際解釋能力時,應該確定每個自變量的偏確定系數。注意,偏確定系數反映的是新加入回歸的變量所解釋的百分比,而這百分比是以前一步回歸所未能解釋的部分為整體,而不是以y的總變化為整體。也就是說,x1與x2共同解釋的y的貢獻,已包含在x1解釋的y的貢獻里面。偏確定系數的意義是,用于判斷自變量的重要性。但是,在遇到虛擬變量時,計算這個的意義不大。

Q:多元回歸分析中某自變量刪除的判斷
A:數理統計中有檢驗自變量和因變量關系的密切程度的方法, 利用此法可判斷一自變量與因變量的關系之密切程度, 因而放棄該最差的自變量, 達到簡化回歸分析的目的。 在運用自變量相對重要性的檢驗方法以及以此檢驗結果作出刪除某自變量時, 不能單純按數理統計所提供的數學處理, 而應以專業知識作全面考慮.  自變量的重要性是通過相應回歸系數的顯著性來檢驗。檢驗結果可分兩類: 一是各回歸系數都具顯著性, 但顯著程度, 即顯著性水平a 可能不盡相同; 二是有的回歸系數不具顯著性。根據數理統計的概念, 對于不具顯著性, 相應的自變量在回歸中的作用很小, 可忽略不計而刪除之, 用剩下的自變量重新回歸

進行回歸分析的步驟:
1、確定回歸方程中的解釋變量和被解釋變量(即誰是X誰是Y)
2、確定回歸模型:根據函數擬合方式,通過觀察散點圖確定應通過哪種數學模型來描述回歸線。如果被解釋變量和解釋變量之間存在線性關系,則應進行線性回歸分析,建立線性回歸模型;如果被解釋變量和解釋變量之間存在非線性關系,則應進行非線性回歸分析,建立非線性回歸模型。
3、建立回歸方程:根據收集到的樣本數據以及前步所確定的回歸模型,在一定的統計擬合準則下估計出模型中的各個參數,得到一個確定的回歸方程。
4、對回歸方程進行各種檢驗:由于回歸方程是在樣本數據基礎上得到的,回歸方程是否真實地反映了事物總體間的統計關系,以及回歸方程能否用于預測等都需要進行檢驗。
5、利用回歸方程進行預測

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢