
回歸分析的認識及簡單運用
回歸分析(regression analysis)是確定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法。運用十分廣泛,回歸分析按照涉及的自變量的多少,分為回歸和多重回歸分析;按照自變量的多少,可分為一元回歸分析和多元回歸分析;按照自變量和因變量之間的關系類型,可分為線性回歸分析和非線性回歸分析。如果在回歸分析中,只包括一個自變量和一個因變量,且二者的關系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關系,則稱為多重線性回歸分析。
定義
回歸分析是應用極其廣泛的數據分析方法之一。它基于觀測數據建立變量間適當的依賴關系,以分析數據內在規律,并可用于預報、控制等問題。
方差齊性
線性關系
效應累加
變量無測量誤差
變量服從多元正態分布
觀察獨立
模型完整(沒有包含不該進入的變量、也沒有漏掉應該進入的變量)
誤差項獨立且服從(0,1)正態分布。
現實數據常常不能完全符合上述假定。因此,統計學家研究出許多的回歸模型來解決線性回歸模型假定過程的約束。
研究一個或多個隨機變量Y1 ,Y2 ,…,Yi與另一些變量X1、X2,…,Xk之間的關系的統計方法,又稱多重回歸分析。通常稱Y1,Y2,…,Yi為因變量,X1、X2,…,Xk為自變量?;貧w分析是一類數學模型,特別當因變量和自變量為線性關系時,它是一種特殊的線性模型。最簡單的情形是一個自變量和一個因變量,且它們大體上有線性關系,這叫一元線性回歸,即模型為Y=a+bX+ε,這里X是自變量,Y是因變量,ε是隨機誤差,通常假定隨機誤差的均值為0,方差為σ^2(σ^2大于0)σ^2與X的值無關。若進一步假定隨機誤差遵從正態分布,就叫做正態線性模型。一般的情形,它有k個自變量和一個因變量,因變量的值可以分解為兩部分:一部分是由于自變量的影響,即表示為自變量的函數,其中函數形式已知,但含一些未知參數;另一部分是由于其他未被考慮的因素和隨機性的影響,即隨機誤差。當函數形式為未知參數的線性函數時,稱線性回歸分析模型;當函數形式為未知參數的非線性函數時,稱為非線性回歸分析模型。當自變量的個數大于1時稱為多元回歸,當因變量個數大于1時稱為多重回歸。
回歸分析的主要內容為:
①從一組數據出發,確定某些變量之間的定量關系式,即建立數學模型并估計其中的未知參數。估計參數的常用方法是最小二乘法。
②對這些關系式的可信程度進行檢驗。
③在許多自變量共同影響著一個因變量的關系中,判斷哪個(或哪些)自變量的影響是顯著的,哪些自變量的影響是不顯著的,將影響顯著的自變量入模型中,而剔除影響不顯著的變量,通常用逐步回歸、向前回歸和向后回歸等方法。
④利用所求的關系式對某一生產過程進行預測或控制?;貧w分析的應用是非常廣泛的,統計軟件包使各種回歸方法計算十分方便。
在回歸分析中,把變量分為兩類。一類是因變量,它們通常是實際問題中所關心的一類指標,通常用Y表示;而影響因變量取值的的另一類變量稱為自變量,用X來表示。
回歸分析研究的主要問題是:
(1)確定Y與X間的定量關系表達式,這種表達式稱為回歸方程;
(2)對求得的回歸方程的可信度進行檢驗;
(3)判斷自變量X對因變量Y有無影響;
(4)利用所求得的回歸方程進行預測和控制。
回歸分析可以說是統計學中內容最豐富、應用最廣泛的分支。這一點幾乎不帶夸張。包括最簡單的t檢驗、方差分析也都可以歸到線性回歸的類別。而卡方檢驗也完全可以用logistic回歸代替。
眾多回歸的名稱張口即來的就有一大片,線性回歸、logistic回歸、cox回歸、poission回歸、probit回歸等等等等,可以一直說的你頭暈。為了讓大家對眾多回歸有一個清醒的認識,這里簡單地做一下總結:
1、線性回歸,這是我們學習統計學時最早接觸的回歸,就算其它的你都不明白,最起碼你一定要知道,線性回歸的因變量是連續變量,自變量可以是連續變量,也可以是分類變量。如果只有一個自變量,且只有兩類,那這個回歸就等同于t檢驗。如果只有一個自變量,且有三類或更多類,那這個回歸就等同于方差分析。如果有2個自變量,一個是連續變量,一個是分類變量,那這個回歸就等同于協方差分析。所以線性回歸一定要認準一點,因變量一定要是連續變量。
2、logistic回歸,與線性回歸并成為兩大回歸,應用范圍一點不亞于線性回歸,甚至有青出于藍之勢。因為logistic回歸太好用了,而且太有實際意義了。解釋起來直接就可以說,如果具有某個危險因素,發病風險增加2.3倍,聽起來多么地讓人通俗易懂。線性回歸相比之下其實際意義就弱了。logistic回歸與線性回歸恰好相反,因變量一定要是分類變量,不可能是連續變量。分類變量既可以是二分類,也可以是多分類,多分類中既可以是有序,也可以是無序。二分類logistic回歸有時候根據研究目的又分為條件logistic回歸和非條件logistic回歸。條件logistic回歸用于配對資料的分析,非條件logistic回歸用于非配對資料的分析,也就是直接隨機抽樣的資料。無序多分類logistic回歸有時候也成為多項logit模型,有序logistic回歸有時也稱為累積比數logit模型。
3、cox回歸,cox回歸的因變量就有些特殊,因為他的因變量必須同時有2個,一個代表狀態,必須是分類變量,一個代表時間,應該是連續變量。只有同時具有這兩個變量,才能用cox回歸分析。cox回歸主要用于生存資料的分析,生存資料至少有兩個結局變量,一是死亡狀態,是活著還是死亡?二是死亡時間,如果死亡,什么時間死亡?如果活著,從開始觀察到結束時有多久了?所以有了這兩個變量,就可以考慮用cox回歸分析。
4、poisson回歸,poisson回歸相比就不如前三個用的廣泛了。但實際上,如果你能用logistic回歸,通常也可以用poission回歸,poisson回歸的因變量是個數,也就是觀察一段時間后,發病了多少人?或者死亡了多少人?等等。其實跟logistic回歸差不多,因為logistic回歸的結局是是否發病,是否死亡,也需要用到發病例數、死亡例數。大家仔細想想,其實跟發病多少人,死亡多少人一個道理。只是poission回歸名氣不如logistic回歸大,所以用的人也不如logistic回歸多。但不要因此就覺得poisson回歸沒有用。
5、probit回歸,在醫學里真的是不大用,最關鍵的問題就是probit這個詞太難理解了,通常翻譯為概率單位。probit函數其實跟logistic函數十分接近,二者分析結果也十分接近??上У氖?,probit回歸的實際含義真的不如logistic回歸容易理解,由此導致了它的默默無名,但據說在社會學領域用的似乎更多一些。
6、負二項回歸。所謂負二項指的是一種分布,其實跟poission回歸、logistic回歸有點類似,poission回歸用于服從poission分布的資料,logistic回歸用于服從二項分布的資料,負二項回歸用于服從負二項分布的資料。說起這些分布,大家就不愿意聽了,多么抽象的名詞,我也很頭疼。如果簡單點理解,二項分布你可以認為就是二分類數據,poission分布你可以認為是計數資料,也就是個數,而不是像身高等可能有小數點,個數是不可能有小數點的。負二項分布呢,也是個數,只不過比poission分布更苛刻,如果你的結局是個數,而且結局可能具有聚集性,那可能就是負二項分布。簡單舉例,如果調查流感的影響因素,結局當然是流感的例數,如果調查的人有的在同一個家庭里,由于流感具有傳染性,那么同一個家里如果一個人得流感,那其他人可能也被傳染,因此也得了流感,那這就是具有聚集性,這樣的數據盡管結果是個數,但由于具有聚集性,因此用poission回歸不一定合適,就可以考慮用負二項回歸。既然提到這個例子,用于logistic回歸的數據通常也能用poission回歸,就像上面案例,我們可以把結局作為二分類,每個人都有兩個狀態,得流感或者不得流感,這是個二分類結局,那就可以用logistic回歸。但是這里的數據存在聚集性怎么辦呢,幸虧logistic回歸之外又有了更多的擴展,你可以用多水平logistic回歸模型,也可以考慮廣義估計方程。這兩種方法都可以處理具有層次性或重復測量資料的二分類因變量。
7、weibull回歸,有時中文音譯為威布爾回歸。weibull回歸估計你可能就沒大聽說過了,其實這個名字只不過是個噱頭,嚇唬人而已。上一篇說過了,生存資料的分析常用的是cox回歸,這種回歸幾乎統治了整個生存分析。但其實夾縫中還有幾個方法在頑強生存著,而且其實很有生命力,只是國內大多不愿用而已。weibull回歸就是其中之一。cox回歸為什么受歡迎呢,因為它簡單,用的時候不用考慮條件(除了等比例條件之外),大多數生存數據都可以用。而weibull回歸則有條件限制,用的時候數據必須符合weibull分布。怎么,又是分布?!估計大家頭又大了,是不是想直接不往下看了,還是用cox回歸吧。不過我還是建議看下去。為什么呢?相信大家都知道參數檢驗和非參數檢驗,而且可能更喜歡用參數檢驗,如t檢驗,而不喜歡用非參數檢驗,如秩和檢驗。那這里的weibull回歸和cox回歸基本上可以說是分別對應參數檢驗和非參數檢驗。參數檢驗和非參數檢驗的優缺點我也在前面文章里通俗介紹了,如果數據符合weibull分布,那么直接套用weibull回歸當然是最理想的選擇,他可以給出你最合理的估計。如果數據不符合weibull分布,那如果還用weibull回歸,那就套用錯誤,肯定結果也不會真實到哪兒去。所以說,如果你能判斷出你的數據是否符合weibull分布,那當然最好的使用參數回歸,也就是weibull回歸。但是如果你實在沒什么信心去判斷數據分布,那也可以老老實實地用cox回歸。cox回歸可以看作是非參數的,無論數據什么分布都能用,但正因為它什么數據都能用,所以不可避免地有個缺點,每個數據用的都不是恰到好處。weibull回歸就像是量體裁衣,把體形看做數據,衣服看做模型,weibull回歸就是根據你的體形做衣服,做出來的肯定對你正合身,對別人就不一定合身了。cox回歸呢,就像是到商場去買衣服,衣服對很多人都合適,但是對每個人都不是正合適,只能說是大致合適。至于到底是選擇麻煩的方式量體裁衣,還是圖簡單到商場直接去買現成的,那就根據你的喜好了,也根據你對自己體形的了解程度,如果非常熟悉,當然就量體裁衣了。如果不大了解,那就直接去商場買大眾化衣服吧。
8、主成分回歸。主成分回歸是一種合成的方法,相當于主成分分析與線性回歸的合成。主要用于解決自變量之間存在高度相關的情況。這在現實中不算少見。比如你要分析的自變量中同時有血壓值和血糖值,這兩個指標可能有一定的相關性,如果同時放入模型,會影響模型的穩定,有時也會造成嚴重后果,比如結果跟實際嚴重不符。當然解決方法很多,最簡單的就是剔除掉其中一個,但如果你實在舍不得,畢竟這是辛辛苦苦調查上來的,刪了太可惜了。如果舍不得,那就可以考慮用主成分回歸,相當于把這兩個變量所包含的信息用一個變量來表示,這個變量我們稱它叫主成分,所以就叫主成分回歸。當然,用一個變量代替兩個變量,肯定不可能完全包含他們的信息,能包含80%或90%就不錯了。但有時候我們必須做出抉擇,你是要100%的信息,但是變量非常多的模型?還是要90%的信息,但是只有1個或2個變量的模型?打個比方,你要診斷感冒,是不是必須把所有跟感冒有關的癥狀以及檢查結果都做完?還是簡單根據幾個癥狀就大致判斷呢?我想根據幾個癥狀大致能能確定90%是感冒了。不用非得100%的信息不是嗎?模型也是一樣,模型是用于實際的,不是空中樓閣。既然要用于實際,那就要做到簡單。對于一種疾病,如果30個指標能夠100%確診,而3個指標可以診斷80%,我想大家會選擇3個指標的模型。這就是主成分回歸存在的基礎,用幾個簡單的變量把多個指標的信息綜合一下,這樣幾個簡單的主成分可能就包含了原來很多自變量的大部分信息。這就是主成分回歸的原理。
9、嶺回歸。嶺回歸的名稱由來我也沒有查過,可能是因為它的圖形有點像嶺。不要糾結于名稱。嶺回歸也是用于處理自變量之間高度相關的情形。只是跟主成分回歸的具體估計方法不同。線性回歸的計算用的是最小二乘估計法,當自變量之間高度相關時,最小二乘回歸估計的參數估計值會不穩定,這時如果在公式里加點東西,讓它變得穩定,那就解決了這一問題了。嶺回歸就是這個思想,把最小二乘估計里加個k,改變它的估計值,使估計結果變穩定。至于k應該多大呢?可以根據嶺跡圖來判斷,估計這就是嶺回歸名稱的由來。你可以選非常多的k值,可以做出一個嶺跡圖,看看這個圖在取哪個值的時候變穩定了,那就確定k值了,然后整個參數估計不穩定的問題就解決了。
10、偏最小二乘回歸。偏最小二乘回歸也可以用于解決自變量之間高度相關的問題。但比主成分回歸和嶺回歸更好的一個優點是,偏最小二乘回歸可以用于例數很少的情形,甚至例數比自變量個數還少的情形。聽起來有點不可思議,不是說例數最好是自變量個數的10倍以上嗎?怎么可能例數比自變量還少,這還怎么計算?可惜的是,偏最小二乘回歸真的就有這么令人發指的優點。所以,如果你的自變量之間高度相關、例數又特別少、而自變量又很多(這么多無奈的毛?。?,那就現在不用發愁了,用偏最小二乘回歸就可以了。它的原理其實跟主成分回歸有點像,也是提取自變量的部分信息,損失一定的精度,但保證模型更符合實際。因此這種方法不是直接用因變量和自變量分析,而是用反映因變量和自變量部分信息的新的綜合變量來分析,所以它不需要例數一定比自變量多。偏最小二乘回歸還有一個很大的優點,那就是可以用于多個因變量的情形,普通的線性回歸都是只有一個因變量,而偏最小二乘回歸可用于多個因變量和多個自變量之間的分析。因為它的原理就是同時提取多個因變量和多個自變量的信息重新組成新的變量重新分析,所以多個因變量對它來說無所謂。
看了以上的講解,希望能對大家理解回歸分析的運用有些幫助。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25