
8.1 回歸的多面性
回歸是一個令人困惑的詞,因為它有許多特殊變種(見表8-1)。對于回歸模型的擬合, R提供的強大而豐富的功能和選項也同樣令人困惑。例如, 2005年Vito Ricci創建的列表表明, R中做回歸分析的函數已超過了205個。在這一章中,我們的重點是普通最小二乘(OLS)回歸法,包括簡單線性回歸、多項式回歸和多元線性回歸。 OLS回歸是現今最常見的統計分析方法,其他回歸模型(Logistic回歸和泊松回歸)將在第13章介紹。
8.1.1 OLS 回歸的適用情境
OLS回歸是通過預測變量的加權和來預測量化的因變量,其中權重是通過數據估計而得的參數?,F在讓我們一起看一個改編自Fwa(2006)的具體示例(此處沒有任何含沙射影之意)。
![]()
一個工程師想找出跟橋梁退化有關的最重要的因素,比如使用年限、交通流量、橋梁設計、建造材料和建造方法、建造質量以及天氣情況,并確定它們之間的數學關系。他從一個有代表性的橋梁樣本中收集了這些變量的相關數據,然后使用OLS回歸對數據進行建模。這種方法的交互性很強。他擬合了一系列模型,檢驗它們是否符合相應的統計假設,探索了所有異常的發現,最終從許多可能的模型中選擇了“最佳”的模型。如果成功,那么結果將會幫助他完成以下任務。
![]()
在眾多變量中判斷哪些對預測橋梁退化是有用的,得到它們的相對重要性,從而關注重要的變量。
根據回歸所得的等式預測新的橋梁的退化情況(預測變量的值已知,但是橋梁退化程度未知),找出那些可能會有麻煩的橋梁。
利用對異常橋梁的分析,獲得一些意外的信息。比如他發現某些橋梁的退化速度比預測的更快或更慢,那么研究這些“離群點”可能會有重大的發現,能夠幫助理解橋梁退化的機制。
可能橋梁的例子并不能引起你的興趣。而我是從事臨床心理學和統計的,對土木工程也是一無所知,但是這其中蘊含的一般性思想適用于物理、生物和社會科學的許多問題。以下問題都可以通過OLS方法進行處理。
鋪路表面的面積與表面鹽度有什么關系(Montogomery, 2007)?
一個用戶哪些方面的經歷會導致他沉溺于大型多人在線角色扮演游戲(MMORPG; Hsu,Wen& Wu, 2009)?
教育環境中的哪些因素與最能影響學生成績得分?
血壓、鹽攝入量和年齡的關系是什么樣的?對于男性和女性是相同的嗎?
運動場館和職業運動對大都市的發展有何影響(Baade & Dye, 1990)?
哪些因素可以解釋各州的啤酒價格差異(Culbertson & Bradford, 1991)?(這個問題終于引起了你的注意?。?br /> 我們主要的困難有三個:發現有趣的問題, 設計一個有用的、可以測量的響應變量,以及收集合適的數據。8.1.2 基礎回顧
下面的幾節,我將介紹如何用R函數擬合OLS回歸模型、評價擬合優度、檢驗假設條件以及選擇模型。此處假定讀者已經在本科統計課程第二學期接觸了最小二乘回歸法,不過,我還是會盡量少用數學符號,關注實際運用而不是理論細節。有大量優秀書籍都介紹了本章提到的統計知識。我最喜歡的是John Fox的Applied Regression Analysis and Generalized Linear Models (偏重理論)和An R and S-Plus Companion to Applied Regression(偏重應用),它們為本章提供了主要的素材。另外,一份不錯的非技術性綜述可參考Licht(1995)。
8.2 OLS 回歸
在本章大部分內容中,我們都是利用OLS法通過一系列的預測變量來預測響應變量(也可以說是在預測變量上“回歸”響應變量——其名也因此而來)。 OLS回歸擬合模型的形式:其中, n 為觀測的數目, k 為預測變量的數目。(雖然我極力避免討論公式,但這里探討公式是簡化問題的需要。)等式中相應部分的解釋如下。
![]()
我們的目標是通過減少響應變量的真實值與預測值的差值來獲得模型參數(截距項和斜率)。具體而言,即使得殘差平方和最小。
為了能夠恰當地解釋OLS模型的系數,數據必須滿足以下統計假設。
正態性 對于固定的自變量值,因變量值成正態分布。
獨立性 Yi值之間相互獨立。
線性 因變量與自變量之間為線性相關。
同方差性 因變量的方差不隨自變量的水平不同而變化。也可稱作不變方差,但是說同方差性感覺上更犀利。
如果違背了以上假設,你的統計顯著性檢驗結果和所得的置信區間很可能就不精確。注意,OLS回歸還假定自變量是固定的且測量無誤差,但在實踐中通常都放松了這個假設。8.2.1 用 lm()擬合回歸模型
在R中,擬合線性模型最基本的函數就是lm(),格式為:
![]()
其中, formula指要擬合的模型形式, data是一個數據框,包含了用于擬合模型的數據。結果對象(本例中是myfit)存儲在一個列表中,包含了所擬合模型的大量信息。表達式(formula)形式如下:
![]()
~左邊為響應變量,右邊為各個預測變量,預測變量之間用+符號分隔。表8-2中的符號可以不同方式修改這一表達式。
除了lm(),表8-3還列出了其他一些對做簡單或多元回歸分析有用的函數。擬合模型后,將這些函數應用于lm()返回的對象,可以得到更多額外的模型信息。
![]()
當回歸模型包含一個因變量和一個自變量時,我們稱為簡單線性回歸。當只有一個預測變量,但同時包含變量的冪(比如, X、 X 2、 X 3)時,我們稱之為多項式回歸。當有不止一個預測變量時,則稱為多元線性回歸?,F在,我們首先從一個簡單的線性回歸例子開始,然后逐步展示多項式回歸和多元線性回歸,最后還會介紹一個包含交互項的多元線性回歸的例子。
8.2.2 簡單線性回歸
讓我們通過一個回歸示例來熟悉表8-3中的函數?;A安裝中的數據集women提供了15個年齡在30~39歲間女性的身高和體重信息,我們想通過身高來預測體重,獲得一個等式可以幫助我們分辨出那些過重或過瘦的個體。代碼清單8-1提供了分析過程,圖8-1展示了結果圖形。通過輸出結果,可以得到預測等式:
![]()
因為身高不可能為0,你沒必要給截距項一個物理解釋,它僅僅是一個常量調整項。在Pr(>|t|)欄,可以看到回歸系數(3.45)顯著不為0(p<0.001),表明身高每增高1英寸,體重將預期增加3.45磅①。 R平方項(0.991)表明模型可以解釋體重99.1%的方差,它也是實際和預測值之間的相關系數(R2 = r2?Y)。殘差標準誤(1.53 lbs)則可認為是模型用身高預測體重的平均誤差。 F統計量檢驗所有的預測變量預測響應變量是否都在某個幾率水平之上。由于簡單回歸只有一個預測變量,此處F檢驗等同于身高回歸系數的t檢驗。
![]()
為了展示的需要,我們已經輸出了真實值、預測值和殘差值。顯然,最大的殘差值在身高矮和身高高的地方出現,這也可以從圖8-1看出來。圖形表明你可以用含一個彎曲的曲線來提高預測的精度。比如,模型? = β0 + β1X + β1X2就能更好地擬合數據。多項式回歸允許你用一個解釋變量預測一個響應變量,它們關系的形式即n次多項式。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25