熱線電話:13121318867

登錄
首頁精彩閱讀R語言-回歸之簡單線性回歸
R語言-回歸之簡單線性回歸
2017-05-31
收藏

R語言-回歸之簡單線性回歸

8.1 回歸的多面性
回歸是一個令人困惑的詞,因為它有許多特殊變種(見表8-1)。對于回歸模型的擬合, R提供的強大而豐富的功能和選項也同樣令人困惑。例如, 2005年Vito Ricci創建的列表表明, R中做回歸分析的函數已超過了205個。

在這一章中,我們的重點是普通最小二乘(OLS)回歸法,包括簡單線性回歸、多項式回歸和多元線性回歸。 OLS回歸是現今最常見的統計分析方法,其他回歸模型(Logistic回歸和泊松回歸)將在第13章介紹。

8.1.1 OLS 回歸的適用情境
OLS回歸是通過預測變量的加權和來預測量化的因變量,其中權重是通過數據估計而得的參數?,F在讓我們一起看一個改編自Fwa(2006)的具體示例(此處沒有任何含沙射影之意)。

一個工程師想找出跟橋梁退化有關的最重要的因素,比如使用年限、交通流量、橋梁設計、建造材料和建造方法、建造質量以及天氣情況,并確定它們之間的數學關系。他從一個有代表性的橋梁樣本中收集了這些變量的相關數據,然后使用OLS回歸對數據進行建模。這種方法的交互性很強。他擬合了一系列模型,檢驗它們是否符合相應的統計假設,探索了所有異常的發現,最終從許多可能的模型中選擇了“最佳”的模型。如果成功,那么結果將會幫助他完成以下任務。

 在眾多變量中判斷哪些對預測橋梁退化是有用的,得到它們的相對重要性,從而關注重要的變量。
  根據回歸所得的等式預測新的橋梁的退化情況(預測變量的值已知,但是橋梁退化程度未知),找出那些可能會有麻煩的橋梁。
  利用對異常橋梁的分析,獲得一些意外的信息。比如他發現某些橋梁的退化速度比預測的更快或更慢,那么研究這些“離群點”可能會有重大的發現,能夠幫助理解橋梁退化的機制。
可能橋梁的例子并不能引起你的興趣。而我是從事臨床心理學和統計的,對土木工程也是一無所知,但是這其中蘊含的一般性思想適用于物理、生物和社會科學的許多問題。以下問題都可以通過OLS方法進行處理。
  鋪路表面的面積與表面鹽度有什么關系(Montogomery, 2007)?
  一個用戶哪些方面的經歷會導致他沉溺于大型多人在線角色扮演游戲(MMORPG; Hsu,Wen& Wu, 2009)?
  教育環境中的哪些因素與最能影響學生成績得分?
  血壓、鹽攝入量和年齡的關系是什么樣的?對于男性和女性是相同的嗎?
  運動場館和職業運動對大都市的發展有何影響(Baade & Dye, 1990)?
  哪些因素可以解釋各州的啤酒價格差異(Culbertson & Bradford, 1991)?(這個問題終于引起了你的注意?。?br /> 我們主要的困難有三個:發現有趣的問題, 設計一個有用的、可以測量的響應變量,以及收集合適的數據。

8.1.2 基礎回顧
下面的幾節,我將介紹如何用R函數擬合OLS回歸模型、評價擬合優度、檢驗假設條件以及選擇模型。此處假定讀者已經在本科統計課程第二學期接觸了最小二乘回歸法,不過,我還是會盡量少用數學符號,關注實際運用而不是理論細節。有大量優秀書籍都介紹了本章提到的統計知識。我最喜歡的是John Fox的Applied Regression Analysis and Generalized Linear Models (偏重理論)和An R and S-Plus Companion to Applied Regression(偏重應用),它們為本章提供了主要的素材。另外,一份不錯的非技術性綜述可參考Licht(1995)。
8.2 OLS 回歸
在本章大部分內容中,我們都是利用OLS法通過一系列的預測變量來預測響應變量(也可以說是在預測變量上“回歸”響應變量——其名也因此而來)。 OLS回歸擬合模型的形式:

其中, n 為觀測的數目, k 為預測變量的數目。(雖然我極力避免討論公式,但這里探討公式是簡化問題的需要。)等式中相應部分的解釋如下。

我們的目標是通過減少響應變量的真實值與預測值的差值來獲得模型參數(截距項和斜率)。具體而言,即使得殘差平方和最小。

為了能夠恰當地解釋OLS模型的系數,數據必須滿足以下統計假設。
  正態性 對于固定的自變量值,因變量值成正態分布。
  獨立性 Yi值之間相互獨立。
  線性 因變量與自變量之間為線性相關。
  同方差性 因變量的方差不隨自變量的水平不同而變化。也可稱作不變方差,但是說同方差性感覺上更犀利。
如果違背了以上假設,你的統計顯著性檢驗結果和所得的置信區間很可能就不精確。注意,OLS回歸還假定自變量是固定的且測量無誤差,但在實踐中通常都放松了這個假設。

8.2.1 用 lm()擬合回歸模型
在R中,擬合線性模型最基本的函數就是lm(),格式為:

其中, formula指要擬合的模型形式, data是一個數據框,包含了用于擬合模型的數據。結果對象(本例中是myfit)存儲在一個列表中,包含了所擬合模型的大量信息。表達式(formula)形式如下:

~左邊為響應變量,右邊為各個預測變量,預測變量之間用+符號分隔。表8-2中的符號可以不同方式修改這一表達式。
除了lm(),表8-3還列出了其他一些對做簡單或多元回歸分析有用的函數。擬合模型后,將這些函數應用于lm()返回的對象,可以得到更多額外的模型信息。

當回歸模型包含一個因變量和一個自變量時,我們稱為簡單線性回歸。當只有一個預測變量,但同時包含變量的冪(比如, X、 X 2、 X 3)時,我們稱之為多項式回歸。當有不止一個預測變量時,則稱為多元線性回歸?,F在,我們首先從一個簡單的線性回歸例子開始,然后逐步展示多項式回歸和多元線性回歸,最后還會介紹一個包含交互項的多元線性回歸的例子。

8.2.2 簡單線性回歸
讓我們通過一個回歸示例來熟悉表8-3中的函數?;A安裝中的數據集women提供了15個年齡在30~39歲間女性的身高和體重信息,我們想通過身高來預測體重,獲得一個等式可以幫助我們分辨出那些過重或過瘦的個體。代碼清單8-1提供了分析過程,圖8-1展示了結果圖形。通過輸出結果,可以得到預測等式:

因為身高不可能為0,你沒必要給截距項一個物理解釋,它僅僅是一個常量調整項。在Pr(>|t|)欄,可以看到回歸系數(3.45)顯著不為0(p<0.001),表明身高每增高1英寸,體重將預期增加3.45磅①。 R平方項(0.991)表明模型可以解釋體重99.1%的方差,它也是實際和預測值之間的相關系數(R2 = r2?Y)。殘差標準誤(1.53 lbs)則可認為是模型用身高預測體重的平均誤差。 F統計量檢驗所有的預測變量預測響應變量是否都在某個幾率水平之上。由于簡單回歸只有一個預測變量,此處F檢驗等同于身高回歸系數的t檢驗。

為了展示的需要,我們已經輸出了真實值、預測值和殘差值。顯然,最大的殘差值在身高矮和身高高的地方出現,這也可以從圖8-1看出來。圖形表明你可以用含一個彎曲的曲線來提高預測的精度。比如,模型? = β0 + β1X + β1X2就能更好地擬合數據。多項式回歸允許你用一個解釋變量預測一個響應變量,它們關系的形式即n次多項式。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢