熱線電話:13121318867

登錄
首頁精彩閱讀數據分析與統計推斷:線性回歸
數據分析與統計推斷:線性回歸
2016-03-31
收藏

數據分析與統計推斷:線性回歸

相關性(correlation)

相關性描述了兩個變量之間線性關聯的強度,表示符號為R。
屬性:

  1. 相關系數的幅度(絕對值)測量兩個數字變量之間線性關聯的強度
  2. 相關系數的正負指示關聯的方向
  3. 相關系數總是介于-1(完美負線性關聯)和1(完美正線性關聯)之間,R=0指示沒有線性關系
  4. 相關系數沒有單位,不受變量中心點和比例變化的影響
  5. X與Y的相關性等同于Y與X的相關性
  6. 相關系數對異常點敏感

殘差(residuals)

測量線性匹配度

方案1:最小化殘差的幅度和
方案2:最小化殘差平方和。更常使用,易于計算,殘差增幅更大。

使用線性模型對解釋變量給定值預測響應變量值稱之為預測(prediction)。
使用模型估計原有數據域外的值稱之為外推法(extrapolation)。優勢預測可能是外推法。

線性回歸條件

(1)線性

解釋變量和響應變量值間的關系必須是線性的;
存在匹配非線性關系模型的方法;
使用數據散點圖scatterplot或殘差圖residuals plot檢查

(2)近似正態殘差

殘差必須近似正態分布,中心點為0;
如果有異常觀察值不遵循正常數據的趨勢,有可能不滿足該條件
使用殘差的直方圖或正態概率圖檢查

(3)恒定可變性

點圍繞最小平方和線(the least squares line)的可變性應該大概恒定,暗指殘差圍繞0的可變性應該大概恒定,這也稱為同方差性(homoscedasticity)。
使用殘差圖residuals plot檢查

R squared

評估線性模型擬合度更常使用,通過相關系數平方計算而得;
可以獲知線性模型解釋響應變量可變性的百分比,剩余可變性無法由模型解釋;
介于0和1之間。

使用分類解釋變量的回歸

異常點類型

線性回歸推斷

由于我們經常檢查解釋變量和響應變量之間是否存在關系,對斜率虛假設值經常為0;很少對截距進行推斷。
線性回歸的每個估計參數都會損失一個自由度。
我們必須了解所工作的數據:隨機樣本、非隨機樣本或總體。如果已有總體數據,假設推斷及其p-value結果就毫無意義。如果樣本是非隨機(有偏)的,結果將不可信。

變異分解(variability partitioning)


t檢驗是評估x和y線性關系斜率假設檢驗的證據力度的一種方式。將y可變性分解為可解釋和無法解釋的可變性,需要使用方差分析ANOVA。

再學習 R sqared

R sqared是模型可以解釋y可變性的比例。很大,即x和y之間存在線性關系;小,則x和y之間存在線性關系的證據不令人信服。
兩種結算方式:相關性,相關系數平方;定義,總可變性中可解釋可變性的比例。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢