熱線電話:13121318867

登錄
首頁精彩閱讀R語言做簡單的一元線性回歸
R語言做簡單的一元線性回歸
2017-02-15
收藏

R語言做簡單的一元線性回歸

簡單舉一個例子

某商業銀行2002年主要業務數據

如何將這些數據添加到R中?
> y<- c(0.9,1.1,4.8,3.2,7.8,2.7,1.6,12.5,1.0,2.6,0.3,4.0,0.8,3.5,10.2,3.0,0.2,0.4,1.0,6.8,11.6,1.6,1.2,7.2,3.2)
> x<-c(67.3,111.3,173.0,80.8,199.7,16.2,107.4,185.4,96.1,72.8,64.2,132.2,58.6,174.6,263.5,79.3,14.8,73.5,24.7,139.4,368.2,95.7,109.6,196.2,102.2)
> dfrm<- data.frame(y,x)
> summary(lm(y~ x))
y表示不良貸款,x表示各項貸款余額,單位:億元

展示輸出結果

Call:
lm(formula = y ~ x)

Residuals:
    Min      1Q  Median      3Q     Max
-2.2882 -1.5233 -0.1802  0.8935  6.3038

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.82952    0.72304  -1.147    0.263    
x            0.03789    0.00503   7.534 1.18e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.98 on 23 degrees of freedom
Multiple R-squared:  0.7116,    Adjusted R-squared:  0.6991
F-statistic: 56.75 on 1 and 23 DF,  p-value: 1.183e-07

我們來看一下,這些結果都是表示什么以及是怎么算出來的

Residuals:
    Min      1Q  Median      3Q     Max
-2.2882 -1.5233 -0.1802  0.8935  6.3038

表示的是殘差統計量

那么什么是殘差,也許有些人不太懂
用一個公式表示,也許你就懂了

ei=yi?y?i
也就是說這25個殘差中,最小的是-2.2882,最大的是6.3038,中位數及四分位數就是上面的幾個了,那么有沒有辦法顯示全部的殘差咧

summary(lm(y~ x))$resid

輸出的結果

        1          2          3          4          5          6
-0.8207932 -2.2881603 -0.9262637  0.9676283  1.0619476  2.9156264
         7          8          9         10         11         12
-1.6403709  6.3038419 -1.8121607  0.6707859 -1.3033196 -0.1801596
        13         14         15         16         17         18
-0.5911092 -2.2868952  1.0442653  0.8244704  0.4686790 -1.5557403
        19         20         21         22         23         24
 0.8935214  2.3469985 -1.5233105 -1.1970028 -2.1237393  0.5945791
        25
 0.1566816
我們繼續分析

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.82952    0.72304  -1.147    0.263    
x            0.03789    0.00503   7.534 1.18e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

這里面的是一堆系數,都是什么咧?
標記為Estimate的列包含由最小二乘法計算得出的估計回歸系數

y?=0.03789x?0.82952
標記為Std.Error的列表示估計的回歸系數(截距和斜率)的標準誤差
標記為t value 的列是t統計量,他們的計算方法就是回歸系數除以回歸系數的標準誤差
標記為Pr( >| t | )的列是t統計量計算出來的值(應該是吧)

Residual standard error: 1.98 on 23 degrees of freedom
Multiple R-squared:  0.7116,    Adjusted R-squared:  0.6991
F-statistic: 56.75 on 1 and 23 DF,  p-value: 1.183e-07

第一句是表示殘差的標準誤差,23是自由度
第二句是表示判定系數,實際意義就是在不良貸款取值的變差中,有71.16%可以由不良貸款與貸款余額之間的線性關系來解釋。后一個值是調整后的判斷系數,計算公式為

R2a=1?(1?R2)(n?1n?k?1)

這里由于是一元線性回歸,殘差平方和的自由度為n-2(即k=1)
第三句表示的是F(1,23)分布的統計量是56.75。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢