熱線電話:13121318867

登錄
首頁精彩閱讀數據分析-回歸分析
數據分析-回歸分析
2016-03-29
收藏

數據分析-回歸分析

回歸分析是數據分析中最常用的模型之一,其實用性和普遍性很高,如下分別從線性回歸、多元回歸、邏輯回歸三方面,通過實例分析講解

解決三個問題

實例1:羽美想預測明天的冰茶銷量

實例2:宮野想估算在一個新的地址開店的月銷售額 

實例3:羽美想推測一下明天的特供蛋糕賣出去的可能性

回歸分析的基礎流程分六步

1.jpg

線性回歸

羽美想預測明天的冰茶銷量。羽美知道冰茶在天熱的時候銷量好。記錄的店中冰茶的銷售數據在下表,先畫出散點圖觀察相關性,下圖是明顯的正相關

1.png

可以通過添加趨勢線,勾選顯示公式和R平方值,輕松就搞定回歸方程和精度估計

也可以自己用公式來計算,先求x的平均,y的平均,Sxx,Syy,Syy,通用Se的對a,b的微分=0可以推導出a,b的計算公式

2.png

用公式計算R平方看看數據和方程的擬合程度,越接近1擬合程度越高

3.png

將上面的數據作為抽樣數據,可以估算出總體的分布,用F分布檢測總體回歸系數,計算出的統計量的概率和0.05比較

4.png

對總體回歸做估值,在置信度為95%時計算置信區間,計算溫度在31度時的置信區間

5.png

在置信度為95%時候計算預測區間,計算溫度在31度時的預測區間,預測區間的取值范圍要比估值區間更寬一些

6.png

觀察個體的標準化殘差,當個體的標準化殘差的絕對值大于3時,應該剔除后再進行回歸分析

使用Durbin-Watson統計量評估序列自相關程度,如果值在2左右,說明不存在序列自相關

可用嘗試多種形式的方程做回歸,通過觀察散點圖判斷擬合程度比較好的函數,選擇回歸后的R平方大的函數

多元回歸

宮野想估算在一個新的地址開店的月銷售額。宮野知道營業面積越大,距離車站越近,店鋪的銷售額就越大。各家門店的銷售數據如下表,首先畫出散點圖觀察相關性,通過Correl函數計算相關系數,一個是0.89,一個是-0.77都相關顯著

7..jpg

用Linest函數計算回歸系數,注意Linest計算出的系數是反序的,帶入系數就有了回歸方程,接下來計算Syy、Se,因為多元回歸中R的計算會受到自變量個數的影響,就用修正自由度的R2公式

8.png

對總體回歸檢驗回歸系數和偏回歸系數的檢測統計量

9.png

其中用到的S11的求解過程,A的轉置用“粘貼”的時候勾選“轉置”,矩陣相乘法用MMult函數,矩陣求逆用MInverse函數,S11就是對角線上第一行第一列的元素

10.png

計算估值區間和預測區間,多元回歸采用馬氏距離避免歐式距離的量崗的問題

11.png

多元回歸的自變量可以很多,可以對自變量進行組合,用修正自由度的R平方評估后選擇最好的組合。

多元回歸將分類變量拆分為n-1個變量來處理,比如:性別有男、女和其他,拆分為性別男,性別女二個變量,用1,表示是,0表示否。

邏輯回歸

羽美想推測一下明天的特供蛋糕賣出去的可能性。羽美的經驗告訴她周三六日客戶比較多,好像和溫度也有點關系。特供蛋糕的銷售數據如下表,首先畫出氣泡圖觀察相關性,用氣泡是因為點有密集的堆疊,通過Countif輔助列算出氣泡的大小,就可以畫出氣泡吐了,然后用Correl函數計數相關系數。

12..jpg

用規劃求解完成邏輯回歸系數的計算,因為探測計算中可能會超出銷售預測的值過小,從而導致對數釋然計算的溢出失敗,需要調整銷售預測函數=1/(1+EXP(-IF(G2>-700,G2,-700)))做最小值的溢出保護,同時要約束系數變量不為零--AND(NOT($B$24=0),NOT($C$24=0),NOT($D$24=0)),注明:--是轉換成整數

13.png

下面計算R平方的,這里n1,n0分別是樣本中賣出去的個數和沒有賣出去的個數,邏輯回歸中R平方是越小越顯著,可以計算誤判率,賣出和預測賣出的相關系數觀察模型精確程度。

14.png

總體系數的檢測,用x2的2自由度檢測

15.png

檢測偏回歸系數,用x2的1自由度檢測

16.png

預測今天是否可以賣出去,帶入方程=0.44<0.5估計是賣部出去了

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢