熱線電話:13121318867

登錄
首頁精彩閱讀SPSS中異常值檢驗的幾種方法介紹(2)_數據分析師
SPSS中異常值檢驗的幾種方法介紹(2)_數據分析師
2015-01-03
收藏

SPSS中異常值檢驗的幾種方法介紹(2)_數據分析師


ARIMA 模型:

描述時間序列數據的變化規律和行為,它允許模型中包含趨勢變動、季節變動、循環變 動和隨機波動等綜合因素影響。具有較高的預測精度,可以把握過去數據變動模式,有助于 解釋預測變動規律,回答為什么這樣本想早點完成這個時間序列的主題,但最近一直非常多的事情,又 耽擱了這么長時間。朋友們問的問題沒有收尾總是不好,抓緊時間完成吧。 因為,后天要參加中國電信集團的一個 EDA 論壇,要仔細準備發言稿!在交流的過程 中,發現大家都對預測問題非常關注,尤其是數據挖掘領域,有時候分類問題與預測問題在 表達上區分不開,有時候分類就是預測,比如通過判別分析、C5.0 規則或 Logistics 回歸 進行監督類建模,得到的結論說該客戶是什么類別等級,似乎也可以說是預測;當然,如果 能夠預測該消費者什么時候流失,也就是進行了分類;這樣說吧,其實有時候并不需要嚴格 區分分類和預測,關鍵是時間點。從這也可以看出,預測問題內涵和外延是非常寬泛的,但 研究者心中要有數,這決定了你得到的結果該如何應用。 前面的博文提到,如果我們考慮時間序列預測包含有預測和干擾變量如何解決的問題。 從方法角度講,過去沒有統計分析軟件要完成預測可以說是困難的,現在有了軟件工具 就方便多了。 從技術角度講:

預測模型如果能夠排除因為異常原因造成的時間點事件和時間段時間,就好了。例 如某天停電沒有開業,或者某一段時間比如發生甲型 H1NI 一周沒有營業收入,這 些事件必須能夠告訴模型未來不會再發生了;當然,我們也要把未來會重復發生的干擾因素納入模型,例如:我們學校某天要開 運動會,小賣部的可樂銷量一定提高,或者我們學校 7-8 月份放暑假,銷量一定減 少,像這樣的時間點和時間段事件未來會重復出現,我們如果能夠告訴模型,那么 預測會更準確。

當然如果我們建立的模型能夠預測未來,并能夠將未來可預見的事件,包括時間點 和時間段干擾納入預測是非常好的事情啦!

甚至,我們應該能夠把預測模型中的,預測未來周期內的不可預見的時間點和時間 段隨時干預預測結果,這就需要考慮如何將預測模型導入生產經營分析系統了。

下面的數據延續前兩篇的案例, 只是增加了自變量, (因為手頭這個案例沒有干預因素變量)

在我們增加了 5 個自變量后,采用預測建模方法,選擇專家建模器,但限制只在 ARIMA 模 型中選擇。

確定后,得到分析結果,我們現在來看一下與原來的模型有什么不同。

從預測值看,比前一模型有了改進,至少這時候的模型捕捉了歷史數據中的下降峰值, 這可以認為是當前比較適合的擬合值了。 如果我們觀察預測結果,可以發現模型選擇了兩個預測變量。注意:使用專家建模器時, 只有在自變量與因變量之間具有統計顯著性關系時才會包括自變量。如果選擇 ARIMA 模 型,“變量”選項卡上指定的所有自變量(預測變量)都包括在該模型中,這點與使用專家建 模器相反;

當確定了最終選擇的預測模型和方法后,我們就可以預測未來了,當然你要指定預測未 來的時間點,這里我們時間包括年、季度和月份;假定我們預測未來半年的銷售收入。 我們分別設定:預測值輸出,95%置信度的上下限。注意:SPSS 中文環境有個小 Bug,

必須改一下名字!

在選項中,選擇你的預測時間,預測期將根據你事先定義的數據時間格式填寫。(后面 的模型為了讓大家看清楚,實際上我預測了一年的數據,也就是 2010 年的 4 個季度的 12 個月)。

自變量的選擇問題,在預測未來半年的銷售收入中,ARIMA 模型可以把其它預測變量 納入考慮,但如何確定未來這些預測變量的值呢? 主要方法可以考慮:1)選擇最末期數據;2)選擇近三期數據的平均;3)選擇近三期 的移動平均 這里我們選近三期移動平均作為預測自變量數值。

上面就是預測結果!于此同時,SPSS 活動數據集中也存儲了預測值!

最后,我們要解決時間序列預測的檢驗和統計問題!說實在話,我比較關注偏好商業應用,就是看得見就做得到!從上面的分析,我們基本上就知道了哪種預測模型更好,也就不去較真只有專業統計學者才關心的統計和檢驗問題, 把這些交給統計專家或學術研究吧! 如 ( 果你是寫學術論文,就必須強調這一點了?。?實際上我們可以通過軟件得到各種統計檢驗指標和統計檢驗圖表!


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢