熱線電話:13121318867

登錄
首頁精彩閱讀淺析預測分析注定失敗的思考方式
淺析預測分析注定失敗的思考方式
2018-02-12
收藏

淺析預測分析注定失敗的思考方式

雖說預測分析是一項很得人心的技術,每個人都希望能通過使用預測分析方法和預測分析工具,從而可提前看到未知的結果,來避免失敗,但如果沒有做好準備,信手拈來的使用預測分析方法,那必將失敗。無論對于預測分析是你新手菜鳥,還是已經進行了大量的預測分析項目,都非常容易犯錯。
   數據挖掘公司Elder Research的CEO John Elder說:“大量的分析項目中都充斥著各種各樣的錯誤?!边@些錯誤大都不是致命的,通過模型即改善,但是也一些項目是相當地失敗,致使業務在軟件在投資的大量的金錢和時間,但卻沒有任何收益。本文列出了預測分析注定失敗的思考方式。

   1.開始后沒有假定結果
    對于預測分析大家都很興奮,你看到了它的潛在價值。但卻有一個問題:你的心中沒有一個特定的目標。
    Elder Research參與的一個大公司中就有這樣的情況。該公司開始使用他們的數據進行預測一些事情,或所有的事情,即一個方管可以出去向他的業務單元銷售。雖然研究機構同意與他合作,并為他量身定制了一個使用模型,但由于這個業務單元中沒有一個人問題他將要銷售什么,最后該項目就沒有了方向。
    教訓:不要先做錘子,再找釘子。在開始之前,一定要有一個特定的目標。
   2.在數據不支持的基礎上定義項目
    一個債務催收公司希望找出最有效的方法來促使欠債人員還債。挑戰是:該公司已經有一套嚴格的規則了,而且在每一個案例中都遵循這套原則。
   數據挖掘是一項對比的藝術。因為該公司有了一套成熟的原則并一直遵循著,所以他們并不知道哪一種結果更有利于回收債務。所以該公司需要一些歷史性的例子。
    如果你沒有這些案例,那么就需要創建一系列的實驗來收集數據了。例如,假設有欠債人有1,000人,500人收到的了恐嚇信,而另外500人得到的是電話催債,這是第一步。然后,預測模型就可以進行預測,預測哪類欠債人會更好的對恐嚇信進行反應,哪類會更好的對電話進行反應。
    在些案例中,欠債人類型可能包括歷史模式引發的債務、按天支付過去的債務、收入、郵政編碼的住宅等等?;陬A測模型,這一催債機構可能會更好的使用更有經濟效益的策略,而不是對所有人使用同一策略。但你要從實驗開始。無中生有,對于預測分析來說是不可能的。
   3.在得到最好數據之前就不前行
    人們常常誤解下操作:他們必須使數據完美地組織,沒有任何漏洞、障礙或缺失的價值,在這之后才會進行預測分析。
    Elder Research的一個客戶,一個跨國石化公司剛剛開始進行預測分析項目,期望有更大的投資回報率,但這時他們的數據科學家發現現有的運營數據比他們原本想象的還要糟糕。
    在此案例中缺失了一個最關鍵的目標價值。在使業務等待收集新數據時,該項目可能會延遲至少一年的時間。大部分公司在這里停滯不前。與其它錯誤相比這一錯誤是項目的最在殺手。
   4.評估數據質量時,不清除垃圾數據
    一個財富1000的金融服務公司想預測哪個客服中心的員工將會工作的時間最長。乍一看,該公司的歷史數據似乎表明沒有高中文憑、在公司停留至少9個月的員工數據是其它教育背景的員工有2.6倍。咨詢公司建議客戶從優先招聘高中輟學生開始。
    但這就出現了兩個問題。首先從求職者的簡歷中手動鍵入的數據已經做了不一致的標記。一條數據檢查所有教育層次的人們,另一個只檢查完成了高水平教育的人。
    另一個更加復雜的問題是:因為某些原因,在呆的時間最長的人的簡單中所有的標記中,后者比前者多。通過確保所做的標記是隨機鍵入的一組簡歷,而且每一個人都使用同一種標記法,就可以以免這些問題。
    在這一案例中我們得到一個最的信息就是:“只有垃圾在,才會有垃圾清理。在確保數據質量之間一定要確保數據的完整性?!?br />    5.從未來的數據中預測未來
    伴隨著數據倉庫的一個問題是它們并不靜止的:信息一直在變,一直在更新。但預測分析是一種歸納的學習過程,它依賴于對歷史數據,或“訓練數據”的分析來創建模型。所以你要重新數據在客戶生命周期初始階段的狀態。如果數據沒有標注日期和時間戳,這很容易就會引進產生錯誤結果導向的未來數據。
    有一件發生在汽車俱樂部的事:該俱樂部著手建立一個模型,用于預測他們的哪類會員更有可能購買他們的保險產品。為了建模,該俱樂部需要重建他們之前數據集合,把會員購買和決定購買保險產品的時間優先級提前,而且還要包含進子數據。該組織建立了一個決策樹,它包括一個含有電話、傳真和郵件數據的文本變量。當這一變量中包含了任何文本,那么就可以百分之百確定這些會員不久后就購買這一保險。
    該項目的一個負責人說我們確信這個指示器將會在會員購買保險之前進行提示,但汽車俱樂部的員工卻不能告訴我們它意味著什么。提前知道簡直令人難以置信,他繼續提問直到找到組織中知道事實的人:該變量代表著會員是如何取消他們保險的——通過電話、傳真或者郵件。他說你不買就沒有取消一說 。所以當你進行建模時,你必須鎖定一些你的數據。
   總結:失敗只是一個選擇
    看了這些事例,你可能會把預測分析想象的非常困難,但不要害怕。雖然你在預測分析的路上出現了很多錯誤,但同時你也在學習,在調整,這是值得的。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢