
淺析預測分析注定失敗的思考方式
雖說預測分析是一項很得人心的技術,每個人都希望能通過使用預測分析方法和預測分析工具,從而可提前看到未知的結果,來避免失敗,但如果沒有做好準備,信手拈來的使用預測分析方法,那必將失敗。無論對于預測分析是你新手菜鳥,還是已經進行了大量的預測分析項目,都非常容易犯錯。
數據挖掘公司Elder Research的CEO John Elder說:“大量的分析項目中都充斥著各種各樣的錯誤?!边@些錯誤大都不是致命的,通過模型即改善,但是也一些項目是相當地失敗,致使業務在軟件在投資的大量的金錢和時間,但卻沒有任何收益。本文列出了預測分析注定失敗的思考方式。
1.開始后沒有假定結果
對于預測分析大家都很興奮,你看到了它的潛在價值。但卻有一個問題:你的心中沒有一個特定的目標。
Elder
Research參與的一個大公司中就有這樣的情況。該公司開始使用他們的數據進行預測一些事情,或所有的事情,即一個方管可以出去向他的業務單元銷售。雖然研究機構同意與他合作,并為他量身定制了一個使用模型,但由于這個業務單元中沒有一個人問題他將要銷售什么,最后該項目就沒有了方向。
教訓:不要先做錘子,再找釘子。在開始之前,一定要有一個特定的目標。
2.在數據不支持的基礎上定義項目
一個債務催收公司希望找出最有效的方法來促使欠債人員還債。挑戰是:該公司已經有一套嚴格的規則了,而且在每一個案例中都遵循這套原則。
數據挖掘是一項對比的藝術。因為該公司有了一套成熟的原則并一直遵循著,所以他們并不知道哪一種結果更有利于回收債務。所以該公司需要一些歷史性的例子。
如果你沒有這些案例,那么就需要創建一系列的實驗來收集數據了。例如,假設有欠債人有1,000人,500人收到的了恐嚇信,而另外500人得到的是電話催債,這是第一步。然后,預測模型就可以進行預測,預測哪類欠債人會更好的對恐嚇信進行反應,哪類會更好的對電話進行反應。
在些案例中,欠債人類型可能包括歷史模式引發的債務、按天支付過去的債務、收入、郵政編碼的住宅等等?;陬A測模型,這一催債機構可能會更好的使用更有經濟效益的策略,而不是對所有人使用同一策略。但你要從實驗開始。無中生有,對于預測分析來說是不可能的。
3.在得到最好數據之前就不前行
人們常常誤解下操作:他們必須使數據完美地組織,沒有任何漏洞、障礙或缺失的價值,在這之后才會進行預測分析。
Elder Research的一個客戶,一個跨國石化公司剛剛開始進行預測分析項目,期望有更大的投資回報率,但這時他們的數據科學家發現現有的運營數據比他們原本想象的還要糟糕。
在此案例中缺失了一個最關鍵的目標價值。在使業務等待收集新數據時,該項目可能會延遲至少一年的時間。大部分公司在這里停滯不前。與其它錯誤相比這一錯誤是項目的最在殺手。
4.評估數據質量時,不清除垃圾數據
一個財富1000的金融服務公司想預測哪個客服中心的員工將會工作的時間最長。乍一看,該公司的歷史數據似乎表明沒有高中文憑、在公司停留至少9個月的員工數據是其它教育背景的員工有2.6倍。咨詢公司建議客戶從優先招聘高中輟學生開始。
但這就出現了兩個問題。首先從求職者的簡歷中手動鍵入的數據已經做了不一致的標記。一條數據檢查所有教育層次的人們,另一個只檢查完成了高水平教育的人。
另一個更加復雜的問題是:因為某些原因,在呆的時間最長的人的簡單中所有的標記中,后者比前者多。通過確保所做的標記是隨機鍵入的一組簡歷,而且每一個人都使用同一種標記法,就可以以免這些問題。
在這一案例中我們得到一個最的信息就是:“只有垃圾在,才會有垃圾清理。在確保數據質量之間一定要確保數據的完整性?!?br />
5.從未來的數據中預測未來
伴隨著數據倉庫的一個問題是它們并不靜止的:信息一直在變,一直在更新。但預測分析是一種歸納的學習過程,它依賴于對歷史數據,或“訓練數據”的分析來創建模型。所以你要重新數據在客戶生命周期初始階段的狀態。如果數據沒有標注日期和時間戳,這很容易就會引進產生錯誤結果導向的未來數據。
有一件發生在汽車俱樂部的事:該俱樂部著手建立一個模型,用于預測他們的哪類會員更有可能購買他們的保險產品。為了建模,該俱樂部需要重建他們之前數據集合,把會員購買和決定購買保險產品的時間優先級提前,而且還要包含進子數據。該組織建立了一個決策樹,它包括一個含有電話、傳真和郵件數據的文本變量。當這一變量中包含了任何文本,那么就可以百分之百確定這些會員不久后就購買這一保險。
該項目的一個負責人說我們確信這個指示器將會在會員購買保險之前進行提示,但汽車俱樂部的員工卻不能告訴我們它意味著什么。提前知道簡直令人難以置信,他繼續提問直到找到組織中知道事實的人:該變量代表著會員是如何取消他們保險的——通過電話、傳真或者郵件。他說你不買就沒有取消一說
。所以當你進行建模時,你必須鎖定一些你的數據。
總結:失敗只是一個選擇
看了這些事例,你可能會把預測分析想象的非常困難,但不要害怕。雖然你在預測分析的路上出現了很多錯誤,但同時你也在學習,在調整,這是值得的。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25