
數據分析/機器學習模型無法部署的八大原因
不要成為一個模型無法部署的數據科學家
舉一個典型的模型部署失敗的實例:Netflix大獎競賽。簡單來說,這是一個面向大眾開放的競賽,參與者需要寫一個協同過濾算法來預測電影的用戶評級。勝出者獲得了1000萬美元的大獎。然而最后,這個完整的模型卻沒有得到部署。
不僅僅是Netflix,大多數公司都發生過這種戲劇性的事件。就在最近,我與許多一流數據分析公司的公司高管進行了交流,而他們最大的擔憂就是公司50%的預測模型都得不到實現。
為什么要建立一個在現實世界中無法使用的模型呢?這就好像你做一個蛋糕,嘗試過后發現很美味,但卻永遠不讓任何人吃一個道理。
在本文中,我列出了在建立模型時你應當謹記的所有可能原因。在我的職業生涯中,我曾多次遇到過這種情況。因此,我認為在我經驗的幫助下,可以幫助你克服這種情況。
模型部署失敗的8個原因
1、高假正性(FP):這看上去似乎有點專業,而目前最重要的是了解什么是假正。假設在一個分類模型中,我們想要預測客戶是應答者(給出答案的人)還是非應答者(不給出答案的人)
想象一下,如果你預測一個人X會是一個應答者,但實際上他并不會給出任何答案。這種情況下,X就被稱為假正。那么在現實世界中這會造成什么影響,我知道你想要問這個問題。
舉個例子,例如你需要為1000個客戶建立一個保留活動,在這1000個客戶中會有100個客戶流失(離開)。你創建一個了不起的模型,在這個模型中前十個人中有四個人會離開(相等的十大部分)
這就意味著,從你預測的前100個客戶中,40個客戶會流失。所以,你推薦企業專為這100個客戶提供一個吸引人的購物方案,這樣可以阻止他們流失。但是,這仍有很大問題。
問題就是你花費在那些客戶身上的每一美元中,只有0.4美元被用來阻止客戶流失。剩下的0.6美元都浪費在那些并不是真心想要離開的假正(FP)客戶身上。
2、不了解基本業務模型:最近,對于使用機器學習算法和更加復雜的模型建立技術的需求正在日益增長。換句話說,各企業正在逐漸減少使用傳統的模型技術。
毫無疑問,使用機器學習技術可以加大預測能力。但是企業仍不是太接受這種黑盒技術。以我經驗而言,這將導致實施一個預測策略時會需要更長的前置時間。由于大多數的應用程序業務上是高度動態的,該模型也會由于較長的前置時間變得越來越冗余
3、對業務問題不夠了解:創建過預測模型對分析師或者業務同行而言都會在其履歷上添加濃墨重彩的一筆。然而,這并不是你建立模型的目的。在某些情況下,分析師進入創建模型階段,并會試圖削減本應分配給了解業務問題的時間。
4、模型實施過于復雜:預測能力是這些模型實施的靈魂,但是一般情況下,預測能力是以模型的復雜度為代價的。為使模型更加健壯我們開始引入雙變量和三變量,不論這些變量對業務來說有沒有意義。這樣的模型在書本上可能是十分精彩的,然而就因如此,他們也只能停留在書本上,并不能在現實世界中實現。
5、不能解決根本原因,僅僅試圖提高一個過程的影響。我們為什么做模型?最重要的原因是為找到一個特定響應的驅動程序。這些驅動程序又是什么?驅動程序往往是響應率的根本原因。如果你引進所有影響當做輸入變量,然后這些變量也會作為重要輸出時將會發生什么?這將沒有任何用處,因為你沒有改變任何可能帶來變化的事情。
6、訓練人口與得分人口完全不同:在很多情況下,我們最終是在一個與實際人口完全不同的人口中建立模型。舉例來說,如果你正在創建一個針對人口的活動,并且以前沒有類似的活動。在這種情況下,我們先從基本假設開始,假設該人口具有高響應率,且有可能有高增量響應率。但是這種假設很少是真實的,因此該模型將很難使用。
7、不穩定模型:高性能模型通常是高度不穩定的,并且不在同一時間內執行。在這種情況下,業務可能需要高頻的模型修正。隨著模型創建的前置時間越來越長,業務可能會開始回到基于直覺的策略。
8、依賴于高動態變量的模型:動態變量給模型帶來真正的預測能力。然而,你也可能會有這樣的變量,它的賦值永遠不會顯示在訓練窗口。
例如,你可能得到一些工作日的銷售量作為重要變量來預測一個分支的月銷售量。我們就說這種變量具有高預測性。但是對于我們的評分窗口而言,有一些月份僅僅有10-15天的工作日。如果你的訓練數據沒有這樣的月份,你的模型可能無法進行準確預測。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25