熱線電話:13121318867

登錄
首頁精彩閱讀數據分析/機器學習模型無法部署的八大原因
數據分析/機器學習模型無法部署的八大原因
2016-06-23
收藏

數據分析/機器學習模型無法部署的八大原因

不要成為一個模型無法部署的數據科學家

舉一個典型的模型部署失敗的實例:Netflix大獎競賽。簡單來說,這是一個面向大眾開放的競賽,參與者需要寫一個協同過濾算法來預測電影的用戶評級。勝出者獲得了1000萬美元的大獎。然而最后,這個完整的模型卻沒有得到部署。

不僅僅是Netflix,大多數公司都發生過這種戲劇性的事件。就在最近,我與許多一流數據分析公司的公司高管進行了交流,而他們最大的擔憂就是公司50%的預測模型都得不到實現。

為什么要建立一個在現實世界中無法使用的模型呢?這就好像你做一個蛋糕,嘗試過后發現很美味,但卻永遠不讓任何人吃一個道理。

在本文中,我列出了在建立模型時你應當謹記的所有可能原因。在我的職業生涯中,我曾多次遇到過這種情況。因此,我認為在我經驗的幫助下,可以幫助你克服這種情況。

模型部署失敗的8個原因

1、高假正性(FP):這看上去似乎有點專業,而目前最重要的是了解什么是假正。假設在一個分類模型中,我們想要預測客戶是應答者(給出答案的人)還是非應答者(不給出答案的人)

想象一下,如果你預測一個人X會是一個應答者,但實際上他并不會給出任何答案。這種情況下,X就被稱為假正。那么在現實世界中這會造成什么影響,我知道你想要問這個問題。

舉個例子,例如你需要為1000個客戶建立一個保留活動,在這1000個客戶中會有100個客戶流失(離開)。你創建一個了不起的模型,在這個模型中前十個人中有四個人會離開(相等的十大部分)

這就意味著,從你預測的前100個客戶中,40個客戶會流失。所以,你推薦企業專為這100個客戶提供一個吸引人的購物方案,這樣可以阻止他們流失。但是,這仍有很大問題。

問題就是你花費在那些客戶身上的每一美元中,只有0.4美元被用來阻止客戶流失。剩下的0.6美元都浪費在那些并不是真心想要離開的假正(FP)客戶身上。

2、不了解基本業務模型:最近,對于使用機器學習算法和更加復雜的模型建立技術的需求正在日益增長。換句話說,各企業正在逐漸減少使用傳統的模型技術。

毫無疑問,使用機器學習技術可以加大預測能力。但是企業仍不是太接受這種黑盒技術。以我經驗而言,這將導致實施一個預測策略時會需要更長的前置時間。由于大多數的應用程序業務上是高度動態的,該模型也會由于較長的前置時間變得越來越冗余

3、對業務問題不夠了解:創建過預測模型對分析師或者業務同行而言都會在其履歷上添加濃墨重彩的一筆。然而,這并不是你建立模型的目的。在某些情況下,分析師進入創建模型階段,并會試圖削減本應分配給了解業務問題的時間。

4、模型實施過于復雜:預測能力是這些模型實施的靈魂,但是一般情況下,預測能力是以模型的復雜度為代價的。為使模型更加健壯我們開始引入雙變量和三變量,不論這些變量對業務來說有沒有意義。這樣的模型在書本上可能是十分精彩的,然而就因如此,他們也只能停留在書本上,并不能在現實世界中實現。

5、不能解決根本原因,僅僅試圖提高一個過程的影響。我們為什么做模型?最重要的原因是為找到一個特定響應的驅動程序。這些驅動程序又是什么?驅動程序往往是響應率的根本原因。如果你引進所有影響當做輸入變量,然后這些變量也會作為重要輸出時將會發生什么?這將沒有任何用處,因為你沒有改變任何可能帶來變化的事情。

6、訓練人口與得分人口完全不同:在很多情況下,我們最終是在一個與實際人口完全不同的人口中建立模型。舉例來說,如果你正在創建一個針對人口的活動,并且以前沒有類似的活動。在這種情況下,我們先從基本假設開始,假設該人口具有高響應率,且有可能有高增量響應率。但是這種假設很少是真實的,因此該模型將很難使用。

7、不穩定模型:高性能模型通常是高度不穩定的,并且不在同一時間內執行。在這種情況下,業務可能需要高頻的模型修正。隨著模型創建的前置時間越來越長,業務可能會開始回到基于直覺的策略。

8、依賴于高動態變量的模型:動態變量給模型帶來真正的預測能力。然而,你也可能會有這樣的變量,它的賦值永遠不會顯示在訓練窗口。

例如,你可能得到一些工作日的銷售量作為重要變量來預測一個分支的月銷售量。我們就說這種變量具有高預測性。但是對于我們的評分窗口而言,有一些月份僅僅有10-15天的工作日。如果你的訓練數據沒有這樣的月份,你的模型可能無法進行準確預測。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢