熱線電話:13121318867

登錄
首頁精彩閱讀前沿數據方法,如何解決數據漂移?
前沿數據方法,如何解決數據漂移?
2022-02-24
收藏
前沿數據方法,如何解決數據漂移?

CDA數據分析師 出品

作者:徐楊老師

編輯:Mika

同學們大家好,我是徐楊老師,今天給大家分享一個現在前沿的業務分析方法。

現在有一個非常前沿的詞叫做數據漂移,可能有一部分同學聽說過,英文是Data Drift。

數據漂移是什么?

那么,什么叫做數據漂移呢?

我們舉個例子,現在有一個APP非?;?,叫做國家反詐中心APP。

我們知道,如今網絡詐騙是一個很讓大家頭疼的問題,那么假如說你作為公司的分析師,也受命需要去開發一套用來給你的企業識別異常用戶的一套分析模型。

經常我們會碰到的一個問題是,你花了很大的力氣把分析模型都構造好了,上線以后很快發現,這個模型明明知道之前在測試集上跑的效果還不錯,但是實際上線部署以后模型的效果會快速下降,這是為什么呢?

其實很簡單。不止我們作為分析師的分析能力在進化,那些犯罪分子的犯罪方法也是太進化的。也就是說如果我們用的是以前的分析方法來識別新的犯罪分子的犯罪手段,肯定效果是要大打折扣的。

從技術語言來說,如果我們是用以前的數據訓練出的模型來分析現在的一些新數據,那么這就是訓練模型的時候,我們面對的數據分布和我們實際模型上線部署時,面對的數據分布是產生了變化的。

這種問題就叫做數據漂移。

現在一般在業界解決數據漂移比較經典的方法是引入自動機器學習。

同學們知道我們一般做數據分析的時候是先收集數據,然后構造模型,最后輸出分析結果。

那么我們就可以在最后輸出分析結果的地方,增加一般叫做monitor,或者說叫做模型監控的這樣一段代碼。

它的作用是實時分析,現在模型預測的效果是好是壞,然后調整的不是模型,調整的是誰呢?

如果監測出問題,調整的是我們收集數據這個環節的工作。然后通過收集更新的數據,實時去調整模型里面的參數,然后再繼續去監控我現在自動更新出的模型效果如何。

總結一下就是,傳統的方法是我們在訓練模型的時候,拿到的數據集是固定的,我們動的是我們選擇哪些模型,模型里的參數怎么調優,怎么給出最后好的方法組合。這是我們傳統的方法,固定數據,動模型,動參數。

現在更新的方法是,我們首先要保證我們的模型訓練的沒有問題,然后固定模型,動數據。

那么,應該怎么動數據?怎么去拿到新的數據?

是看我們監控到的模型分析結果來,反過來決定我們要在哪些地方埋下更多的點,拿到更新的數據,以及拿到哪些有用的特征,去實時的更新模型里面的超參數。

這是現在用來解決數據漂移一個比較前沿的分析方法,希望對大家有幫助。

好,以上就是今天的分享。如果大家還有數據分析方面相關的疑問,就在評論區留言。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢