熱線電話:13121318867

登錄
首頁精彩閱讀機器學習中容易犯的錯誤——不注重樣本精細化處理
機器學習中容易犯的錯誤——不注重樣本精細化處理
2019-04-02
收藏


接觸過機器學習的朋友應該知道,樣本是機器學習模型的核心,這是因為樣本直接關系到模型效果的好壞,不過在大多數情況下,很多人對待樣本的態度根本不夠,這就導致的機器學習中的錯誤。很多人關注樣本不像在乎特征那樣在乎樣本的質量一樣,其實這樣就容易出現兩種情況,那么到底是什么呢?下面我們就給大家介紹一下。


首先我們給大家講解一下第一種情況,其實第一種情況就是對負樣本的界定不夠細致。那么什么是負樣本呢?其實負樣本的含義一般來說是曝光但是未點擊的樣本,但是曝光是一件需要仔細琢磨的事情。最直接的方式是用服務器后臺日志中的數據作為曝光,但是這樣做會帶來一個顯然的問題,就是日志中的item不一定全部真正曝光,也就是不一定真的被用戶看到了。更好的方式是通過頁面埋點來記錄真正曝光的東西,不過這種方法也會存在問題,那就是即使頁面上曝光了,用戶也不一定真正看到了,或者說用戶的眼睛不一定掃到了曝光的區域,畢竟頁面那么大,用戶的關注點我們根本不知道。有人提出了一種解決方法是把最后一個被點擊的商品以上的作為真正曝光的,因為用戶既然點擊了這一個,那么可以認為這個以上的用戶都是看到了的。


而第二種情況就是對樣本這個概念的理解不到位。統計機器學習的根本思路是根據歷史行為學習模式,從而預測未來。所以樣本代表歷史是很容易被接受的,但是在實際工作中,更好的樣本代表的應該是我們希望的結果,而不是那種真實的歷史。我們需要考慮一個問題,那就是我們訓練模型出來,真正希望服務的用戶是哪種用戶?所以說,我們需要注意的是除了特征工程,樣本工程也同樣重要,在某些情況下甚至會更重要。所以在進行訓練之前,以及模型調優的過程中,都要仔細思考樣本是否真正反映了我們的需求,有必要時要對樣本做針對性選擇。


在這篇文章中我們給大家介紹了在機器學習中容易出現的問題,那就是不注重樣本精細化處理,現在很多人不怎么關注樣本,其實這樣的做法是錯誤的,我們只有關注樣本才能夠更好的利用機器學習為我們解決更多的事情。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢