熱線電話:13121318867

登錄
首頁精彩閱讀機器學習常見的錯誤——核心數據缺乏控制
機器學習常見的錯誤——核心數據缺乏控制
2019-04-04
收藏


我們在前面的文章中給大家介紹了很多關于機器學習中常見的錯誤,當然,這些錯誤都是需要我們去避免的。在這篇文章中我們繼續為大家介紹機器學習中常見的錯誤,希望大家能夠引以為,從而更好地學習機器學習知識。


一般來說,從數據流的角度來看的話,機器學習系統中的數據要經過樣本收集、特征生成、模型訓練、數據評測等等這樣一個流程,在這樣一個比較長的流程中,不一定每個環節都是自己可控的,那么在那些不可控的環節,就有可能出現風險,而更可怕的是,由于數據控制在別人手里,如果數據控制出現了問題,那么我們很難清楚實際情況。如果我們以樣本收集為例,在大型公司里,這樣的工作很可能是由統一負責日志收集的平臺部門來做的,而算法團隊只要拿來用就可以了。這種做法有好處,也有壞處。好處很明顯,就是減輕了算法團隊的負擔,但是也會帶來隱患,就是我們拿到的數據不一定真的是我們要的數據。


大家都知道,正確的數據往往只有一種,但是錯誤的數據卻有很多種錯誤方法。在樣本收集方面,前臺發送過來的曝光數據也存在著多種可能性,例如可能是緩存起來的數據,也有可能是用來做SEO的數據等等。這些數據在發送方來看,都是合理的數據,但對于算法模型來看,都不是用戶真正看到的數據,而用戶真正看到的數據才是我們真正想要的數據。那么作為這份數據的使用方,算法模型很有可能就會受到這種錯誤數據的影響。而且,最可怕的是,這種錯誤并不是那種能讓程序崩潰的錯誤能夠讓我們能在第一時間發現,而是完全隱藏在正常數據中,只有我們犯了錯誤以后返回來找問題時或許才能發現。


那么大家是否知道這種錯誤數據出現的原因是什么呢?其實這種錯誤并不是一定日志收集團隊不負責任,關鍵在于收集日志的團隊不使用日志,或者說出數據的人不用數據,那么就很難要求他們來保證數據的質量。這種分離的狀態對于模型算法這種高度依賴數據的應用是有風險的,所以最好能夠加強這部分數據的控制能力,如果自己不能完全獨立來做,那么就要有對應的監控機制,這就需要我們做到有問題能及時發現、及時處理,而不是“拿來主義”。


在這篇文章中我們給大家介紹了機器學習中常見的錯誤,具體就是對核心數據缺乏控制,相信大家閱讀了這篇文章以后已經知道了這種錯誤導致的后果,希望這篇文章能夠更好地幫助大家理解機器學習。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢