熱線電話:13121318867

登錄
首頁精彩閱讀機器學習常見的兩個大坑
機器學習常見的兩個大坑
2019-04-01
收藏


大家都知道,不管是什么學科都有很多陷阱,由于我們對這一知識的了解不夠,就很容易掉進這個坑里,所以說我們一定要加強知識儲備。而在機器學習中有很多前輩們總結下來的陷阱,在這篇文章中我們給大家介紹一下機器學習中常見的兩個大坑,希望能夠幫助的大家盡早脫坑。


首先我們給大家介紹一下第一個坑,那就是系統邊界模糊和巨型系統。其實機器學習系統與其他軟件系統相比,有一個顯著的特點,那就是它是建立在實驗性、探索性開發的基礎上的。尤其是在初次搭建系統的時候,很難做到在完整設計的指導下開發,而大多是一邊探索嘗試一邊開發,到最后達到上線要求的時候,系統也就隨之成型了。不過這樣構建出的系統,有個很大的問題,就是很容易做成一個邊界模糊、模塊耦合、結構復雜的“巨型系統”,這種系統的典型特征包括三點,第一就是模塊間不可拆分,樣本、特征、訓練等步驟都偶合在一起。第二就是很多實驗性、探索性代碼遍布其中,搞不清楚哪些在用,哪些已失效。第三就是pipeline特別長,其中包括一些可能已經無用的流程。


那么為什么會出現這樣的系統呢?重要原因之一就是前面提到過的,機器學習系統的探索式的本質。在剛開始做系統的時候,可能樣本處理、特征處理這些都比較簡單,所以就都寫在了一起。隨著各個流程處理的精細化、復雜化,每個步驟都在變復雜,但是由于這種變化是在慢慢發生的,導致系統慢慢變得不可控。


機器學習中第二個坑就是不重視基礎數據架構建設,一般來說,數據是機器學習系統的核心,這里面包括各種樣本數據,原始特征數據,處理后的特征數據,支撐數據等等,那么提供這些數據的系統和架構也是同樣重要的,機器學習系統在構建初期,對待各種數據的態度往往是輔助性質的,認為這些數據只是為了模型服務的原料,而沒有把它們本身作為嚴肅的子系統來對待,所以這些數據的架構往往缺乏設計,大多比較隨意,可能會有很多難以復用代碼。不過這容易導致出一個嚴肅而復雜的問題,這個問題不是一兩個簡單方法就可以解決的,而是需要從數據源開始做仔細的設計,設計時充分考慮數據可能的用法,并留有一定擴展性,保證數據的可用性和可探索性。


在這篇文章中我們給大家介紹了關于機器學習中容易存在的問題,其實這些問題都是值得我們關注的。所以說,我們在學習機器學習的時候一定要注意好這些問題,這樣我們才能夠更好解決其中的問題。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢