如何避免機器學習中的三大陷阱？-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀如何避免機器學習中的三大陷阱？

如何避免機器學習中的三大陷阱？

2019-09-16

收藏

如何避免<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>中的三大陷阱？

▲利用機器學習來優化生產高能等離子體的設備

隨著來自無數領域的科學家急于進行算法分析，谷歌的Patrick Riley呼吁在研究和報告方面制定明確的標準。

作者 | Patrick Riley

出品 | CDA數據分析師

Three pitfalls to avoid in machine learning

機器學習正在推動整個科學的發現。其強大的模式發現和預測工具正在幫助各個領域的研究人員 - 從發現分子的新方法和在分析中發現細微信號，到改善醫學診斷和揭示基本粒子。

然而，機器學習工具也會變成傻瓜的黃金 - 誤報，盲目的小巷和錯誤。許多算法都非常復雜，以至于無法檢查所有參數或無法確切地了解輸入的操作方式。隨著這些算法開始得到更廣泛的應用，誤解，錯誤結論和浪費的科學努力的風險將呈螺旋式上升。

這些問題并不新鮮。機器學習領域幾十年來一直受到“坦克問題”的影響。最初的研究似乎是在20世紀60年代出現的（參考文獻1是本研究中最早的合理參考文獻;感謝軟件工程師Jeff Kaufman）并被時間的迷霧所掩蓋，但故事就是這樣。研究人員在軍方提供的照片中編寫了一種算法來發現坦克。該模型在測試圖像中成功找到了坦克。但它后來因為未來的真實照片而失敗了。為什么？復述中的細節各不相同，但它所訓練的圖片包含其他圖案 - 在晨光中或在云層下出現的坦克。因此，推動算法的是其他因素，而不是坦克的存在。

類似的混亂今天引起了反省。許多機器學習論文未能完成足夠的實驗。審查標準不一致。競爭鼓勵一些研究人員一旦認為他們有他們想要的答案就偷工減料并跳過檢查。

我們無法預測每次分析會產生的所有困難。但是，至少，研究人員將機器學習帶到他們的領域應該熟悉他們可以用來檢測和避免它們的常見陷阱和實踐。

為了說明這一點，我強調了我們在Google Accelerated Science團隊中面臨和克服的機器學習分析中的三個問題。

三個問題

1、不恰當地拆分數據

在構建模型時，機器學習從業者通常會將數據分解為訓練和測試集。訓練集訓練模型，并通過它對測試集的描述程度來評估模型的性能。研究人員通常會隨機分割數據。但現實生活中的數據很少是隨機的。它們可能包含時間趨勢 - 例如收集數據的方式的變化，或者收集的信息的不同選擇。

例如，這些歷史模式被埋藏在分子的數據集中，其通過機器學習算法虛擬地篩選以找到藥物的候選者。挑戰在于預測假設分子如何有效地被吸收到體內或減少炎癥。篩選開始于分子的數據，這些分子具有或不具有期望的效果。但是收集數據的背景可能與機器學習模型的使用方式不同。

如何避免<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>中的三大陷阱？

▲使用機器學習來尋找能量材料

例如，模型可以建立在公開可用的一組分子上，然后用于不同的專有集合?；瘜W家的凝視經常從某些分子群轉向其他分子，當有希望的導聯被檢查和丟棄時。因此，研究人員經常高估模型在實踐中的表現。這可能導致預期膨脹，并且在選擇不當的分子上浪費時間和金錢。許多模型制作者（包括我自己）都陷入了這個陷阱。

換句話說，您要回答的問題應該會影響您分割數據的方式。為了模型預測添加幾個原子對分子的影響，測試集中的每個分子應該在訓練集中具有一個不同原子的伙伴。如果你想對化學上不同的分子做出很好的預測，那么測試集中的每個分子都應該與訓練集中的所有分子不同。分割數據的“正確”方式可能并不明顯，但仔細考慮并嘗試多種方法可以提供更多洞察力。

2、隱藏的變量

在理想的實驗中，研究人員只更改感興趣的變量并修復所有其他變量。在現實世界中，這種控制水平通常是不可能的。隨著時間的推移，設備的精度漂移，批次的試劑不同，一個實驗條件在另一個之前進行，結果甚至可能被天氣扭曲。這種不受控制的變量在機器學習模型中可能是有害的。

例如，我在Google的團隊一直在加利福尼亞州Foothill Ranch的核聚變初創公司TAE Technologies工作，以優化生產高能等離子體4的實驗。我們建立了模型，試圖了解等離子機的最佳設備設置。存在數百個控制參數，從何時激勵電極到要設置在磁體上的電壓。記錄一系列測量值，包括溫度和光譜。

我們從數千次運行的等離子機中獲取了數月的數據。設備調整和修改以及組件磨損并嘗試不同的想法時，設置會有所不同。當我們到達一個模型時，我們很高興，根據給定的設置預測，等離子體的能量是否會很高。很快，很明顯我們的預測不是基于我們的想法。

如何避免<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>中的三大陷阱？

▲在印度馬杜賴的Aravind醫院進行眼科檢查，工作人員和谷歌研究人員正試圖自動診斷由糖尿病引起的失明。

當我們再次訓練模型時，將實驗時間作為唯一輸入，而不是機器的所有設置，我們獲得了類似的預測能力。為什么？我們認為我們的第一個模型鎖定時間趨勢，而不是物理現象。隨著實驗的進行，有一段時間機械運行良好，有些時間沒有。因此，實驗的時間可以為您提供有關產生的等離子體是否為高能量的信息。此外，可以從控制參數的設置大致預測實驗的時間 - 這些變化的時間趨勢也是如此。

隱藏變量也可以源于實驗布局。例如，我們正在與許多合作者合作解釋顯微鏡圖像，包括紐約市的紐約干細胞基金會研究所。圖像包括在板上的生物實驗陣列 - 通常是包含細胞和液體的孔的網格。目標是找到具有某些特征的孔，例如化學處理后細胞外觀的變化。但生物變異意味著每個板塊看起來總是略有不同。并且單個板塊可能存在差異。邊緣通?？雌饋砼c中心不同，例如，如果更多液體在外圍井中蒸發或者板是否傾斜。

機器學習算法可以輕松掌握這些無意識的變化。例如，該模型可能只是確定哪些井位于板的邊緣。檢查是否發生這種情況的一種簡單方法是讓模型預測其他事物，例如盤子上的位置，盤子是什么以及圖像來自哪個批次。如果它可以做到這一點，請懷疑你的結果。

得到的教訓是：使用多個機器學習模型來檢測意外和隱藏的變量。一個模型側重于您關心的問題 - 等離子是高能還是低能; 細胞是健康還是生??？其他模型清除了混雜因素。如果后者的結果很強，請對數據進行標準化，進行進一步的實驗或調整結論。

3、誤解目標

機器學習算法要求研究人員指定一個“損失函數”，它決定了各種錯誤的嚴重程度 - 例如，最好是兩個錯誤是1％，還是單個錯誤2％。從業者傾向于使用一小部分功能，這些功能無法捕捉他們真正關心的內容。

例如，我們一直在使用機器學習來幫助求解偏微分方程。這些公式在科學中很常見，包括流體動力學，電磁學，材料科學，天體物理學和經濟建模。通常，它們必須以數字方式解決，我們訓練模型以在有限的分辨率下提供更好的準確性。

如何避免<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>中的三大陷阱？

▲神經技術和AI的四個道德優先事項

我們從一個方程開始描述水波如何在一個維度上傳播。該算法的任務是重復預測當前步驟的下一個時間步長。我們有兩種略有不同的配方和訓練模型。根據我們的損失函數，這兩個模型同樣好。然而，一個產生廢話，而另一個產生了接近期望的結果。

為什么？控制學習的損失函數只考慮下一步的錯誤，而不是多步驟的解決方案的有效性，這正是我們真正想要的。

發散目標也冒出了我們的機器篩選工作，為糖尿病視網膜病變，糖尿病的并發癥及預防失明的世界的首要原因。如果從眼睛后部的圖像中提早檢測到，則可以有效地治療該病癥。當我們收集數據并讓眼科醫生根據圖像提供診斷時，我們要求我們的機器學習工具預測眼科醫生會說些什么。出現了兩個問題。

首先，眼科醫生經常不同意診斷。因此，我們意識到我們不能將模型建立在單一預測上。我們也不能使用多數票，因為在醫療準確性方面，有時少數意見是正確的。其次，單一疾病的診斷實際上并不是真正的目標。我們本來應該問：'該病人應該去看醫生嗎？' 因此，我們將目標從單一疾病的診斷擴展到多種疾病。

機器學習從業者很容易掌握數據和標簽清晰的“明顯”目標。但他們可能正在設置算法來解決錯誤的問題。必須牢記總體目標，否則我們將生成能夠回答錯誤問題的精確系統。

接下來是什么？

首先，機器學習專家需要讓自己和同事保持更高的標準。當新的實驗室設備到來時，我們希望我們的實驗室伙伴了解其功能，如何校準，如何檢測錯誤以及了解其功能的限制。因此，機器學習也是如此。沒有魔法，使用它們的人必須理解這些工具。

其次，不同的學科需要制定明確的標準，以便如何執行和報告他們所在地區的機器學習。適當的控制，健全性檢查和錯誤測量將因場而異，這些需要清楚地說明，以便研究人員，審稿人和編輯能夠鼓勵良好的行為。

第三，機器學習科學家的教育需要包括這些更廣泛的問題。雖然存在一些資源（例如http://ai.google/education），但我們還需要做更多工作。我們經常教授算法和工具，但學生需要更多地了解如何應用他們的算法并對其進行適當的質疑。

我們處于一個驚人的地步 - 計算能力，數據和算法匯集在一起，在機器學習的幫助下為發現創造了巨大的機會。作為一個科學界，我們有責任確保我們充分利用這個機會。

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

機器學習損失函數特征數據分析

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇海量數據時代，如何把握人工智能先機？

下一篇你怎能錯過這幾個鮮為人知但很實用的 Python 技巧？

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊