
▲利用機器學習來優化生產高能等離子體的設備
隨著來自無數領域的科學家急于進行算法分析,谷歌的Patrick Riley呼吁在研究和報告方面制定明確的標準。
作者 | Patrick Riley
出品 | CDA數據分析師
Three pitfalls to avoid in machine learning
機器學習正在推動整個科學的發現。其強大的模式發現和預測工具正在幫助各個領域的研究人員 - 從發現分子的新方法和在分析中發現細微信號,到改善醫學診斷和揭示基本粒子。
然而,機器學習工具也會變成傻瓜的黃金 - 誤報,盲目的小巷和錯誤。許多算法都非常復雜,以至于無法檢查所有參數或無法確切地了解輸入的操作方式。隨著這些算法開始得到更廣泛的應用,誤解,錯誤結論和浪費的科學努力的風險將呈螺旋式上升。
這些問題并不新鮮。機器學習領域幾十年來一直受到“坦克問題”的影響。最初的研究似乎是在20世紀60年代出現的(參考文獻1是本研究中最早的合理參考文獻;感謝軟件工程師Jeff Kaufman)并被時間的迷霧所掩蓋,但故事就是這樣。研究人員在軍方提供的照片中編寫了一種算法來發現坦克。該模型在測試圖像中成功找到了坦克。但它后來因為未來的真實照片而失敗了。為什么?復述中的細節各不相同,但它所訓練的圖片包含其他圖案 - 在晨光中或在云層下出現的坦克。因此,推動算法的是其他因素,而不是坦克的存在。
類似的混亂今天引起了反省。許多機器學習論文未能完成足夠的實驗。審查標準不一致。競爭鼓勵一些研究人員一旦認為他們有他們想要的答案就偷工減料并跳過檢查。
我們無法預測每次分析會產生的所有困難。但是,至少,研究人員將機器學習帶到他們的領域應該熟悉他們可以用來檢測和避免它們的常見陷阱和實踐。
為了說明這一點,我強調了我們在Google Accelerated Science團隊中面臨和克服的機器學習分析中的三個問題。
三個問題
1、不恰當地拆分數據
在構建模型時,機器學習從業者通常會將數據分解為訓練和測試集。訓練集訓練模型,并通過它對測試集的描述程度來評估模型的性能。研究人員通常會隨機分割數據。但現實生活中的數據很少是隨機的。它們可能包含時間趨勢 - 例如收集數據的方式的變化,或者收集的信息的不同選擇。
例如,這些歷史模式被埋藏在分子的數據集中,其通過機器學習算法虛擬地篩選以找到藥物的候選者。挑戰在于預測假設分子如何有效地被吸收到體內或減少炎癥。篩選開始于分子的數據,這些分子具有或不具有期望的效果。但是收集數據的背景可能與機器學習模型的使用方式不同。
▲使用機器學習來尋找能量材料
例如,模型可以建立在公開可用的一組分子上,然后用于不同的專有集合?;瘜W家的凝視經常從某些分子群轉向其他分子,當有希望的導聯被檢查和丟棄時。因此,研究人員經常高估模型在實踐中的表現。這可能導致預期膨脹,并且在選擇不當的分子上浪費時間和金錢。許多模型制作者(包括我自己)都陷入了這個陷阱。
換句話說,您要回答的問題應該會影響您分割數據的方式。為了模型預測添加幾個原子對分子的影響,測試集中的每個分子應該在訓練集中具有一個不同原子的伙伴。如果你想對化學上不同的分子做出很好的預測,那么測試集中的每個分子都應該與訓練集中的所有分子不同。分割數據的“正確”方式可能并不明顯,但仔細考慮并嘗試多種方法可以提供更多洞察力。
2、隱藏的變量
在理想的實驗中,研究人員只更改感興趣的變量并修復所有其他變量。在現實世界中,這種控制水平通常是不可能的。隨著時間的推移,設備的精度漂移,批次的試劑不同,一個實驗條件在另一個之前進行,結果甚至可能被天氣扭曲。這種不受控制的變量在機器學習模型中可能是有害的。
例如,我在Google的團隊一直在加利福尼亞州Foothill Ranch的核聚變初創公司TAE Technologies工作,以優化生產高能等離子體4的實驗。我們建立了模型,試圖了解等離子機的最佳設備設置。存在數百個控制參數,從何時激勵電極到要設置在磁體上的電壓。記錄一系列測量值,包括溫度和光譜。
我們從數千次運行的等離子機中獲取了數月的數據。設備調整和修改以及組件磨損并嘗試不同的想法時,設置會有所不同。當我們到達一個模型時,我們很高興,根據給定的設置預測,等離子體的能量是否會很高。很快,很明顯我們的預測不是基于我們的想法。
▲在印度馬杜賴的Aravind醫院進行眼科檢查,工作人員和谷歌研究人員正試圖自動診斷由糖尿病引起的失明。
當我們再次訓練模型時,將實驗時間作為唯一輸入,而不是機器的所有設置,我們獲得了類似的預測能力。為什么?我們認為我們的第一個模型鎖定時間趨勢,而不是物理現象。隨著實驗的進行,有一段時間機械運行良好,有些時間沒有。因此,實驗的時間可以為您提供有關產生的等離子體是否為高能量的信息。此外,可以從控制參數的設置大致預測實驗的時間 - 這些變化的時間趨勢也是如此。
隱藏變量也可以源于實驗布局。例如,我們正在與許多合作者合作解釋顯微鏡圖像,包括紐約市的紐約干細胞基金會研究所。圖像包括在板上的生物實驗陣列 - 通常是包含細胞和液體的孔的網格。目標是找到具有某些特征的孔,例如化學處理后細胞外觀的變化。但生物變異意味著每個板塊看起來總是略有不同。并且單個板塊可能存在差異。邊緣通??雌饋砼c中心不同,例如,如果更多液體在外圍井中蒸發或者板是否傾斜。
機器學習算法可以輕松掌握這些無意識的變化。例如,該模型可能只是確定哪些井位于板的邊緣。檢查是否發生這種情況的一種簡單方法是讓模型預測其他事物,例如盤子上的位置,盤子是什么以及圖像來自哪個批次。如果它可以做到這一點,請懷疑你的結果。
得到的教訓是:使用多個機器學習模型來檢測意外和隱藏的變量。一個模型側重于您關心的問題 - 等離子是高能還是低能; 細胞是健康還是生???其他模型清除了混雜因素。如果后者的結果很強,請對數據進行標準化,進行進一步的實驗或調整結論。
3、誤解目標
機器學習算法要求研究人員指定一個“損失函數”,它決定了各種錯誤的嚴重程度 - 例如,最好是兩個錯誤是1%,還是單個錯誤2%。從業者傾向于使用一小部分功能,這些功能無法捕捉他們真正關心的內容。
例如,我們一直在使用機器學習來幫助求解偏微分方程。這些公式在科學中很常見,包括流體動力學,電磁學,材料科學,天體物理學和經濟建模。通常,它們必須以數字方式解決,我們訓練模型以在有限的分辨率下提供更好的準確性。
▲神經技術和AI的四個道德優先事項
我們從一個方程開始描述水波如何在一個維度上傳播。該算法的任務是重復預測當前步驟的下一個時間步長。我們有兩種略有不同的配方和訓練模型。根據我們的損失函數,這兩個模型同樣好。然而,一個產生廢話,而另一個產生了接近期望的結果。
為什么?控制學習的損失函數只考慮下一步的錯誤,而不是多步驟的解決方案的有效性,這正是我們真正想要的。
發散目標也冒出了我們的機器篩選工作,為糖尿病視網膜病變,糖尿病的并發癥及預防失明的世界的首要原因。如果從眼睛后部的圖像中提早檢測到,則可以有效地治療該病癥。當我們收集數據并讓眼科醫生根據圖像提供診斷時,我們要求我們的機器學習工具預測眼科醫生會說些什么。出現了兩個問題。
首先,眼科醫生經常不同意診斷。因此,我們意識到我們不能將模型建立在單一預測上。我們也不能使用多數票,因為在醫療準確性方面,有時少數意見是正確的。其次,單一疾病的診斷實際上并不是真正的目標。我們本來應該問:'該病人應該去看醫生嗎?' 因此,我們將目標從單一疾病的診斷擴展到多種疾病。
機器學習從業者很容易掌握數據和標簽清晰的“明顯”目標。但他們可能正在設置算法來解決錯誤的問題。必須牢記總體目標,否則我們將生成能夠回答錯誤問題的精確系統。
接下來是什么?
首先,機器學習專家需要讓自己和同事保持更高的標準。當新的實驗室設備到來時,我們希望我們的實驗室伙伴了解其功能,如何校準,如何檢測錯誤以及了解其功能的限制。因此,機器學習也是如此。沒有魔法,使用它們的人必須理解這些工具。
其次,不同的學科需要制定明確的標準,以便如何執行和報告他們所在地區的機器學習。適當的控制,健全性檢查和錯誤測量將因場而異,這些需要清楚地說明,以便研究人員,審稿人和編輯能夠鼓勵良好的行為。
第三,機器學習科學家的教育需要包括這些更廣泛的問題。雖然存在一些資源(例如http://ai.google/education),但我們還需要做更多工作。我們經常教授算法和工具,但學生需要更多地了解如何應用他們的算法并對其進行適當的質疑。
我們處于一個驚人的地步 - 計算能力,數據和算法匯集在一起,在機器學習的幫助下為發現創造了巨大的機會。作為一個科學界,我們有責任確保我們充分利用這個機會。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25