
作者 | Daniel Godoy
翻譯 | Mika
本文為 CDA 數據分析師原創作品,轉載需授權
想象一下你點了一份披薩外賣,過了一會兒美味熱騰騰的披薩就送到家門口了。
你有沒有想過從下單點外賣到披薩送過來當中的工作流程呢?我指的是完成的工作流程,包括從種下披薩上的西紅柿到外賣騎手送單到你的樓下。其實這一系列過程與與機器學習工作流程并沒有什么不同。
不妨讓我們來看看。
這篇文章的靈感來自Google首席決策科學家Cassie Kozyrkov在柏林Data Natives Conference上發表的演講。
1.播種
農民播種的種子之后會長為披薩的配料,比如西紅柿等。
這相當于數據生成過程,例如用戶操作、移動、觸發傳感器等。
2.收獲
接著到了收獲的時節,也就是蔬菜或水果成熟的時候。
這相當于數據收集,也就是瀏覽器或傳感器將用戶操作或觸發傳感器的事件轉換為實際數據。
3.運輸
收獲后,產品會被運到目的地,作為披薩中的原料。
這相當于將數據提取到存儲庫中,以便之后從中獲取數據庫,如數據庫或數據湖。
4.選擇廚具和設備
每種原料都需要適合的用具來處理。如果要切片,就用刀;如果要攪拌,就用勺子。設備方面也是如此,如果要烤,就用烤箱;如果要炒,就用爐子。你還可以使微波爐等更復雜的設備。
在機器學習中,廚具是用于預處理數據的技術,而設備就相當于線性回歸、隨機森林等算法。你也可以使用微波爐等復雜的設備,這也就相當于深度學習。當中不同的就是超參數,在簡單的設備(算法)中只有少數參數;而復雜設備(算法)中,涉及到的參數更多。但這并不意味著復雜的算法就能提供更好的性能。因此,你需要明智地選擇算法。
5.選擇菜譜
僅有原料和用具是不夠的。你還需要菜譜,當中包括你準備這道菜的所有步驟。
這就是模型,記住模型與算法不同,模型包括所有算法需要的預處理和之后的處理過程。
6.準備配料
我敢打賭,大多數菜譜的第一條指令都是:“ 切片 ”,削皮等等。而不是洗蔬菜等,因為這是理所當然的,沒人想吃沒洗的蔬菜。
同樣,數據也是如此,沒有人想要臟數據。你必須清理數據,即處理缺失值和異常值。然后需要進行削皮和切片,也就是進行預處理,對變量進行分類(例如男性或女性)編碼為數字變量(0或1)。
沒有人喜歡清洗這個部分。無論是數據科學家還是廚師。
7.特別準備
有時你可以用原料來創新,以達到更好的品味或更復雜的表現。
你可以將牛排風干獲得不同的風味,或者將胡蘿卜削成玫瑰的形狀作為裝飾。
這就是特征工程。這是一個重要的步驟,如果完成得好能夠顯著提高模型的性能。
幾乎每個數據科學家都喜歡這個環節,我猜廚師們也是如此。
8.烹飪
這是最重要的步驟,如果不開火炒菜一切都是徒勞。你將準備好的配料放入炊具中,調節油溫等等。
這就模型訓練的環節。你將數據提供給算法,調整其超參數并等待一段時間再重新檢查。
9.嘗一嘗
即使你嚴格按照菜譜來做菜,你也不能保證一切都是完全正確的。那么,怎么知道你是否做對了?品嘗它!如果不好你可以添加更多鹽來調味?;蛘哒{解下火力,繼續烹飪。
但有時披薩會燒糊,或者味道糟糕到難以挽救。那么只能扔進垃圾箱,吸取教訓并重新開始。
堅持不懈加上一點點運氣就能做出美味的披薩。
品嘗就是評估過程。你需要評估模型,檢查它是否運行正常。如果沒有,你需要添加更多特征,還可以更改超參數。但你繼續訓練!
不幸的是,有時你的模型不會得出合適的解決方案,或者做出錯誤的預測,沒有任何辦法修改和挽救。那么這時你只能放棄這個模型,從中吸取教訓然后重新開始。
堅持不懈和一點點運氣將會產生一個高性能的模型。
10.送餐
在廚師看來,他的工作已經完成了,做好了一道美味的披薩。
但是,如果披薩沒有及時送到顧客的手中也是不成功的。
披薩做好后必須立即包裝,保持溫度,及時送給顧客。如果外賣騎手沒有到達目的地,或在途中丟失了披薩,或者把披薩顛簸得面目全非,之前所有的功夫都將是徒勞的。
送餐就相當于部署。不是部署披薩,而是預測。預測必須好好包裝,不是用餐盒,而是包裝成數據產品,因此才能送到用戶手里。如果這個流程出了問題,中間崩潰了或者預測發生了變動,那么前面花費力氣所做的模型訓練和驗證工作也就沒有價值了。
結語
就是這樣。機器學習就像點外賣一樣,當中需要許多人參與,合作付出努力,但最終結果都很美味!
總結幾個要點:
* 如果原料有問題,菜品也會有問題。沒有任何菜譜或炊具能解決這個問題。
* 如果你是廚師,那不要忘了,如果沒有送餐這一步,烹飪就沒有意義,因為沒有人會品嘗到美味的食物 ;
* 如果你是餐館老板,不要強迫你的廚師使用某種炊具或設備,有時微波爐并不是最好的選擇。如果讓廚師花大量的時間在清洗和切食材上,這也會讓廚師很不開心。?
好了不說了,去點披薩吃了。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25