
谷歌教你學 AI -第二講機器學習的7個步驟
Google Cloud發布了名為"AI Adventures"的系列視頻,用簡單易懂的語言讓初學者了解機器學習的方方面面。
觀看更多國外公開課,點擊"閱讀原文"
上一期主要講了機器學習的概念(谷歌教你學 AI -第一講機器學習是什么?),今天讓我們一起看到第二講:機器學習的7個步驟。
主講人還是來自Google Cloud的開發人員,華裔小哥Yufeng Guo。讓我們在學習AI知識的同時來提高英語吧。
CDA字幕組目前在對該系列視頻進行漢化,之后將繼續連載,歡迎關注和支持~
附有中文字幕的視頻如下:
AI Adventures-第二講機器學習的7個步驟
針對不方便打開視頻的小伙伴,CDA字幕組也貼心的整理了文字版本,如下:
從檢測皮膚癌到給黃瓜分類,以及檢測需要維修的電梯,機器學習賦予了計算機系統全新的能力。但它的背后到底是如何運作的呢?我們來看一個簡單的例子,并借此來聊一聊運用機器學習從你的數據中得到信息的過程。
歡迎來到Cloud AI Adventures,我的名字叫Yufeng Guo。在這個節目里,我們會探索機器學習的藝術性、科學性以及相關工具。
假設我們要構建一個系統用來判斷酒水是紅酒還是啤酒。我們構建的這個問答系統稱為模型,構建這個模型的過程稱為訓練。
機器學習中訓練的目的是建立一個準確模型,在大多數情況下能夠地準確回答問題。但是為了訓練這個模型,我們需要收集用于訓練的數據,這就是我們開始著手的地方。
紅酒還是啤酒
我們通過裝著紅酒或啤酒的杯子來收集數據,酒水中包含了方方面面的數據信息。比如泡沫的數量、杯子的形狀等。
但是出于我們的目的,只需要兩個簡單的信息。顏色,記錄為光的波長;酒精含量,記錄為百分比。希望僅僅通過這兩個因素,我們能夠分辨出這兩種酒。從現在開始我們把這兩點稱為特征,顏色和酒精含量。
第一步就是去雜貨店買各種不同的酒,以及用于測量的設備。光譜儀用來衡量顏色,比重計用來衡量酒精含量。
第1步:收集數據
一旦設備和酒都齊全了,就可以開始進行機器學習真正的第一步:收集數據。
這一步非常重要,因為你所收集數據的質量和數量將直接決定預測模型的效果。這個例子里 我們收集的數據就是,每種酒水的顏色和酒精含量。
這樣我們就可以得出一個表格,關于每種酒的顏色和酒精含量,是啤酒還是紅酒。這將成為我們的訓練數據。
第2步:數據準備
經過幾小時的測量,我們得到了訓練數據,也許還喝了幾杯。下面是機器學習的第二步:數據準備。我們將數據加載到合適的地方。進行處理從而用于機器學習的訓練。
首先把所有數據放在一起,任意排列。不要讓數據的順序影響到學習的效果,排列并不是判斷酒水種類的因素。換句話說,我們不想讓序列中酒水的前后排列順序,影響對酒水種類的判斷。
這時也可以對數據進行相關可視化,幫助判斷不同變量之間是否存在相應關系,以及是否存在數據失衡。
例如,如果我們收集的數據點中啤酒的數據要遠多于紅酒,那么訓練出來的模型就會有嚴重的偏差,偏向把酒水都判斷為啤酒。因為在大部分情況下這不會錯。然而在實際情況中,模型會處理差不多數量的啤酒和紅酒。意味著判斷為啤酒一半情況都是錯的。
我們還需要把數據分成兩部分,用于訓練模型的第一部分將是數據集的主要數據;第二部分用于評估訓練模型的效果。
我們不想把訓練用的數據用于評估,因為模型會記住這些問題。就像你不會把數學作業里的問題作為考試內容一樣。
有時我們收集的數據需要其他方式的調整和處理。比如去重、標準化、誤差修正等等。這些都在數據準備過程中進行。在這里我們不需要進一步的數據準備,所以讓我們繼續。
第3步:選擇模型
我們工作流程的下一步是:選擇模型。
在過去研究者和數據科學家,已經建立了很多模型。有些非常適用于圖像數據;有些適用于文字、音樂這種序列數據;有的適用于數字數據,還有一些適用于文本數據。
這里我們只有兩個特征:顏色和酒精含量,我們用一個小型線性模型就足夠了。這個模型很簡單但足以完成任務。
第4步:訓練
現在進行下一步,這通常被認為是機器學習的主體部分:訓練。
這一步我們將用數據,逐步提高模型預測酒水為紅酒或啤酒的能力。這有點類似初次學開車,一開始初學者完全不知道踏板 把手、開關的作用,或者什么時候要用到。但是經過許多次的練習和糾錯,就能成為有駕照的司機了。在開車一年之后就成為老司機了。在現實中駕駛提高了駕駛水平,磨練了技術。
針對酒水我們將從更小的范圍著手。直線方程是y=m*x+b。x是輸入,m是斜率,b是y軸截距,y是直線x位置上的值。我們能夠調整和訓練的值只有m和b,m是斜率,b是y軸截距。沒有其他改變直線位置的方式,因為變量只有x輸入和y輸出。
機器學習中可能存在很多m,因為有很多特征。這些值通常構成矩陣,稱為w即權重矩陣。類似的我們把b集合在一起,稱為偏差。
訓練過程包含對w和b賦予一些隨機數初始化,以及嘗試用這些值預測輸出??梢韵胂笠婚_始結果會很糟糕。但是我們可以將模型預測值與應該得出的值進行比較,進而調整w和b的值。這樣下一次能夠得出更準確的預測。
然后不斷重復這個過程。每次更新權重和變量的迭代或周期稱為一個訓練步驟(training step)??纯催@對我們的數據集具體意味著什么。
就像在數據中任意畫一條線。隨著訓練的進展,這條線一步步移動,逐步接近區分紅酒和啤酒的理想方式。
第5步:評估
一旦訓練完成,就要進行評估,查看模型的效果。
這時就要用到之前預留的數據。評估讓我們用訓練中未使用的數據測試模型,這個指標讓我們用新數據測試模型的性能,這可以代表模型在現實情況中的效果。
根據經驗法則,我一般將訓練和評估數據按照80/20或者70/30分配。大多情況下取決于原始源數據集的大小。如果數據很多可能就不需要太多的測試數據集。
第6步:參數調整
完成評估之后你想看看是否能夠進一步提高訓練??梢酝ㄟ^調整一部分參數,我們隱含假設有一些參數在訓練時已經調整了?,F在可以回頭看看測試這些假設,試試這些值。
舉個例子,有一個參數我們可以調整,即在訓練中訓練數據集運行了多少次??梢远啻问褂眠@些數據,從而提高精度。
另外一個參數是學習率,這規定了在每一步線移動的幅度。根據上一次訓練步驟得到的信息,這些值都會影響模型的準確性以及訓練時長。
對于更復雜的模型,初始條件也會大大影響訓練結果。根據模型開始訓練時,初始值是為0還是其他值的分布以及分布是什么,得出的結果會有區別。
可以看到訓練的這一階段,有很多因素值得考慮。重要的是要定義什么決定了模型的好壞。否則將花很長的時間調整參數。
這些參數通常被稱為超參數。調整超參數的過程比起科學更像是藝術。這是實驗性的過程,并很大程度上取決于具體的數據集、模型和訓練過程。
一旦滿意你的訓練和超參數,通過評估步驟,終于可以做一些有用的事情了。
第7步:預測
機器學習用數據來解答問題,因此預測或推斷就是解答問題的步驟,這是所有工作的重點,即實現機器學習價值的地方。
我們終于可以用模型,根據顏色和酒精含量,預測酒水為紅酒還是啤酒。
總結
機器學習的強大在于,我們可以用模型來測定和區分紅酒與啤酒,而不是通過人的主觀判斷或者經驗。你可以把今天所講的概念,拓展到適用這些規則的其他領域:
機器學習的7個步驟:
· 收集數據
· 準備數據
· 選擇模型
· 訓練
· 評估
· 超參數調整
· 預測
TensorFlow Playground
如果你想了解更多關于訓練和參數的信息,可以訪問TensorFlow Playground。這是完全基于瀏覽器的機器學習沙盒,你可以嘗試不同的參數,用模擬數據進行訓練。不用擔心 ,你不會把網站崩掉。
下期預告
當然在之后的視頻中,我們會遇到更多的步驟和區別。但這作為幫我們理解問題很好的基本框架,用通用的語言考慮每一步,并在以后更加深入。
在下一期的AI adventures,我們將用代碼構建第一個真正的機器學習模型。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25