
作者 | CDA數據分析師
10 machine learning methods that every data scientist should know
機器學習是研究和工業中的熱門話題,新方法一直在發展。該領域的速度和復雜性使得即使對于專家而言也難以跟上新技術 - 并且對于初學者而言可能是壓倒性的難度。
為了揭開機器學習的神秘面紗并為剛接觸核心概念的人提供學習途徑,讓我們看看十種不同的方法,包括簡單描述,可視化和每個方法的示例。
機器學習算法(也稱為模型)是表示問題上下文中的數據的數學表達式,通常是業務問題。目標是從數據到洞察。例如,如果在線零售商想要預測下一季度的銷售額,他們可能會使用機器學習算法,根據過去的銷售額和其他相關數據預測這些銷售額。類似地,風車制造商可以通過視覺監控重要設備并通過訓練識別危險裂縫的算法來提供視頻數據。
所描述的十種方法提供了一個概述 - 以及您在磨練機器學習知識和技能時可以建立的基礎:
1 回歸
回歸方法屬于有監督的ML類別。它們有助于基于一組先前數據預測或解釋特定數值,例如基于類似屬性的先前定價數據來預測房產的價格。
最簡單的方法是線性回歸,其中我們使用直線的數學方程(y = m * x + b)來模擬數據集。我們通過計算線的位置和斜率來訓練具有許多數據對(x,y)的線性回歸模型,該直線最小化所有數據點和線之間的總距離。換句話說,我們計算最接近數據中觀測值的線的斜率(m)和y截距(b)。
讓我們考慮更多線性回歸的具體例子。我曾經使用線性回歸來預測某些建筑物的能耗(以千瓦時為單位),將建筑物的年齡,樓層數,平方英尺和堵墻設備的數量匯總在一起。由于有多個輸入(年齡,平方英尺等),我使用了多變量線性回歸。原理與簡單的一對一線性回歸相同,但在這種情況下,我創建的“線”基于變量的數量發生在多維空間中。
下圖顯示了線性回歸模型與建筑物實際能耗的匹配程度?,F在想象一下,您可以訪問建筑物的特征(年齡,平方英尺等),但您不知道能耗。在這種情況下,我們可以使用擬合線來估算特定建筑物的能耗。
請注意,您還可以使用線性回歸來估計每個因素的權重,這有助于最終預測消耗的能量。例如,一旦有了公式,就可以確定年齡,大小或身高是否最重要。
▲建筑能耗(kWh)的線性回歸模型估計
回歸技術的范圍從簡單(如線性回歸)到復雜(如正則化線性回歸,多項式回歸,決策樹和隨機森林回歸,神經網絡等)。但不要陷入困境:首先研究簡單的線性回歸,掌握基礎,然后繼續前進。
2 分類
另一類有監督的ML,分類方法預測或解釋類值。例如,他們可以幫助預測在線客戶是否會購買產品。輸出可以是是或否:買方或非買方。但分類方法不限于兩類。例如,分類方法可以幫助評估給定圖像是否包含汽車或卡車。在這種情況下,輸出將是3個不同的值:1)圖像包含汽車,2)圖像包含卡車,或3)圖像既不包含汽車也不包含卡車。
最簡單的分類算法是邏輯回歸 - 這使得它聽起來像一個回歸方法,但事實并非如此。邏輯回歸基于一個或多個輸入估計事件發生的概率。
例如,邏輯回歸可以將學生的兩個考試分數作為輸入,以便估計學生將被錄取到特定大學的概率。因為估計是概率,所以輸出是介于0和1之間的數字,其中1表示完全確定性。對于學生,如果估計的概率大于0.5,那么我們預測他或她將被錄取。如果估計的概率小于0.5,我們預測他或她將被拒絕。
下圖顯示了之前學生的分數以及他們是否被錄取。Logistic回歸允許我們繪制一條代表決策邊界的線。
▲Logistic回歸決策邊界:是否入讀大學?
因為邏輯回歸是最簡單的分類模型,所以它是開始分類的好地方。隨著您的進步,您可以深入研究非線性分類器,例如決策樹,隨機森林,支持向量機和神經網絡等。
3 聚類
使用聚類方法,我們進入無監督ML的類別,因為它們的目標是對具有相似特征的觀察進行分組或聚類。聚類方法不使用輸出信息進行訓練,而是讓算法定義輸出。在聚類方法中,我們只能使用可視化來檢查解決方案的質量。
最流行的聚類方法是K-Means,其中“K”表示用戶選擇創建的聚類數。(注意,有多種技術可以選擇K的值,例如彎頭法。)
粗略地說,K-Means對數據點的作用如下:
下一個圖將K-Means應用于建筑物的數據集。圖中的每一列都表明了每棟建筑的效率。這四項測量涉及空調,插入式設備(微波爐,冰箱等),家用燃氣和加熱氣體。我們選擇K = 2進行聚類,這樣可以很容易地將其中一個聚類解釋為高效建筑群,將另一個聚類解釋為低效建筑群。在左側,您可以看到建筑物的位置,在右側,您可以看到我們用作輸入的四個尺寸中的兩個:插入式設備和加熱氣體。
▲將建筑物聚類為高效(綠色)和低效(紅色)組。
在探索聚類時,您將遇到非常有用的算法,例如基于密度的噪聲應用空間聚類(DBSCAN),均值偏移聚類,凝聚層次聚類,使用高斯混合模型的期望最大化聚類等。
4 降維
顧名思義,我們使用降維來從數據集中刪除最不重要的信息(有時是冗余列)。在實踐中,我經??吹桨瑪蛋偕踔翑登Я校ㄒ卜Q為特征)的數據集,因此減少總數至關重要。例如,圖像可以包含數千個像素,而不是所有像素對您的分析都很重要?;蛘?,在制造過程中測試微芯片時,可能會對每個芯片應用數千個測量和測試,其中許多芯片提供冗余信息。在這些情況下,您需要降維算法以使數據集易于管理。
最流行的降維方法是主成分分析(PCA),它通過找到最大化數據線性變化的新向量來減小特征空間的維數。當數據的線性相關性很強時,PCA可以顯著減小數據的維度,而不會丟失太多信息。(事實上,您還可以衡量信息丟失的實際程度并進行相應調整。)
另一種流行的方法是t-Stochastic Neighbor Embedding(t-SNE),它可以減少非線性維數。人們通常使用t-SNE進行數據可視化,但您也可以將其用于機器學習任務,例如減少特征空間和聚類,僅舉幾例。
下一個圖顯示了手寫數字的MNIST數據庫的分析。MNIST包含數千個從0到9的數字圖像,研究人員用它們來測試它們的聚類和分類算法。數據集的每一行是原始圖像的矢量化版本(大小28×28 = 784)和每個圖像的標簽(零,一,二,三,......,九)。請注意,我們因此將維度從784(像素)減少到2(我們的可視化中的維度)。投影到兩個維度允許我們可視化高維原始數據集。
▲MNIST手寫數字數據庫的t-SNE迭代。
5 集成算法
想象一下,你決定制造一輛自行車,因為你對商店和網上的選擇感到不滿意。您可以從找到所需的每個部件的最佳部分開始。一旦你組裝了所有這些偉大的部件,最終的自行車將超越所有其他選項。
集成使用相同的想法,結合幾個預測模型(監督ML),以獲得比每個模型本身可以提供的更高質量的預測。例如,隨機森林算法是一種集成算法,它結合了許多用不同數據集樣本訓練的決策樹。因此,隨機森林的預測質量高于使用單個決策樹估計的預測質量。
將集成算法視為減少單個機器學習模型的方差和偏差的一種方法。這很重要,因為任何給定的模型在某些條件下可能是準確的,但在其他條件下可能不準確。使用另一個模型,相對精度可能會相反。通過組合這兩個模型,可以平衡預測的質量。
Kaggle比賽的絕大多數頂級獲勝者都使用某種方式的合奏方法。最流行的集成算法是隨機森林,XGBoost和LightGBM。
與被認為是線性模型的線性和邏輯回歸相比,神經網絡的目標是通過向模型添加參數層來捕獲數據中的非線性模式。在下圖中,簡單神經網絡有四個輸入,一個帶有五個參數的隱藏層和一個輸出層。
實際上,神經網絡的結構足夠靈活,可以構建我們眾所周知的線性回歸和邏輯回歸。術語深度學習來自具有許多隱藏層的神經網絡(見下圖),并封裝了各種各樣的體系結構。
特別難以跟上深度學習的發展,部分原因是研究和行業社區的深度學習成果翻了一番,每天產生全新的方法論。 具有一個隱藏層的神經網絡。
為了獲得最佳性能,深度學習技術需要大量數據 - 以及大量計算能力,因為該方法可以在大型架構中自我調整許多參數。很快就會清楚為什么深度學習從業者需要使用GPU(圖形處理單元)增強的非常強大的計算機。
特別是,深度學習技術在視覺(圖像分類),文本,音頻和視頻領域非常成功。最常見的深度學習軟件包是Tensorflow和PyTorch。
7 遷移學習
讓我們假裝您是零售行業的數據科學家。您花了幾個月的時間訓練高質量的模型,將圖像分類為襯衫,T恤和馬球。你的新任務是建立一個類似的模型,將服裝圖像分類為牛仔褲,貨物,休閑褲和正裝褲。您是否可以將內置的知識轉移到第一個模型中并將其應用到第二個模型中?是的,您可以使用遷移學習。
轉移學習是指重新使用先前訓練的神經網絡的一部分并使其適應新的但類似的任務。具體來說,一旦您使用任務數據訓練神經網絡,您可以傳輸一小部分訓練過的圖層,并將它們與您可以使用新任務的數據訓練的幾個新圖層組合在一起。通過添加幾個層,新的神經網絡可以快速學習并適應新任務。
遷移學習的主要優點是你需要更少的數據來訓練神經網絡,這一點尤為重要,因為深度學習算法的訓練在時間和金錢(計算資源)方面都是昂貴的 - 當然,通常很難找到足夠的標記數據用于訓練。
讓我們回到我們的例子,并假設對于襯衫模型,你使用一個有20個隱藏層的神經網絡。經過一些實驗后,您意識到您可以轉移18個襯衫模型層,并將它們與一個新的參數層相結合,以訓練褲子的圖像。因此褲子模型將有19個隱藏層。兩個任務的輸入和輸出是不同的,但是可重復使用的層可以概括與兩者相關的信息,例如布料,緊固件和形狀的方面。
遷移學習變得越來越流行,現在有許多可靠的預訓練模型可用于常見的深度學習任務,如圖像和文本分類。
8 強化學習
想象一下,迷宮中的老鼠試圖找到隱藏的奶酪片。我們將老鼠暴露在迷宮中的次數越多,找到奶酪就越好。起初,老鼠可能會隨機移動,但經過一段時間后,老鼠的體驗有助于它實現哪些動作更接近奶酪。
老鼠的過程反映了我們使用強化學習(RL)來訓練系統或游戲。一般來說,RL是一種機器學習方法,可以幫助代理人從經驗中學習。通過在設定環境中記錄操作并使用試錯法,RL可以最大化累積獎勵。在我們的示例中,老鼠是代理,迷宮是環境。老鼠的可能操作集是:前移,后移,左移或右移。獎勵是奶酪。
當您幾乎沒有關于問題的歷史數據時,可以使用RL,因為它不需要事先提供信息(與傳統的機器學習方法不同)。在RL框架中,您可以隨時了解數據。毫不奇怪,RL在游戲方面尤其成功,特別是像國際象棋和圍棋這樣的“ 完美信息 ” 游戲。通過游戲,來自代理和環境的反饋很快得以實現,使模型能夠快速學習。RL的缺點是,如果問題很復雜,可能需要很長時間才能進行訓練。
正如IBM的Deep Blue在1997年擊敗了最好的人類國際象棋選手一樣,基于RL算法的AlphaGo在2016年擊敗了最佳的圍棋玩家。目前RL的先驅者是英國DeepMind的團隊。更多關于AlphaGo和DeepMind的信息。
在2019年4月,OpenAI Five團隊是第一個擊敗世界冠軍電子競技Dota 2的人工智能團隊,這是一個非常復雜的視頻游戲,OpenAI Five團隊之所以選擇,因為沒有RL算法可以贏得它時間。擊敗Dota 2冠軍人類團隊的同一個AI團隊也開發了一個機器人手,可以重新定位一個塊。
你可以說強化學習是一種特別強大的人工智能形式,我們肯定會看到這些團隊取得更多進展,但同樣值得記住方法的局限性。
9 自然語言處理
世界上很大一部分數據和知識都是某種形式的人類語言。你能想象能在幾秒鐘內閱讀和理解成千上萬的書籍,文章和博客嗎?顯然,計算機還不能完全理解人類文本,但我們可以訓練他們完成某些任務。例如,我們可以訓練手機自動填寫短信或糾正拼寫錯誤的單詞。我們甚至可以教一臺機器與人進行簡單的對話。
自然語言處理(NLP)本身不是一種機器學習方法,而是一種廣泛使用的技術,用于為機器學習準備文本。想想各種格式的大量文本文檔(單詞,在線博客,......)。大多數這些文本文檔將充滿拼寫錯誤,缺少字符和其他需要過濾的單詞。目前,最流行的文本處理包是由斯坦福大學的研究人員創建的NLTK(自然語言工具包)。
將文本映射到數字表示的最簡單方法是計算每個文本文檔中每個單詞的頻率??紤]一個整數矩陣,其中每行代表一個文本文檔,每列代表一個單詞。字頻率的這種矩陣表示通常稱為術語頻率矩陣(TFM)。從那里,我們可以通過將矩陣上的每個條目除以每個單詞在整個文檔集中的重要程度的權重來創建文本文檔的另一種流行矩陣表示。我們將此方法稱為術語頻率反向文檔頻率(TFIDF),它通常更適用于機器學習任務。
10 詞嵌入
TFM和TFIDF是文本文檔的數字表示,它們只考慮頻率和加權頻率來表示文本文檔。相比之下,Word嵌入可以捕獲文檔中單詞的上下文。對于單詞上下文,嵌入可以量化單詞之間的相似性,這反過來又允許我們對單詞進行算術。
Word2vec是一種基于神經網絡的方法,它將語料庫中的單詞映射成一個數字向量。然后,我們可以使用這些向量查找同義詞,對單詞執行算術操作,或者表示文本文檔(取文檔中所有單詞向量的平均值)。例如,假設我們使用足夠大的文本文檔來估計單詞嵌入。我們還假設王, 皇后, 男子漢和女是語料庫的一部分。就這么說吧向量(字)表示單詞的數字向量。“字”..估計向量(“婦女”),我們可以使用向量執行算術操作:
向量(“King”)+向量(“婦女”) — 向量(‘man’)~向量(‘皇后’)
▲用Word(向量)嵌入算術
單詞表示允許通過計算兩個單詞的向量表示之間的余弦相似性來找到單詞之間的相似性。余弦相似度測量兩個矢量之間的角度。
我們使用機器學習方法計算單詞嵌入,但這通常是在頂部應用機器學習算法的前提步驟。例如,假設我們可以訪問數千名Twitter用戶的推文。還假設我們知道這些Twitter用戶中哪些人買了房子。為了預測新Twitter用戶購買房屋的概率,我們可以將Word2Vec與邏輯回歸結合起來。
總結
我試圖涵蓋十種最重要的機器學習方法:從最基本的到最前沿的。很好地研究這些方法并充分理解每個方法的基礎知識可以作為進一步研究更先進的算法和方法的堅實起點。
當然,還有很多非常重要的信息需要報道,包括質量指標,交叉驗證,分類方法中的類不平衡以及過度擬合模型等等,僅舉幾例。敬請關注。
此博客的所有可視化都是使用Watson Studio Desktop完成的。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《劉靜:10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda ...
2025-04-23