
機器學習的第一步:先學會這6種常用算法
機器學習領域不乏算法,但眾多的算法中什么是最重要的?哪種是最適合您使用的?哪些又是互補的?使用選定資源的最佳順序是什么?今天筆者就帶大家一起來分析一下。
通用的機器學習算法包括:
* 決策樹方法
* SVM
* 樸素貝葉斯方法
* KNN
* K均值
* 隨機森林方法
下圖是使用Python代碼和R代碼簡要說明的常見機器學習算法。
決策樹方法
決策樹是一種主要用于分類問題的監督學習算法,它不僅適用于分類,同時也適用于連續因變量。在這個算法中,把種群組分為兩個或兩個以上更多的齊次集合?;陲@著的屬性和獨立變量使群組盡可能地不同。
Python代碼:
R代碼:
SVM屬于分類方法的一種。在這個算法中,可以將每個數據項繪制成一個n維空間中的一個點(其中n是擁有的特征數量),每個特征的值都是一個特定坐標的值。例如,我們只有兩個特征:身高和頭發長度,首先將這兩個變量繪制在一個二維空間中,每個點有兩個坐標(稱為支持向量)。然后找到一些能將兩個不同分類的數據組之間進行分割的數據。
Python代碼:
R代碼:
樸素貝葉斯方法
這是一種基于貝葉斯定理的分類技術,在預測變量之間建立獨立的假設。簡而言之,樸素貝葉斯分類器假定類中特定特征的存在與任何其他特征存在之間無關。樸素貝葉斯模型很容易構建,對于大型的數據集來說,樸素貝葉斯模型特別有用。最讓人心動的是,雖然樸素貝葉斯算法很簡單,但它的表現不亞于高度復雜的分類方法。
貝葉斯定理提供了一種計算P(c),P(x)和P(x | c)的后驗概率的方法:P(c | x)。
P(c | x)是給定預測器(屬性)的類(目標)的后驗概率。
P(c)是類的先驗概率。
P(x | c)是預測器給定類的概率的可能性。
P(x)是預測器的先驗概率。
Python代碼:
R代碼:
KNN可以用于分類和回歸問題。但在機器學習行業中分類問題更為廣泛。K近鄰是一種簡單的算法,存儲所有可用的案例,并通過其K個鄰居的投票情況來分類新案例。KNN方法可以很容易地映射到我們的真實生活中,例如想了解一個陌生人,最好的方法可能就是從他的好朋友和生活子中獲得信息!
選擇KNN之前需要考慮的事項:
* 計算上昂貴。
* 變量需要被標準化,否則較高范圍的變量可能會產生偏差。
* 在進行KNN之前,要進行很多預處理階段工作。
Python代碼:
R代碼
K均值
K均值是一種解決聚類問題的無監督算法。其過程遵循一個簡單易行的方法,通過一定數量的集群(假設K個聚類)對給定的數據集進行分類。集群內的數據點對同組來說是同質且異構的。
K-均值是如何形成一個集群:
* K-均值為每個群集選取K個點,稱為質心。
* 每個數據點形成具有最接近的質心的群集,即K個群集。
* 根據現有集群成員查找每個集群的質心。篩選出新的質心。
* 由于出現了有新的質心,請重復步驟2和步驟3,從新質心找到每個數據點的最近距離,并與新的K個聚類關聯。重復這個過程。
如何確定K的價值
在K-均值中,我們有集群,每個集群都有各自的質心。集群內質心和數據點之差的平方和構成了該集群的平方和的總和。另外,當所有群集的平方和的總和被加上時,它成為群集解決方案的平方和的總和。隨著集群數量的增加,這個值會不斷下降,但如果繪制結果的話,您可能會看到,平方距離的總和急劇下降到某個K值,然后會減緩下降速度。在這里,可以找到最佳的集群數。
Python代碼:
R代碼:
隨機森林方法
隨機森林是一個決策樹集合的術語。在隨機森林里,我們有一系列被稱為森林的決策樹。為了根據屬性對一個新的對象進行分類,每棵樹都給出了一個分類。
每棵樹形成過程如下:
* 如果訓練集中的例數為N,則隨機抽取N個例樣本,并進行替換。這個樣本將成為樹生長的的訓練集。
* 如果有M個輸入變量,則指定一個數m << M,從M中隨機選擇每個m變量,并且使用m上的最佳劃分來分割節點。在森林生長期間,m的值保持不變。
* 讓每棵樹都盡可能地長到最大。
Python代碼:
R代碼:
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24