
數據挖掘十大算法總結--核心思想,算法優缺點,應用領域,數據挖掘優缺點
本文所涉算法均只概述核心思想,具體實現細節參看“數據挖掘算法學習”分類下其他文章,不定期更新中。轉載請注明出處,謝謝。
參考了許多資料加上個人理解,對十大算法進行如下分類:
?分類算法:C4.5,CART,Adaboost,NaiveBayes,KNN,SVM
?聚類算法:KMeans
?統計學習:EM
?關聯分析:Apriori
?鏈接挖掘:PageRank
其中,EM算法雖可以用來聚類,但是由于EM算法進行迭代速度很慢,比kMeans性能差很多,并且KMeans算法 聚類效果沒有比EM差多少,所以一般用kMeans進行聚類,而不是EM。EM算法的主要作用是用來進行參數估計,故將其分入統計學習類。SVM算法在回歸分析,統計方面也有不小的貢獻,并且在分類算法中也占有一定地位,思考了下還是將SVM分入分類算法中。對分類有不同看法的讀者歡迎留言討論。
以下逐一介紹。
分類算法--C4.5 詳細講解參見數據挖掘算法學習(五)C4.5算法
?核心思想:以信息增益率為衡量標準實現對數據歸納分類
?算法優點:產生的分類規則易于理解,準確率較高
?算法缺點:在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,因而導致算法的低效
?應用領域:臨床決策、生產制造、文檔分析、生物信息學、空間數據建模等
分類算法--CART 詳細講解參見數據挖掘算法學習(六)CART算法
?核心思想:以基于最小距離的尼基指數估計函數為衡量標準對數據進行遞歸分類
?算法優點:抽取規則簡便且易于理解;面對存在缺失值、變量數多等問題時非常穩健
?算法缺點:要求被選擇的屬性只能產生兩個子節點;類別過多時,錯誤可能增加的較快
?應用領域:信息失真識別,電信業潛在客戶識別,預測貸款風險等等
分類算法--Adaboost 詳細講解參見數據挖掘算法學習(八)Adaboost算法
?核心思想:針對同一個訓練集訓練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構成一個更強的最終分類器(強分類器)
?算法優點:高精度,簡單無需做特征篩選,不會過度擬合
?算法缺點:訓練時間過長,執行效果依賴于弱分類器的選擇
?應用領域:廣泛應用于人臉檢測、目標識別等領域
分類算法--NaiveBayes 詳細講解參見數據挖掘算法學習(三)NaiveBayes算法
?核心思想:通過某對象的先驗概率,利用貝葉斯公式計算出其后驗概率,即該對象屬于某一類的概率,選擇具有最大后驗概率的類作為該對象所屬的類
?算法優點:算法簡單,所需估計的參數很少,對缺失數據不太敏感
?算法缺點:屬性個數比較多或者屬性之間相關性較大時,分類效率下降
?應用領域:垃圾郵件過濾,文本分類
分類算法--KNN
?核心思想:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數屬于某一個類別,則該樣本也屬于這個類別
?算法優點:簡單,無需估計參數,無需訓練,適合于多分類問題
?算法缺點:計算量較大;可解釋性較差,無法給出決策樹那樣的規則
?應用領域:客戶流失預測、欺詐偵測等(更適合于稀有事件的分類問題)
分類算法--SVM 詳細講解參見數據挖掘算法學習(七)SVM算法
?核心思想:建立一個最優決策超平面,使得該平面兩側距離平面最近的兩類樣本之間的距離最大化,從而對分類問題提供良好的泛化能力
?算法優點:更好的泛化能力,解決非線性問題的同時避免維度災難,可找到全局最優
?算法缺點:運算效率低,計算時占用資源過大
?應用領域:遙感圖像分類,污水處理過程運行狀態監控等
聚類算法--KMeans 詳細講解參見數據挖掘算法學習(一)KMeans算法
?核心思想:輸入聚類個數k,以及包含n個數據對象的數據庫,輸出滿足方差最小標準的k個聚類
?算法優點:運算速度快
?算法缺點:聚類數目k是一個輸入參數,不合適的k值可能返回較差的結果
?應用領域:圖片分割,分析商品相似度進而歸類商品,分析公司的客戶分類以使用不同的商業策略
統計學習--EM
?核心思想:通過E步驟和M步驟使得期望最大化
?算法優點:簡單穩定
?算法缺點:迭代速度慢,次數多,容易陷入局部最優
?應用領域:參數估計,計算機視覺的數據集聚
關聯分析--Apriori
?核心思想:基于兩階段頻集思想挖掘關聯規則的算法
?算法優點:簡單、易理解、數據要求低
?算法缺點:I/O負載大,產生過多的候選項目集
?應用領域:消費市場價格分析,入侵檢測,移動通信領域
鏈接挖掘--PageRank
?核心思想:基于從許多優質的網頁鏈接過來的網頁,必定還是優質網頁的回歸關系,來判定所有網頁的重要性
?算法優點:完全獨立于查詢,只依賴于網頁鏈接結構,可以離線計算
?算法缺點:忽略了網頁搜索的時效性;舊網頁排序很高,存在時間長,積累了大量的in-links,擁有最新資訊的新網頁排名卻很低,因為它們幾乎沒有in-links
?應用領域:頁面排序
國際權威的學術組織the IEEE International Conference on Data Mining (ICDM) 2006年12月評選出了數據挖掘領域的十大經典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.
不僅僅是選中的十大算法,其實參加評選的18種算法,實際上隨便拿出一種來都可以稱得上是經典算法,它們在數據挖掘領域都產生了極為深遠的影響。
1. C4.5
C4.5算法是機器學習算法中的一種分類決策樹算法,其核心算法是ID3算法. C4.5算法繼承了ID3算法的優點,并在以下幾方面對ID3算法進行了改進:
1) 用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;
2) 在樹構造過程中進行剪枝;
3) 能夠完成對連續屬性的離散化處理;
4) 能夠對不完整數據進行處理。
C4.5算法有如下優點:產生的分類規則易于理解,準確率較高。其缺點是:在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,因而導致算法的低效。
2. The k-means algorithm 即K-Means算法
k-means algorithm算法是一個聚類算法,把n的對象根據他們的屬性分為k個分割,k < n。它與處理混合正態分布的最大期望算法很相似,因為他們都試圖找到數據中自然聚類的中心。它假設對象屬性來自于空間向量,并且目標是使各個群組內部的均 方誤差總和最小。
3. Support vector machines
支持向量機,英文為Support Vector Machine,簡稱SV機(論文中一般簡稱SVM)。它是一種監督式學習的方法,它廣泛的應用于統計分類以及回歸分析中。支持向量機將向量映射到一個更 高維的空間里,在這個空間里建立有一個最大間隔超平面。在分開數據的超平面的兩邊建有兩個互相平行的超平面。分隔超平面使兩個平行超平面的距離最大化。假 定平行超平面間的距離或差距越大,分類器的總誤差越小。一個極好的指南是C.J.C Burges的《模式識別支持向量機指南》。van der Walt 和 Barnard 將支持向量機和其他分類器進行了比較。
4. The Apriori algorithm
Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關聯規則在分類上屬于單維、單層、布爾關聯規則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。
5. 最大期望(EM)算法
在統計計算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中尋找參數最大似然 估計的算法,其中概率模型依賴于無法觀測的隱藏變量(Latent Variabl)。最大期望經常用在機器學習和計算機視覺的數據集聚(Data Clustering)領域。
6. PageRank
PageRank是Google算法的重要內容。2001年9月被授予美國專利,專利人是Google創始人之一拉里·佩奇(Larry Page)。因此,PageRank里的page不是指網頁,而是指佩奇,即這個等級方法是以佩奇來命名的。
PageRank根據網站的外部鏈接和內部鏈接的數量和質量倆衡量網站的價值。PageRank背后的概念是,每個到頁面的鏈接都是對該頁面的一次投票, 被鏈......余下全文>>
有十大經典算法: 我是看譚磊的那本書學的。。。
下面是網站給出的答案:
1. C4.5
C4.5算法是機器學習算法中的一種分類決策樹算法,其核心算法是ID3算法. C4.5算法繼承了ID3算法的優點,并在以下幾方面對ID3算法進行了改進:
1) 用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;
2) 在樹構造過程中進行剪枝;
3) 能夠完成對連續屬性的離散化處理;
4) 能夠對不完整數據進行處理。
C4.5算法有如下優點:產生的分類規則易于理解,準確率較高。其缺點是:在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,因而導致算法的低效。
2. The k-means algorithm 即K-Means算法
k-means algorithm算法是一個聚類算法,把n的對象根據他們的屬性分為k個分割,k < n。它與處理混合正態分布的最大期望算法很相似,因為他們都試圖找到數據中自然聚類的中心。它假設對象屬性來自于空間向量,并且目標是使各個群組內部的均 方誤差總和最小。
3. Support vector machines
支持向量機,英文為Support Vector Machine,簡稱SV機(論文中一般簡稱SVM)。它是一種監督式學習的方法,它廣泛的應用于統計分類以及回歸分析中。支持向量機將向量映射到一個更 高維的空間里,在這個空間里建立有一個最大間隔超平面。在分開數據的超平面的兩邊建有兩個互相平行的超平面。分隔超平面使兩個平行超平面的距離最大化。假 定平行超平面間的距離或差距越大,分類器的總誤差越小。一個極好的指南是C.J.C Burges的《模式識別支持向量機指南》。van der Walt 和 Barnard 將支持向量機和其他分類器進行了比較。
4. The Apriori algorithm
Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關聯規則在分類上屬于單維、單層、布爾關聯規則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。
5. 最大期望(EM)算法
在統計計算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中尋找參數最大似然 估計的算法,其中概率模型依賴于無法觀測的隱藏變量(Latent Variabl)。最大期望經常用在機器學習和計算機視覺的數據集聚(Data Clustering)領域。
6. PageRank
PageRank是Google算法的重要內容。2001年9月被授予美國專利,專利人是Google創始人之一拉里·佩奇(Larry Page)。因此,PageRank里的page不是指網頁,而是指佩奇,即這個等級方法是以佩奇來命名的。
PageRank根據網站的外部鏈接和內部鏈接的數量和質量倆衡量網站的價值。PageRank背后的概念是,每個到頁面的鏈接都是對該頁面的一次投票, 被鏈接的越多,就意味著被其他網站投票越多。這個就是所謂的“鏈接流行度”——衡量多少人愿意將他們的網站和你的網站掛鉤。PageRank這個概念引自 學術中一篇論文的被引述的頻度——即被別人引述的次數越多,一般判斷這篇論文的共識性就越高。
7. AdaBoost
Adaboost是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構成一個更強的最終分類器
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24