熱線電話:13121318867

登錄
首頁精彩閱讀數據挖掘十大算法總結--核心思想,算法優缺點,應用領域,數據挖掘優缺點
數據挖掘十大算法總結--核心思想,算法優缺點,應用領域,數據挖掘優缺點
2016-03-19
收藏

數據挖掘十大算法總結--核心思想,算法優缺點,應用領域,數據挖掘優缺點

本文所涉算法均只概述核心思想,具體實現細節參看“數據挖掘算法學習”分類下其他文章,不定期更新中。轉載請注明出處,謝謝。

參考了許多資料加上個人理解,對十大算法進行如下分類:

?分類算法:C4.5,CART,Adaboost,NaiveBayes,KNN,SVM

?聚類算法:KMeans

?統計學習:EM

?關聯分析:Apriori

?鏈接挖掘:PageRank

其中,EM算法雖可以用來聚類,但是由于EM算法進行迭代速度很慢,比kMeans性能差很多,并且KMeans算法 聚類效果沒有比EM差多少,所以一般用kMeans進行聚類,而不是EM。EM算法的主要作用是用來進行參數估計,故將其分入統計學習類。SVM算法在回歸分析,統計方面也有不小的貢獻,并且在分類算法中也占有一定地位,思考了下還是將SVM分入分類算法中。對分類有不同看法的讀者歡迎留言討論。

以下逐一介紹。

分類算法--C4.5 詳細講解參見數據挖掘算法學習(五)C4.5算法

?核心思想:以信息增益率為衡量標準實現對數據歸納分類

?算法優點:產生的分類規則易于理解,準確率較高

?算法缺點:在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,因而導致算法的低效

?應用領域:臨床決策、生產制造、文檔分析、生物信息學、空間數據建模


分類算法--CART  詳細講解參見數據挖掘算法學習(六)CART算法

?核心思想:以基于最小距離的尼基指數估計函數為衡量標準對數據進行遞歸分類

?算法優點:抽取規則簡便且易于理解;面對存在缺失值、變量數多等問題時非常穩健

?算法缺點:要求被選擇的屬性只能產生兩個子節點;類別過多時,錯誤可能增加的較快

?應用領域:信息失真識別,電信業潛在客戶識別,預測貸款風險等等


分類算法--Adaboost 詳細講解參見數據挖掘算法學習(八)Adaboost算法

?核心思想:針對同一個訓練集訓練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構成一個更強的最終分類器(強分類器)

?算法優點:高精度,簡單無需做特征篩選,不會過度擬合

?算法缺點:訓練時間過長,執行效果依賴于弱分類器的選擇

?應用領域:廣泛應用于人臉檢測、目標識別等領域


分類算法--NaiveBayes 詳細講解參見數據挖掘算法學習(三)NaiveBayes算法

?核心思想:通過某對象的先驗概率,利用貝葉斯公式計算出其后驗概率,即該對象屬于某一類的概率,選擇具有最大后驗概率的類作為該對象所屬的類

?算法優點:算法簡單,所需估計的參數很少,對缺失數據不太敏感

?算法缺點:屬性個數比較多或者屬性之間相關性較大時,分類效率下降

?應用領域:垃圾郵件過濾,文本分類


分類算法--KNN

?核心思想:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數屬于某一個類別,則該樣本也屬于這個類別

?算法優點:簡單,無需估計參數,無需訓練,適合于多分類問題

?算法缺點:計算量較大;可解釋性較差,無法給出決策樹那樣的規則

?應用領域:客戶流失預測、欺詐偵測等(更適合于稀有事件的分類問題)


分類算法--SVM 詳細講解參見數據挖掘算法學習(七)SVM算法

?核心思想:建立一個最優決策超平面,使得該平面兩側距離平面最近的兩類樣本之間的距離最大化,從而對分類問題提供良好的泛化能力

?算法優點:更好的泛化能力,解決非線性問題的同時避免維度災難,可找到全局最優

?算法缺點:運算效率低,計算時占用資源過大

?應用領域:遙感圖像分類,污水處理過程運行狀態監控等


聚類算法--KMeans   詳細講解參見數據挖掘算法學習(一)KMeans算法

?核心思想:輸入聚類個數k,以及包含n個數據對象的數據庫,輸出滿足方差最小標準的k個聚類

?算法優點:運算速度快

?算法缺點:聚類數目k是一個輸入參數,不合適的k值可能返回較差的結果

?應用領域:圖片分割,分析商品相似度進而歸類商品,分析公司的客戶分類以使用不同的商業策略


統計學習--EM

?核心思想:通過E步驟和M步驟使得期望最大化

?算法優點:簡單穩定

?算法缺點:迭代速度慢,次數多,容易陷入局部最優

?應用領域:參數估計,計算機視覺的數據集聚


關聯分析--Apriori

?核心思想:基于兩階段頻集思想挖掘關聯規則的算法

?算法優點:簡單、易理解、數據要求低

?算法缺點:I/O負載大,產生過多的候選項目集

?應用領域:消費市場價格分析,入侵檢測,移動通信領域


鏈接挖掘--PageRank

?核心思想:基于從許多優質的網頁鏈接過來的網頁,必定還是優質網頁的回歸關系,來判定所有網頁的重要性

?算法優點:完全獨立于查詢,只依賴于網頁鏈接結構,可以離線計算

?算法缺點:忽略了網頁搜索的時效性;舊網頁排序很高,存在時間長,積累了大量的in-links,擁有最新資訊的新網頁排名卻很低,因為它們幾乎沒有in-links

?應用領域:頁面排序

數據挖掘算法有什

國際權威的學術組織the IEEE International Conference on Data Mining (ICDM) 2006年12月評選出了數據挖掘領域的十大經典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.
不僅僅是選中的十大算法,其實參加評選的18種算法,實際上隨便拿出一種來都可以稱得上是經典算法,它們在數據挖掘領域都產生了極為深遠的影響。
1. C4.5
C4.5算法是機器學習算法中的一種分類決策樹算法,其核心算法是ID3算法. C4.5算法繼承了ID3算法的優點,并在以下幾方面對ID3算法進行了改進:
1) 用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;
2) 在樹構造過程中進行剪枝;
3) 能夠完成對連續屬性的離散化處理;
4) 能夠對不完整數據進行處理。
C4.5算法有如下優點:產生的分類規則易于理解,準確率較高。其缺點是:在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,因而導致算法的低效。
2. The k-means algorithm 即K-Means算法
k-means algorithm算法是一個聚類算法,把n的對象根據他們的屬性分為k個分割,k < n。它與處理混合正態分布的最大期望算法很相似,因為他們都試圖找到數據中自然聚類的中心。它假設對象屬性來自于空間向量,并且目標是使各個群組內部的均 方誤差總和最小。
3. Support vector machines
支持向量機,英文為Support Vector Machine,簡稱SV機(論文中一般簡稱SVM)。它是一種監督式學習的方法,它廣泛的應用于統計分類以及回歸分析中。支持向量機將向量映射到一個更 高維的空間里,在這個空間里建立有一個最大間隔超平面。在分開數據的超平面的兩邊建有兩個互相平行的超平面。分隔超平面使兩個平行超平面的距離最大化。假 定平行超平面間的距離或差距越大,分類器的總誤差越小。一個極好的指南是C.J.C Burges的《模式識別支持向量機指南》。van der Walt 和 Barnard 將支持向量機和其他分類器進行了比較。
4. The Apriori algorithm
Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關聯規則在分類上屬于單維、單層、布爾關聯規則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。
5. 最大期望(EM)算法
在統計計算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中尋找參數最大似然 估計的算法,其中概率模型依賴于無法觀測的隱藏變量(Latent Variabl)。最大期望經常用在機器學習計算機視覺的數據集聚(Data Clustering)領域。
6. PageRank
PageRank是Google算法的重要內容。2001年9月被授予美國專利,專利人是Google創始人之一拉里·佩奇(Larry Page)。因此,PageRank里的page不是指網頁,而是指佩奇,即這個等級方法是以佩奇來命名的。
PageRank根據網站的外部鏈接和內部鏈接的數量和質量倆衡量網站的價值。PageRank背后的概念是,每個到頁面的鏈接都是對該頁面的一次投票, 被鏈......余下全文>>

常用的數據挖掘算法有哪幾類?


有十大經典算法: 我是看譚磊的那本書學的。。。
下面是網站給出的答案:
1. C4.5
C4.5算法是機器學習算法中的一種分類決策樹算法,其核心算法是ID3算法. C4.5算法繼承了ID3算法的優點,并在以下幾方面對ID3算法進行了改進:
1) 用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;
2) 在樹構造過程中進行剪枝;
3) 能夠完成對連續屬性的離散化處理;
4) 能夠對不完整數據進行處理。
C4.5算法有如下優點:產生的分類規則易于理解,準確率較高。其缺點是:在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,因而導致算法的低效。
2. The k-means algorithm 即K-Means算法
k-means algorithm算法是一個聚類算法,把n的對象根據他們的屬性分為k個分割,k < n。它與處理混合正態分布的最大期望算法很相似,因為他們都試圖找到數據中自然聚類的中心。它假設對象屬性來自于空間向量,并且目標是使各個群組內部的均 方誤差總和最小。
3. Support vector machines
支持向量機,英文為Support Vector Machine,簡稱SV機(論文中一般簡稱SVM)。它是一種監督式學習的方法,它廣泛的應用于統計分類以及回歸分析中。支持向量機將向量映射到一個更 高維的空間里,在這個空間里建立有一個最大間隔超平面。在分開數據的超平面的兩邊建有兩個互相平行的超平面。分隔超平面使兩個平行超平面的距離最大化。假 定平行超平面間的距離或差距越大,分類器的總誤差越小。一個極好的指南是C.J.C Burges的《模式識別支持向量機指南》。van der Walt 和 Barnard 將支持向量機和其他分類器進行了比較。
4. The Apriori algorithm
Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關聯規則在分類上屬于單維、單層、布爾關聯規則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。
5. 最大期望(EM)算法
在統計計算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中尋找參數最大似然 估計的算法,其中概率模型依賴于無法觀測的隱藏變量(Latent Variabl)。最大期望經常用在機器學習計算機視覺的數據集聚(Data Clustering)領域。
6. PageRank
PageRank是Google算法的重要內容。2001年9月被授予美國專利,專利人是Google創始人之一拉里·佩奇(Larry Page)。因此,PageRank里的page不是指網頁,而是指佩奇,即這個等級方法是以佩奇來命名的。
PageRank根據網站的外部鏈接和內部鏈接的數量和質量倆衡量網站的價值。PageRank背后的概念是,每個到頁面的鏈接都是對該頁面的一次投票, 被鏈接的越多,就意味著被其他網站投票越多。這個就是所謂的“鏈接流行度”——衡量多少人愿意將他們的網站和你的網站掛鉤。PageRank這個概念引自 學術中一篇論文的被引述的頻度——即被別人引述的次數越多,一般判斷這篇論文的共識性就越高。
7. AdaBoost
Adaboost是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構成一個更強的最終分類器

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢