熱線電話:13121318867

登錄
首頁精彩閱讀數據挖掘中,分類與聚類的區別
數據挖掘中,分類與聚類的區別
2017-12-11
收藏

數據挖掘中,分類與聚類的區別

本文對數據挖掘中,極為常見的兩類算法:分類與聚類,做個梳理。
首先,來看看分類和聚類各自的一些定義描述。
分類(classification ):
分類算法需要學習,它通過學習找出描述并區分數據類的模型,以將模型應用于預測標記未知的對象類。即從歷史數據紀錄中通過學習,自動推導出對給定數據的推廣描述,從而能對未來數據進行預測。

分類的目的產出,是一個分類函數或分類模型,亦稱分類器,可以把數據庫中的數據項映射到預設類別其中一個。
分類器通過訓練樣本數據集來構造。訓練集由一組元組構成,每個元組是一個若干字段(又稱屬性或特征)值組成的特征向量,并包含有一個類別標記。一個具體樣本的形式可表示為:(V1,V2,…,Vn; c);其中Vi表示字段值,c表示類別。
常見分類器的構造方法有決策樹、貝葉斯、ANN等。
可通過一下標準來對分類效果進行評估:
1)準確率。模型正確地預測新樣本的類標號的能力;
2)計算速度。包括構造模型以及使用模型進行分類的時間;
3)強壯性。模型對噪聲數據或空缺值數據正確預測的能力;
4)可伸縮性。對于數據量很大的數據集,有效構造模型的能力;
5)模型描述的簡潔性和可解釋性。模型描述愈簡潔、愈容易理解,則愈受歡迎。
預測準確度是用得最多的一種比較尺度,特別是對于預測型分類任務。而對于描述型的分類任務,模型描述越簡潔越受歡迎。
另外,分類的效果會樣本的特點有關,有的數據噪聲大,有的有空缺值,有的分布稀疏,有的字段或屬性間相關性強,有的屬性是離散的而有的是連續值或混合式的。不存在某種方法能適合于各種特點的數據。
聚類(clustering):
聚類是如下所述的一個過程:
1) 根據“物以類聚”的原理,將本身沒有類別的樣本聚集成不同的對象集合——簇
2) 對簇進行描述
聚類的目的是使得同簇的樣本之間應該相似度最大化,而不同簇的樣本應相似度最小化。
聚類的目的旨在發現空間實體的屬性間的函數關系,表示挖掘所得知識的方程式,以屬性名為變量。
常見聚類算法包括:k-means聚類、層次聚類、SOM聚類、FCM聚類等。
分類與聚類的不同:
分類
1) 預設類別,類別數不變
2) 樣本有標記
3) 有指導學習
4) 適合類別或分類體系已經確定的場合
聚類
1) 無需預設類別,類別數不確定,類別在學習中生成
2) 樣本無標記,學習中標記
3) 無監督學習
4) 合不存在分類體系、類別數不確定的場合
5) 是一種探索式的學習

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢