數據挖掘中，分類與聚類的區別-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀數據挖掘中，分類與聚類的區別

數據挖掘中，分類與聚類的區別

2017-12-11

收藏

數據挖掘中，分類與聚類的區別

本文對數據挖掘中，極為常見的兩類算法：分類與聚類，做個梳理。
首先，來看看分類和聚類各自的一些定義描述。
分類(classification )：
分類算法需要學習，它通過學習找出描述并區分數據類的模型，以將模型應用于預測標記未知的對象類。即從歷史數據紀錄中通過學習，自動推導出對給定數據的推廣描述，從而能對未來數據進行預測。

分類的目的產出，是一個分類函數或分類模型，亦稱分類器，可以把數據庫中的數據項映射到預設類別其中一個。
分類器通過訓練樣本數據集來構造。訓練集由一組元組構成，每個元組是一個若干字段（又稱屬性或特征）值組成的特征向量，并包含有一個類別標記。一個具體樣本的形式可表示為：（V1,V2,…,Vn; c）；其中Vi表示字段值，c表示類別。
常見分類器的構造方法有決策樹、貝葉斯、ANN等。
可通過一下標準來對分類效果進行評估：
1）準確率。模型正確地預測新樣本的類標號的能力；
2）計算速度。包括構造模型以及使用模型進行分類的時間；
3）強壯性。模型對噪聲數據或空缺值數據正確預測的能力；
4）可伸縮性。對于數據量很大的數據集，有效構造模型的能力；
5）模型描述的簡潔性和可解釋性。模型描述愈簡潔、愈容易理解，則愈受歡迎。
預測準確度是用得最多的一種比較尺度，特別是對于預測型分類任務。而對于描述型的分類任務，模型描述越簡潔越受歡迎。
另外，分類的效果會樣本的特點有關，有的數據噪聲大，有的有空缺值，有的分布稀疏，有的字段或屬性間相關性強，有的屬性是離散的而有的是連續值或混合式的。不存在某種方法能適合于各種特點的數據。
聚類(clustering)：
聚類是如下所述的一個過程：
1）根據“物以類聚”的原理，將本身沒有類別的樣本聚集成不同的對象集合——簇
2）對簇進行描述
聚類的目的是使得同簇的樣本之間應該相似度最大化，而不同簇的樣本應相似度最小化。
聚類的目的旨在發現空間實體的屬性間的函數關系，表示挖掘所得知識的方程式，以屬性名為變量。
常見聚類算法包括：k-means聚類、層次聚類、SOM聚類、FCM聚類等。
分類與聚類的不同：
分類
1）預設類別，類別數不變
2）樣本有標記
3）有指導學習
4）適合類別或分類體系已經確定的場合
聚類
1）無需預設類別，類別數不確定，類別在學習中生成
2）樣本無標記，學習中標記
3）無監督學習
4）合不存在分類體系、類別數不確定的場合
5）是一種探索式的學習

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

字段特征數據挖掘特征向量層次聚類決策樹無監督學習無監督

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇梳理完世界互聯網大會后我發現，限制我們想象力的不止貧窮，還有教育

下一篇這么漂亮的Excel圖表，年終總結就用它了?。ǜ礁＠?

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊