數據挖掘系列分類算法評價-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀數據挖掘系列分類算法評價

數據挖掘系列分類算法評價

2016-08-15

收藏

數據挖掘系列分類算法評價

一、引言

分類算法有很多，不同分類算法又用很多不同的變種。不同的分類算法有不同的特定，在不同的數據集上表現的效果也不同，我們需要根據特定的任務進行算法的選擇，如何選擇分類，如何評價一個分類算法的好壞，前面關于決策樹的介紹，我們主要用的正確率（accuracy）來評價分類算法。

正確率確實是一個很好很直觀的評價指標，但是有時候正確率高并不能代表一個算法就好。比如某個地區某天地震的預測，假設我們有一堆的特征作為地震分類的屬性，類別只有兩個：0：不發生地震、1：發生地震。一個不加思考的分類器，對每一個測試用例都將類別劃分為0，那那么它就可能達到99%的正確率，但真的地震來臨時，這個分類器毫無察覺，這個分類帶來的損失是巨大的。為什么99%的正確率的分類器卻不是我們想要的，因為這里數據分布不均衡，類別1的數據太少，完全錯分類別1依然可以達到很高的正確率卻忽視了我們關注的東西。接下來詳細介紹一下分類算法的評價指標。

二、評價指標

1、幾個常用的術語

這里首先介紹幾個常見的模型評價術語，現在假設我們的分類目標只有兩類，計為正例（positive）和負例（negtive）分別是：

1）True positives(TP): 被正確地劃分為正例的個數，即實際為正例且被分類器劃分為正例的實例數（樣本數）；

2）False positives(FP): 被錯誤地劃分為正例的個數，即實際為負例但被分類器劃分為正例的實例數；

3）False negatives(FN):被錯誤地劃分為負例的個數，即實際為正例但被分類器劃分為負例的實例數；

4）True negatives(TN): 被正確地劃分為負例的個數，即實際為負例且被分類器劃分為負例的實例數?！　?/span>

實際類別	預測類別
		Yes	No	總計
	Yes	TP	FN	P（實際為Yes）
	No	FP	TN	N（實際為No）
	總計	P’（被分為Yes）	N’（被分為No）	P+N

上圖是這四個術語的混淆矩陣，我只知道FP叫偽陽率，其他的怎么稱呼就不詳了。注意P=TP+FN表示實際為正例的樣本個數，我曾經誤以為實際為正例的樣本數應該為TP+FP，這里只要記住True、False描述的是分類器是否判斷正確，Positive、Negative是分類器的分類結果。如果正例計為1、負例計為-1，即positive=1、negtive=-1，用1表示True，-1表示False，那么實際的類標=TF*PN，TF為true或false，PN為positive或negtive。例如True positives(TP)的實際類標=1*1=1為正例，False positives(FP)的實際類標=（-1）*1=-1為負例，False negatives(FN)的實際類標=（-1）*（-1）=1為正例，True negatives(TN)的實際類標=1*（-1）=-1為負例。

2、評價指標

1）正確率（accuracy）

正確率是我們最常見的評價指標，accuracy = （TP+TN）/(P+N)，這個很容易理解，就是被分對的樣本數除以所有的樣本數，通常來說，正確率越高，分類器越好；

2）錯誤率（error rate)

錯誤率則與正確率相反，描述被分類器錯分的比例，error rate = (FP+FN)/(P+N)，對某一個實例來說，分對與分錯是互斥事件，所以accuracy =1 - error rate；

3）靈敏度（sensitive）

sensitive = TP/P，表示的是所有正例中被分對的比例，衡量了分類器對正例的識別能力；

4）特效度（specificity)

specificity = TN/N，表示的是所有負例中被分對的比例，衡量了分類器對負例的識別能力；

5）精度（precision）

精度是精確性的度量，表示被分為正例的示例中實際為正例的比例，precision=TP/（TP+FP）；

6）召回率（recall）

召回率是覆蓋面的度量，度量有多個正例被分為正例，recall=TP/(TP+FN)=TP/P=sensitive，可以看到召回率與靈敏度是一樣的。

7）其他評價指標

計算速度：分類器訓練和預測需要的時間；

魯棒性：處理缺失值和異常值的能力；

可擴展性：處理大數據集的能力；

可解釋性：分類器的預測標準的可理解性，像決策樹產生的規則就是很容易理解的，而神經網絡的一堆參數就不好理解，我們只好把它看成一個黑盒子。

對于某個具體的分類器而言，我們不可能同時提高所有上面介紹的指標，當然，如果一個分類器能正確分對所有的實例，那么各項指標都已經達到最優，但這樣的分類器往往不存在。比如我們開頭說的地震預測，沒有誰能準確預測地震的發生，但我們能容忍一定程度的誤報，假設1000次預測中，有5次預測為發現地震，其中一次真的發生了地震，而其他4次為誤報，那么正確率從原來的999/1000=99.9%下降到996/1000=99.6，但召回率從0/1=0%上升為1/1=100%，這樣雖然謊報了幾次地震，但真的地震來臨時，我們沒有錯過，這樣的分類器才是我們想要的，在一定正確率的前提下，我們要求分類器的召回率盡可能的高?！　?/span>

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

召回率決策樹神經網絡特征混淆矩陣數據挖掘大數據

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇回歸系列（一）| 怎樣正確地理解線性回歸

下一篇2020美國總統競選大戲開鑼，川普當選的奇跡會再發生嗎？

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊