一種根據關鍵字進行分類的文本分類算法-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀一種根據關鍵字進行分類的文本分類算法

一種根據關鍵字進行分類的文本分類算法

2017-12-10

收藏

一種根據關鍵字進行分類的文本分類算法

這樣我們可以得出這個算法的重點：

1.提取關鍵字

如何自動提取關鍵字呢？我們知道IDF值在一定程度上可以表達一個詞的重要程度，像“我的”，“你的”這樣的關鍵字肯定無法判斷出文章的類別，他們的IDF值也是較低的。而“AK47”，“火箭炮”這樣的關鍵字可以判斷出文章類別，他們的IDF也比一般的詞要高。所以，我們只需要選擇IDF高于一定值的詞，就可以提取出絕大多數關鍵字了。

2.關鍵字分類

識別關鍵字的類別也是一個大問題，如果手工識別是不現實的，網上也沒有什么算法是進行關鍵字分類的。想來想去，最后還是用IDF值把這個問題給解決了。其實思路很簡單，可以說是上面一個問題的一種延續。假設現在我們有軍事，經濟，人文的文本各100篇。將經濟，人文的文章復制4次，這樣，我們就有軍事文本100篇，經濟，人文的文本各500篇（注意，經濟人文的文章都是有重復的，每篇文章存在4個完全相同的副本）。

然后我們計算這些文章的IDF值，想想會出現什么結果？我們知道IDF的計算公式是log(總文章數/出現次數)。假設關鍵字“AK47”在沒進行處理之前，在10篇文章中出現，那么它的值為log(300/10)=log30=1.47.

處理之后，“AK47”出現的次數不變，但是總文章數已經變為1100篇，那么AK47的IDF值為：log(1100/10)=log110=2.04。我們可以看到，經過這樣的處理，軍事的關鍵字都得到了加權，但是經濟，文化的關鍵字的IDF值變化很小。這樣，我們就能夠把軍事的關鍵字同其他的關鍵字區分開來。

我做的實驗中，分出的關鍵字至少80%是軍事類別的，實際的例子就不貼出來了。有的朋友就會問了，那你是怎么進行文本分類的？難道也是手工分？

嘿嘿，這個當然不是了。上面的類別也只有幾種，如果要做其他類別的樣本，只要用爬蟲抓取某個專業網站或者某一類新聞，然后進行分析出正文就OK了。我們的目標是盡量偷懶，呵呵。

解決了這兩個難題，再回到算法本身來。首先，提取關鍵字，使得要比較的詞語大大減少（我只提取15%~20%的關鍵字）。一篇1000字的文章詞語也就那么300~400個，也就是說和一個類別比較50個關鍵字左右就可以判斷出來了，也就是50次的hashmapping操作。然后，有幾個類別就做幾次判斷，所以算法復雜度是O（m*n）。一般分成十幾個類別已經很細了，整個算法復雜度不會很高。但是這個實驗我沒能做就申請離職了，傷心啊，我的心血都沒了，如果以后有時間再實驗下吧。

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

文本分類

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇梳理完世界互聯網大會后我發現，限制我們想象力的不止貧窮，還有教育

下一篇這么漂亮的Excel圖表，年終總結就用它了?。ǜ礁＠?

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊