熱線電話:13121318867

登錄
首頁大數據時代簡單理解文本挖掘的定義與過程
簡單理解文本挖掘的定義與過程
2020-07-02
收藏

文本挖掘是抽取有效、新穎、有用、可理解的、散布在文本文件中的有價值知識,并且利用這些知識更好地組織信息的過程。

文本挖掘指的是從文本數據中獲取有價值的信息和知識,它是數據挖掘中的一種方法,主要用途是從原本未經處理的文本中提取出未知的知識。文本挖掘中最重要最基本的應用是實現文本的分類和聚類,前者是有監督的挖掘算法,后者是無監督的挖掘算法。

但是文本挖掘也是一項非常困難的工作,因為它必須處理那些本來就模糊而且非結構化的文本數據,所以它是一個多學科混雜領域,涵蓋了信息技術、文本分析、模式識別、統計學、數據可視化、數據庫技術、機器學習以及數據挖掘等技術。

文本挖掘的獨特表現:文檔本身是半結構化或非結構化的,無確定形式并且缺乏機器可理解的語義。對比數據挖掘,數據挖掘以數據庫中的結構化數據為主要對象,并利用關系表等存儲結構來發現知識。這就需要特殊注意了,有些數據挖掘技術并不適用于文本挖掘,即使能夠使用,也需要在對文本集預處理的基礎上進行。

文本挖掘過程:

第一步:一般確定的大量文本數據才是適合應用的文檔。文檔聚類方法經常用語解決“大量”這個問題。這些方法是非監督的學習方法,最受歡迎的文檔聚類方法是K-means聚類和凝聚層次聚類。

第二步:文本是被清洗過的——1.將數據從網頁上的廣告中拆離出來;標準化文本從二進制格式轉換而來;表、數字等式都是經過處理的;還有其它的等等。然后,將文本中的詞語與對應的詞類標記的步驟開始進行。之后,一個詞語在依據給定的話句子中所含有的擁有的許多不同的含義確定了。最后,明確語義結構。

第三步:這些詞語(特征)決定了文本表示。最基本的文檔表示方法有詞袋法和向量空間。這些方法的目標在于確定哪些特征可以最好的描述一個文檔。

第四步:特征的維度被降低。為此,無關的屬性將被移除。

第五步:文本挖掘過程與傳統的數據挖掘過程結合。經典的數據挖掘技術如聚類,分類,決策樹,回歸分析,神經網絡和近鄰取樣將被用在之前的階段所得到的結構化數據庫上。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢