熱線電話:13121318867

登錄
首頁精彩閱讀有關文本挖掘的14個概念
有關文本挖掘的14個概念
2016-09-18
收藏

有關文本挖掘的14個概念

我們所處的信息時代以急速增長的數據信息收集、儲存和轉換成電子格式為特征。大量的商業數據以雜亂無章的文本形式儲存。

據美林公司(Merrill Lynch)和高德納公司(Gartner)聯合進行的一項調查表明,85%的企業數據或多或少是以無序的方式收集儲存的。同時,調查聲稱這些雜亂無章的數據每18個月增長一倍。

當今商界奉行“知識就是力量”,知識來源于數據和信息,若企業能夠高效且有效地挖掘文本數據背后的資源,就能夠做出更好的決策。文本挖掘(在文本數據庫也稱文本數據挖掘或者知識發現)是從大量無結構的數據中提煉出模式(也就是有用的信息和知識)的半自動化處理過程。請注意,數據挖掘是從有結構的數據庫中鑒別出有效的、新穎的、可能有用的并最終可理解的模式。在這個有結構的數據庫中,分類的、順序的或者連續型變量構建起記錄,數據在這些記錄下進行組織。文本挖掘數據挖掘的共同之處在于,它們都為了同樣的目標,使用同一處理方式,不同之處在于文本挖掘流程中“輸入”一項是一堆雜亂無章的(或者說是未經整理的)數據文件,比如Word、PDF、本文文檔摘錄、XML文件等。在大量數據產生的領域,文本挖掘的益處尤為突出。信息提取。通過模式匹配尋找出文本中先定的物件和序列,文本挖掘能夠鑒別文本中主要的短語和關系。最常見的信息提取形式大概就是“實體抽取”。命名實體抽取包括命名實體識別(利用現有對域的知識,進行已知實體名稱的識別,包括:人、企業、地點的名字、時間表達式以及某些數值表達式)、指代消解(檢測文本實體間的同指代和回指代聯系)、關系抽?。ㄨb別實體間的關系)。

話題跟蹤。根據用戶瀏覽的文件記錄,文本挖掘可以預測用戶可能喜歡的其他文本。

總結。文本挖掘可以為讀者總結文本概要,節省閱讀時間。

分類。文本挖掘能夠發現穩當的主題,并歸置在預先制定的類別之下。

聚類。文本挖掘可以在沒有預先制定的類別時歸類相似的文檔。

概念銜接。文本挖掘可以鑒別文檔的共享概念,從而把相關的文檔連接在一起。用戶由此可以找到傳統搜索方法無法發現的信息。

答疑。通過知識驅動的模式匹配,文本挖掘可以找出問題的最佳答案。

文本挖掘有自己的語言體系,包括多種多樣的術語和縮略詞。非結構化數據。結構化數據有其預設的格式,常和簡單的數據數值(分類的、順序的或者連續型變量)一同被組織進入記錄并儲存在數據庫。語料庫。在語言學中,語料庫是一個大型的結構化文本的集合(現在一般是以電子形式儲存和處理),用作知識發現的工具。術語。術語是由在一個特定域的語料庫中,通過自然語言處理提取的單詞或者多詞短語。概念。概念是通過人工、統計、規則導向或者多種混合的分類方法,從一系列文檔中生成的特征。與術語相比,生成概念需要更高層次的抽象。詞干提取。詞干提取是將屈折詞簡化到詞干(或者詞根)的處理方式。比如,stemmer,stemming和stemmed都來自stem。停用詞。停用詞(也稱為“干擾詞”),是在自然語言處理之前或者之后被過濾掉的單詞。停用詞沒有統一的清單,大多數自然語言處理工具將冠詞(如a,am,the,of等),助動詞(如is,are,was,were等)以及只在上下文中有意義,不具有區分價值的詞視作停用詞。

同義詞和多義詞。同義詞是在句法上不同(也就是拼寫不一樣),但是意思一致或者相似的詞語。相反地,多義詞或者“同形異義詞”,是句法上一致,但意義不同(例如bow,有鞠躬、船頭、蝴蝶結等多個意思)。

標記化。標記是句子中已分類的文本塊。根據功能的不同,與標記對應的文本塊被分門別類,這一與意義相關的過程被稱為“標記化”。只要對結構化文本有意義,標記可以是任何形式的。

術語詞典。術語詞典是一個小而專的領域里的術語集合,可以控制從語料庫中提取的字詞。

詞頻。詞頻就是一個單詞在某文本中出現的次數。

詞性標注。詞性標注就是根據單詞的意思和它在上下文的用法標記詞性(是名詞、動詞、形容詞還是副詞)。

形態學。形態學是語言學的一個分支,是自然語言處理的一部分,它研究的是詞語的內部結構。

術語-文本矩陣。常用來呈現術語和文本間基于頻率的關系,以表格的形式表現,行表示術語,列表示文本,術語和文本間的頻率以整數形式填在每個格里。

奇異值分解(也稱為潛在語義索引)。是一種將術語——文本矩陣轉化到可操作大小的降維手段。它利用一種與主成分分析法類似的矩陣控制法來生成中等大小的術語——文本頻率表現形式。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢