
數據處理-分詞技術_數據處理技術_中文分詞技術
第一章:基礎介紹
定義:分詞技術就是搜索引擎針對用戶提交查詢的關鍵詞串進行的查詢處理后根據用戶的關鍵詞串用各種匹配方法進行的一種技術。
概述
我們要理解分詞技術先要理解一個概念。那就是查詢處理,當用戶向搜索引擎提交查詢后,搜索引擎接收到用戶的信息要做一系列的處理。步驟如下所示:
那么查詢處理又是如何工作的呢?很簡單,把用戶提交的字符串沒有超過3個的中文字,就會直接到數據庫索引詞匯。超過4個中文字的,首先用分隔符比如空格,標點符號,將查詢串分割成若干子查詢串。
舉個例子?!笆裁词前俣确衷~技術” 我們就會把這個詞分割成“ 什么是,百度,分詞技術?!边@種分詞方法叫做反向匹配法。
2.然后再看用戶提供的這個詞有沒有重復詞匯
如果有的話,會丟棄掉,默認為一個詞匯。接下來檢查用戶提交的字符串,有沒有字母和數字。如果有的話,就把字母和數字認為一個詞。
這就是搜索引擎的查詢處理。
分詞的原理
百度是如何來分詞的呢?分詞技術現今非常成熟了。分為3種技術。
字符串匹配的分詞方法
這是種常用的分詞法,百度就是用此類分詞。字符串匹配的分詞方法,又分為3種分詞方法。
(1).正向最大匹配法
就是把一個詞從左至右來分詞。
舉個例子:”不知道你在說什么”
這句話采用正向最大匹配法是如何分的呢?“不知道,你,在,說什么”。
(2).反向最大匹配法
“不知道你在說什么”反向最大匹配法來分上面這段是如何分的?!安?,知道,你在,說,什么”,這個就分的比較多了,反向最大匹配法就是從右至左。
(3).就是最短路徑分詞法。
就是說一段話里面要求切出的詞數是最少的。
“不知道你在說什么”最短路徑分詞法就是指,把上面那句話分成的詞要是最少的?!安恢?,你在,說什么”,這就是最短路徑分詞法,分出來就只有3個詞了。
(4).雙向最大匹配法。
而有一種特殊的情況,就是關鍵詞前后組合內容被認為粘性相差不大,而搜索結果中也同時包含這兩組詞的話,百度會進行正反向同時進行分詞匹配。
詞義分詞法
就是一種機器語音判斷的分詞方法。很簡單,進行句法、語義分析,利用句法信息和語義信息來處理歧義現象來分詞,這種分詞方法,現在還不成熟,處在測試階段。
統計分詞法
根據詞組的統計,就會發現兩個相鄰的字出現的頻率最多,那么這個詞就很重要。就可以作為用戶提供字符串中的分隔符,這樣來分詞。
比如,“我的,你的,許多的,這里,這一,那里”等等,這些詞出現的比較多,就從這些詞里面分開來。
第二章:中文分詞技術
一、為什么要進行中文分詞?
詞是最小的能夠獨立活動的有意義的語言成分,英文單詞之間是以空格作為自然分界符的,而漢語是以字為基本的書寫單位,詞語之間沒有明顯的區分標記,因此,中文詞語分析是中文信息處理的基礎與關鍵。
Lucene中對中文的處理是基于自動切分的單字切分,或者二元切分。除此之外,還有最大切分(包括向前、向后、以及前后相結合)、最少切分、全切分等等。
二、中文分詞技術的分類
我們討論的分詞算法可分為三大類:基于字典、詞庫匹配的分詞方法;基于詞頻度統計的分詞方法和基于知識理解的分詞方法。
第一類方法應用詞典匹配、漢語詞法或其它漢語語言知識進行分詞,如:最大匹配法、最小分詞方法等。這類方法簡單、分詞效率較高,但漢語語言現象復雜豐富,詞典的完備性、規則的一致性等問題使其難以適應開放的大規模文本的分詞處理。第二類基于統計的分詞方法則基于字和詞的統計信息,如把相鄰字間的信息、詞頻及相應的共現信息等應用于分詞,由于這些信息是通過調查真實語料而取得的,因而基于統計的分詞方法具有較好的實用性。
下面簡要介紹幾種常用方法:
1)逐詞遍歷法。
逐詞遍歷法將詞典中的所有詞按由長到短的順序在文章中逐字搜索,直至文章結束。也就是說,不管文章有多短,詞典有多大,都要將詞典遍歷一遍。這種方法效率比較低,大一點的系統一般都不使用。
2)基于字典、詞庫匹配的分詞方法(機械分詞法)
這種方法按照一定策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功。識別出一個詞,根據掃描方向的不同分為正向匹配和逆向匹配。根據不同長度優先匹配的情況,分為最大(最長)匹配和最?。ㄗ疃蹋┢ヅ?。根據與詞性標注過程是否相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法。常用的方法如下:
a、最大正向匹配法 (MaximumMatchingMethod)通常簡稱為MM法。其基本思想為:假定分詞詞典中的最長詞有i個漢字字符,則用被處理文檔的當前字串中的前i個字作為匹配字段,查找字典。若字典中存在這樣的一個i字詞,則匹配成功,匹配字段被作為一個詞切分出來。如果詞典中找不到這樣的一個i字詞,則匹配失敗,將匹配字段中的最后一個字去掉,對剩下的字串重新進行匹配處理…… 如此進行下去,直到匹配成功,即切分出一個詞或剩余字串的長度為零為止。這樣就完成了一輪匹配,然后取下一個i字字串進行匹配處理,直到文檔被掃描完為止。
其算法描述如下:
(1)初始化當前位置計數器,置為0;
(2)從當前計數器開始,取前2i個字符作為匹配字段,直到文檔結束;
(3)如果匹配字段長度不為0,則查找詞典中與之等長的作匹配處理。
如果匹配成功,
則,
a)把這個匹配字段作為一個詞切分出來,放入分詞統計表中;
b)把當前位置計數器的值加上匹配字段的長度;
c)跳轉到步驟2);
否則
a) 如果匹配字段的最后一個字符為漢字字符,
則
①把匹配字段的最后一個字去掉;
②匹配字段長度減2;
否則
①把匹配字段的最后一個字節去掉;
②匹配字段長度減1;
b)跳轉至步驟3);
否則
a)如果匹配字段的最后一個字符為漢字字符,
則 當前位置計數器的值加2;
否則當前位置計數器的值加1;
b)跳轉到步驟2)。
b、逆向最大匹配法 (ReverseMaximumMatcingMethod)通常簡稱為RMM法。RMM法的基本原理與MM法相同 ,不同的是分詞切分的方向與MM法相反,而且使用的分詞辭典也不同。逆向最大匹配法從被處理文檔的末端開始匹配掃描,每次取最末端的2i個字符(i字字串)作為匹配字段,若匹配失敗,則去掉匹配字段最前面的一個字,繼續匹配。相應地,它使用的分詞詞典是逆序詞典,其中的每個詞條都將按逆序方式存放。在實際處理時,先將文檔進行倒排處理,生成逆序文檔。然后,根據逆序詞典,對逆序文檔用正向最大匹配法處理即可。
由于漢語中偏正結構較多,若從后向前匹配,可以適當提高精確度。所以,逆向最大匹配法比正向最大匹配法的誤差要小。統計結果表明 ,單純使用正向最大匹配的錯誤率為 1/16 9,單純使用逆向最大匹配的錯誤率為 1/245。例如切分字段“碩士研究生產”,正向最大匹配法的結果會是“碩士研究生 / 產”,而逆向最大匹配法利用逆向掃描,可得到正確的分詞結果“碩士 / 研究 / 生產”。
當然,最大匹配算法是一種基于分詞詞典的機械分詞法,不能根據文檔上下文的語義特征來切分詞語,對詞典的依賴性較大,所以在實際使用時,難免會造成一些分詞錯誤,為了提高系統分詞的準確度,可以采用正向最大匹配法和逆向最大匹配法相結合的分詞方案(即雙向匹配法,見(四)。)
C、最少切分法:使每一句中切出的詞數最小。
D、雙向匹配法:將正向最大匹配法與逆向最大匹配法組合。先根據標點對文檔進行粗切分,把文檔分解成若干個句子,然后再對這些句子用正向最大匹配法和逆向最大匹配法進行掃描切分。如果兩種分詞方法得到的匹配結果相同,則認為分詞正確,否則,按最小集處理。
3). 全切分和基于詞的頻度統計的分詞方法
基于詞的頻度統計的分詞方法是一種全切分方法。在討論這個方法之前我們先要明白有關全切分的相關內容。
全切分
全切分要求獲得輸入序列的所有可接受的切分形式,而部分切分只取得一種或幾種可接受的切分形式,由于部分切分忽略了可能的其他切分形式,所以建立在部分切分基礎上的分詞方法不管采取何種歧義糾正策略,都可能會遺漏正確的切分,造成分詞錯誤或失敗。而建立在全切分基礎上的分詞方法,由于全切分取得了所有可能的切分形式,因而從根本上避免了可能切分形式的遺漏,克服了部分切分方法的缺陷。
全切分算法能取得所有可能的切分形式,它的句子覆蓋率和分詞覆蓋率均為100%,但全切分分詞并沒有在文本處理中廣泛地采用,原因有以下幾點:
1)全切分算法只是能獲得正確分詞的前提,因為全切分不具有歧義檢測功能,最終分詞結果的正確性和完全性依賴于獨立的歧義處理方法,如果評測有誤,也會造成錯誤的結果。
2)全切分的切分結果個數隨句子長度的增長呈指數增長,一方面將導致龐大的無用數據充斥于存儲數據庫;另一方面當句長達到一定長度后,由于切分形式過多,造成分詞效率嚴重下降。
基于詞的頻度統計的分詞方法:
這是一種全切分方法。它不依靠詞典,而是將文章中任意兩個字同時出現的頻率進行統計,次數越高的就可能是一個詞。它首先切分出與詞表匹配的所有可能的詞,運用統計語言模型和決策算法決定最優的切分結果。它的優點在于可以發現所有的切分歧義并且容易將新詞提取出來。
4).基于知識理解的分詞方法。
該方法主要基于句法、語法分析,并結合語義分析,通過對上下文內容所提供信息的分析對詞進行定界,它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷。這類方法試圖讓機器具有人類的理解能力,需要使用大量的語言知識和信息。由于漢語語言知識的籠統、復雜性,難以將各種語言信息組織成機器可直接讀取的形式。因此目前基于知識的分詞系統還處在試驗階段。
5).一種新的分詞方法
并行分詞方法:這種分詞方法借助于一個含有分詞詞庫的管道進行 ,比較匹配過程是分步進行的 ,每一步可以對進入管道中的詞同時與詞庫中相應的詞進行比較 ,由于同時有多個詞進行比較匹配 ,因而分詞速度可以大幅度提高。這種方法涉及到多級內碼理論和管道的詞典數據結構。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25