熱線電話:13121318867

登錄
首頁大數據時代NLP自然語言處理基礎概念的理解與介紹
NLP自然語言處理基礎概念的理解與介紹
2020-07-13
收藏

NLP(Natural Language Processing)自然語言處理是數據科學領域的一個非常重要的分支,它包含了,以一種高效的方式去分析,理解并從文本中提取信息等重要過程,終極目標是讓計算機擁有自然語言處理交際能力。通過利用NLP及其相關組件,可以將大量的文本數據組織起來,以此來執行大量的自動化任務,并用于各種問題的解決,例如自動摘要,命名實體識別,情感分析,關系提取,語音識別、機器翻譯和主題分割等。

NLP自然語言處理和計算機語言學,這兩者在本質上是一樣的,橫跨了計算機科學、語言學、人工智能學科等學科。

一、NLP步驟

1、形態處理:

目的為:分割整個輸入的文本,形成各種符號集合。這些符號分別與段落、句子及詞匯等一一對應。

例:“uneasy”—>“un-easy”。這里“uneasy”就被分割成兩個子詞符號“un”和“easy”

2、語法分析:

目的為:a、檢查句子,確定句式是否合理;b、把句子分解成一個結構,此結構能夠將不同單詞之間的句法關系顯示出來。

例:“The school goes to the boy”這樣的會無法通過句法分析器以及句法解釋器。

3、語義分析:

確定輸入文本的準確含義,或者找出輸入文本在字典中的意思。目的為,檢查文本是否有意義。

例:“Hot ice-cream”無法通過語義分析器。

4、語用分析:

語用分析簡單地擬合實際的對象/事件,這些對象/事件存在于給定的上下文中,其中對象引用是在最后階段(語義分析)獲得的。

例如:“Put the banana in the basket on the shelf”這句話可以有兩種語義解釋:a把籃子里的香蕉放到書架上;b把香蕉放到書架上的籃子里。語用分析器能夠結合上下文在這兩種解釋之間做出選擇。

二. NLP的基本方法

1.基于規則的方法

研究人員,例如如語言學家,通過語言規律的總結,從而形成規則形態的知識庫;

研制語言處理算法,并利用這些規則處理自然語言;

結合處理結構,進行規則調整,優化處理效果。

存在的問題:并不能總結出所有規則

2.基于統計的方法

建立能夠反應語言使用狀況的語料庫;

研究人員對自然語言進行統計建模;

利用統計技術或者機器學習技術,借助語料庫來進行語言模型的訓練;

根據所得到的模型,設計相應算法對語言進行處理;

根據處理效果,優化模型,提高處理能力。

存在的問題:數據稀疏問題也就是長尾效應

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢