
機器學習和文本分析_數據分析師
當計算機更好地理解了自然語言,新的領域不斷被開創,例如:用戶應用的人機界面的提升,更為完善搜素引擎,Cortana和Siri這樣的個人助理和一些分析給定文獻的工具。例如,一個新聞網站如果能夠將文章里提到的人使用算法鏈接到維于文本中額外信息的利用,用戶能夠輕易分別文章所講的顯著實體(如:運動員,球隊等),如圖1所示:
圖1 文本分析的愿景
文本分析一直是科學研究較為活躍的領域。畢竟創造所有人類知識(文本表示)不是一項輕松的工作。90年代至今的早期工作,包括Brill標簽器[1]的工作確定了句子中的部分詞性,[2]的工作也對新工作有一定的啟示。微軟研究院一直熱衷于在科學領域創造新的想法,但是我們又進一步將新科技落到實處,創造出了產品級別的技術。
在這篇博客通訊中,我們簡要展示了人工智能技術如何通過利用命名實體識別(NER)技術應用于文本分析。作為一個提供完整并可直接使用的機器學習功能的平臺,Microsoft Azure ML包含了文本分析的基本能力,并且特別支持了NER–因此我們可以將籠統的概念與具體的設計選擇聯系起來。
NER是將文本與人、地點、組織、運動隊伍等進行參照的技術。讓我們概覽一下如何利用“有監督學習”解決這個問題:
圖2 命名實體識別流程圖
在設計時間或“學習時間”,系統會利用訓練數據創造一個學習任務的“模型”。這種方法從小部分例子中概化來處理任意新文本。
訓練數據包括了人類標注的被學習的命名實體的標簽。這看起來就像:“當Chiris Bosh超常發揮,邁阿密熱火隊將變得強大無比”。這個模型預期能夠從自然的例子中學習,訓練得能夠從新輸入的文本中識別運動員實體和隊名實體。
設計時間流程的效果取決于特征提取階段–一般而言,特征提取越多,模型越強大。比如在一個文本中和一個詞相關的局部語句[比如,前k個詞和后k個詞]是我們人類用來將詞和實體聯系起來的強大特征。例如,在句子“San Francisco beat the Cardinals in an intense match yesterday”,很顯然句子中提到的“San Francisco”指一個運動隊而不是地名舊金山。字母大寫是識別命名實體例如文中出現的人、地點的又一實用特征。
模型訓練就是機器學習做的事,如:產生一個好的模型。一般而言,特征的選擇是一個復雜的組合過程。有許多可以用的機器學習技術,包括感知元(Perceptron)、條件隨機場(Conditional Random Fields)等。技術的選擇依賴于使用有限訓練數據的模型精確性、處理的素的和能夠被自動學習的命名實體數量。例如,Azure ML NER模塊默認支持三種類型實體:人、地點和組織。
運行時間流程的目標是輸入未標記文本并且產生被創建出的模型在設計時間識別的相應的輸出文本。正如人們能夠觀察到的一樣,運行時間流程從設計時間流程服用了特征提取模塊–因此,如果對于一個應用高效徹底的實體識別是必須的話,必須在運行進程中提供相對輕量的高值特性。作為一個說明性的例子,Azure ML NER模塊使用了一小部分容易計算的、主要基于本地文本的特性,事實證明也十分有效。處理過程中產生的歧義通常利用Viterbi的工具解決,將實體標簽分配給一系列輸入單詞。
值得注意的是,NER只是開始,但是卻是從原始文本中捕獲“知識”的重要一步。最近的博客通訊描述了NER加上一系列相關技術是如何提升Bing體育app的體驗的–非常相似的NER棧也可供你在Azure ML中使用。除了NER,自然語言分詞、鏈接和顯著性、情感分析、事實提取等代表了提升用戶文本相關應用體驗的重要的步驟,這是能夠幫助你使文本“生動”的額外技術。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25