熱線電話:13121318867

登錄
首頁精彩閱讀如何通過數據挖掘手段分析網民的評價內容
如何通過數據挖掘手段分析網民的評價內容
2017-05-05
收藏

如何通過數據挖掘手段分析網民的評價內容

近年來微博等用戶自媒體的爆炸式增長,使得利用計算機挖掘網民意見不但變得可行,而且變得必須。這其中很重要的一項任務就是挖掘網民意見所討論的對象,即評價對象。本文概覽了目前主流的提取技術,包括名詞短語的頻繁項挖掘、評價詞的映射、監督學習方法以及主題模型方法。目前抽取的問題在于中文本身的特性、大數據等。

引言 

隨著互聯網信息的不斷增長,以往的信息缺乏消失了。但海量的數據造成的后果是,人們越來越渴望能在快速地在數據汪洋中尋找屬于自己的一滴水,新的信息缺乏誕生。對于電子商務來說,消費者希望能從眾多的商品評論獲得對商品的認識,進而決定是否購買,商家則希望從評論中獲得市場對商品的看法,從而更好地適應用戶的需求。類似的情況相繼出現在博客、微博、論壇等網絡信息聚合地。為了解決信息過載與缺乏的矛盾,人們初期手動地對網上海量而豐富的資源進行收集和處理,但瞬息萬變的網民意見,突發的話題爆發很快讓人手捉襟見肘。工程師們慢慢將開始利用計算機自動地對網絡信息進行處理,意見挖掘由此應運而生。目前意見挖掘主要的研究對象是互聯網上的海量文本信息,主要的任務包括網絡文本的情感極性判別、評價對象抽取、意見摘要等。近年來,機器學習的發展讓人們看到了意見挖掘的新希望。意見挖掘的智能化程度正在逐步提高。 評價對象(Opinion Targets)是指某段評論中所討論的主題,具體表現為評論文本中評價詞語所修飾的對象。如新聞評論中的某個人物、事件、話題,產品評論中某種產品的組件、功能、服務,電影評論中的劇本、特技、演員等。由于蘊含著極大的商業價值,所以現有的研究大部分集中于產品領域的評價對象的抽取,他們大多將評價對象限定在名詞或名詞短語的范疇內,進而對它們作進一步的識別。評價對象抽取是細粒度的情感分析任務,評價對象是情感分析中情感信息的一個重要組成部分。而且,這項研究的開展有助于為上層情感分析任務提供服務。因而評價對象抽取也就成為某些應用系統的必備組件,例如:

觀點問答系統,例如就某個實體X,需要回答諸如“人們喜不喜歡X的哪些方面?”這樣的問題。

推薦系統,例如系統需要推薦那些在某個屬性上獲得較好評價的產品

觀點總結系統,例如用戶需要分別查看對某個實體X就某個方面Y的正面和負面評價。如圖1所示為淘寶上某秋季女裝的評價頁面的標簽。

圖1:淘寶新款秋季女裝的評價簡述。其中“款式”、“材質”和“顏色”就是評價對象,紅色表示對女裝的正面評價,靛色表示負面評價。

這些任務的一個公共之處是,系統必須能夠識別評論文本討論的主題,即評價對象。評價對象作為意見挖掘的一個基本單元,一直是自然語言處理的熱點。文章接下來將討論評價對象抽取的研究現狀。首先從名詞的頻率統計出發,闡述抽取評價對象的早期方法,然后在考慮評價對象與評價詞的關系的基礎上,討論如何利用評價詞發現已經出現和隱藏的評價對象、接著敘述經典的監督學習方法(隱馬爾可夫方法和條件隨機場)的優劣,最后詳述了主題模型在評價對象抽取上的應用和展現。

研究現狀

評價對象抽取屬于信息抽取的范疇,是將非結構文本轉換為結構化數據的一種技術。目前評價對象的抽取主要用于網絡文本的意見挖掘。長如博客,短如微博都可以作為評價對象的抽取對象。在特定的情感分析環境下,所抽取的文本所處的領域往往能簡化抽取的難度。一個最重要的特征就是文本中的名詞。提取文本所描述的評價對象,并進一步地提取與評價對象相關的評價詞,對于文本的自動摘要、歸納和呈現都有非常重要的意義。但需要注意的是評價詞與評價對象的提取并沒有什么先后關系,由于評價詞與評價對象的種種聯系。實踐中往往會利用評價對象與評價詞之間的特定映射來抽取信息。例如“這輛車很貴”中的“貴”是一個評價詞(情感詞),其評價的對象是車的價格?!百F”和“便宜”往往是用來描述商品的價格的。即使文本中沒有出現“價格”,但依然可以判斷其修飾的評價對象。第2小節將著重討論這類隱式評價對象。前四節則探討如何挖掘在文本中已經出現的評價對象。主流的方法有四種,分別是名詞挖掘、評價詞與對象的關聯、監督學習方法和主題模型。

從頻繁的名詞開始

通過對大量商品評論的觀察,可以粗略地發現評價對象大都是名詞或者名詞短語。Hu和Liu(2004)從某一領域的大量語料出發,先進行詞性標記得到語料中的名詞,再使用Apriori算法來發現評價對象。其具體步驟如下:
1、對句子進行詞性標注,保留名詞,去掉其它詞性的詞語。每個句子組成一個事務,用于第二步進行關聯發現;

2、使用Apriori算法找出長度不超過3的頻繁詞集;

3、進行詞集剪枝,去除稀疏和冗余的詞集:

稀疏剪枝:在某一包含頻繁詞集f的句子s中,設順序出現的詞分別為,若任意兩個相鄰的詞的距離不超過3,那么就稱f在這一句子s中是緊湊的。若f至少在兩條句子中是緊湊的,那么f就是緊湊的頻繁詞集。稀疏剪枝即是去除所有非緊湊的頻繁詞集; 

冗余剪枝:設只包含頻繁詞集f,不包含f的超集的句子數目是頻繁詞集的p支持度。冗余剪枝會將p支持度小于最小p支持度的頻繁詞集去除。

這一方法盡管簡單,但卻非常有效。其原因在于人們對某一實體進行評價時,其所用詞匯是有限的,或者收斂的,那么那些經常被談論的名詞通常就是較好的評價對象。Popescu和Etzioni(2005)通過進一步過濾名詞短語使算法的準確率得到了提高。他們是通過計算名詞短語與所要抽取評價對象的分類的點間互信息(Point Mutual Information,PMI)來評價名詞短語。例如要在手機評價中抽取對象,找到了“屏幕”短語。屏幕是手機的一部分,屬于手機分類,與手機的關系是部分與整體的關系。網絡評論中常常會出現諸如“手機的屏幕…”、“手機有一個5寸的屏幕”等文本結構。Popescu和Etzioni通過在網絡中搜索這類結構來確定名詞短語與某一分類的PMI,繼而過濾PMI較低的名詞短語。

其中a是通過Apriori算法發現的頻繁名詞短語,而d是a所在的分類。這樣如果頻繁名詞短語的PMI值過小,那么就可能不是這一領域的評價對象。例如“線頭”和“手機”就可能不頻繁同時出現。Popescu和Etzioni還使用WordNet中的is-a層次結構和名詞后綴(例如iness、ity)來分辨名詞短語與分類的關系。

Blair-Goldensohn等人(2008)著重考慮了那些頻繁出現在主觀句的名詞短語(包括名詞)。例如,在還原詞根的基礎上,統計所有已發現的名詞短語出現在主觀句頻率,并對不同的主觀句標以不同的權重,主觀性越強,權重越大,再使用自定義的公式對名詞短語進行權重排序,僅抽取權重較高的名詞短語。 可以發現眾多策略的本質在于統計頻率。Ku等人(2006)在段落和文檔層面上分別計算詞匯的TF-IDF,進而提取評價對象。Scaffidi等人(2007)通過比較名詞短語在某一評論語料中出現的頻率與在普通英文語料中的不同辨別真正有價值的評價對象。Zhu等人(2009)先通過Cvalue度量找出由多個詞組成的評價對象,建立候選評價對象集,再從評價對象種子集出發,計算每個候選評價對象中的詞的共現頻率,接著不斷應用Bootstrapping方法挑選候選評價對象。Cvalue度量考慮了多詞短語t的頻率f(t)、長度|t|以及包含t的其它短語集合。

評價詞與對象的關系 評價對象與評價意見往往是相互聯系的。它們之間的聯系可以被用于抽取評價對象。例如情感詞可以被用于描述或修飾不同的評價對象。如果一條句子沒有頻繁出現的評價對象,但卻有一些情感詞,那么與情感詞相近的名詞或名詞短語就有可能是評價對象。Hu和Liu(2004)就使用這一方法來提取非頻繁的評價對象,Blair-Goldenshohn等人(2008)基于情感模式也使用相似的方法。

圖2:利用評價詞發現評價對象,甚至是隱藏的評價對象

舉例來說,“這個軟件真有趣!”由于“有趣”是一個情感詞,所以“軟件”即被抽取作為評價對象。這一方法常常被用于發現評論中重要或關鍵的評價對象,因為如果一個評價對象不被人評價或者闡述觀點,那么它也就不大可能是重要的評價對象了。在Hu和Liu(2004)中定義了兩種評價對象:顯式評價對象和隱式評價對象。Hu和Liu將名詞和名詞短語作為顯式評價對象,例如“這臺相機的圖像質量非常不錯!”中的“圖像質量”,而將所有其它的表明評價對象的短語稱為隱式評價對象,這類對象需要借由評價詞進行反向推導。形容詞和動詞就是最常見的兩種推導對象。大多數形容詞和動詞都在描述實體屬性的某一方面,例如“這臺相機是有點貴,但拍得很清晰?!薄百F”描述的是“價格”,“拍”和“清晰”描述的是“圖像質量”。但這類評價對象在評論中并沒有出現,它隱含在上下文中。

圖3:依存句法示例

如果評價詞所對應的評價對象出現在評論中,評價詞與評價對象之間往往存在著依存關系。Zhuang等人(2006)、Koaryashi等人(2006)、Somasundaran和Wiebe(2009)、Kessler和Nicolov(2009)通過解析句子的依存關系以確定評價詞修飾的對象。Qiu等人(2011)進一步將這種方法泛化雙傳播方法(double-propagation),同時提取評價對象和評價詞。注意到評價對象可能是名詞或動詞短語,而不只是單個詞,Wu等人(2009)通過句子中短語的依存關系來尋找候選評價對象,再然后通過語言模型過濾評價對象。 盡管顯式評價對象已經被廣泛地研究了,但如何將隱式評價對象映射到顯式評價對象仍缺乏探討。Su等人(2008)提出一種聚類方法來映射由情感詞或其短語表達的隱式評價對象。

這一方法是通過顯式評價對象與情感詞在某一句子中的共現關系來發現兩者的映射。Hai等人(2011)分兩步對共同出現的情感詞和顯式評價對象的關聯規則進行挖掘。第一步以情感詞和顯式評價對象的共現頻率為基礎,生成以情感詞為條件,以顯式評價對象為結果的關聯規則。第二步對關聯規則進行聚類產生更加魯棒的關聯規則。

監督學習方法 

評價對象的抽取可以看作是信息抽取問題中的一個特例。信息抽取的研究提出了很多監督學習算法。其中主流的方法根植于序列學習(Sequential Learning,或者Sequential Labeling)。由于這些方法是監督學習技術,所以事先需要有標記數據進行訓練。目前最好的序列學習算法是隱馬爾可夫模型(Hidden Markov Model,HMM)和條件隨機場(Conditional Random Field,CRF)。Jin和Ho等人使用詞匯化的HMM模型來學習抽取評價對象和評價詞的模式。Jakob和Gurevych則在不同領域上進行CRF訓練,以獲得更加領域獨立的模式,其使用的特征有詞性、依存句法、句距和意見句。Li等人(2010)整合了Skip-CRF和Tree-CRF來提取評價對象,這兩種CRF的特點在于其既能學習詞序列,也能發現結構特征。除了這兩種主流的序列標注技術外。Kobayashi等人(2007)先使用依賴樹發現候選評價對象和評價詞對,接著使用樹狀分類方法去學習這些候選對,并對其分類。分類的結果就在于判斷候選對中的評價對象與評價詞是否存在評價關系。分類所依據的特征包括上下文線索、共現頻率等。Yu等人(2011)使用單類SVM(one-class SVM,Manevitz和Yousef,2002)這一部分監督學習方法來提取評價對象。單類SVM的特點在于其訓練所需的樣本只用標注某一類即可。他們還對相似的評價對象進行了聚類,并根據出現的頻率和對評論評分的貢獻進行排序,取得較優質的評價對象。Kovelamudi等人(2011)在監督學習的過程中加入了維基百科的信息。 

圖4:評價對象標注示例,進而可用于序列學習

雖然監督學習在訓練數據充足的情況下可以取得較好的結果,但其未得到廣泛應用的原因也在于此。在當前互聯網信息與日俱增的情況下,新出現的信息可能還未來得及進行人工標記成為訓練語料,就已經過時了。而之前標記過的語料又將以越來越快的速度被淘汰。盡管不斷涌現出各種半監督學習方法試圖彌補這一缺憾,但從種子集開始的遞增迭代學習會在大量訓練后出現偏差,而后期的人工糾偏和調整又是需要大量的工作,且維護不易。有鑒于此,雖然學術界對在評價對象抽取任務上使用監督學習方法褒貶不一,但在工業界的實現成果卻不大。

主題模型(Topic Model) 

近年來,統計主題模型逐漸成為海量文檔主題發現的主流方法。主題建模是一種非監督學習方法,它假設每個文檔都由若干個主題構成,每個主題都是在詞上的概率分布,最后輸出詞簇的集合,每個詞簇代表一個主題,是文檔集合中詞的概率分布。一個主題模型通常是一個文檔生成概率模型。目前主流的主題模型有兩種:概率潛在語義模型(Probabilistic Latent Semantic Analysis,PLSA)和潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)。Mei等人(2007)提出了一種基于pLSA的聯合模型以進行情感分析,這一模型的特點在于是眾多模型的混合,包括主題模型,正面情感模型和負面情感模型。如此多的模型自然是需要較多數據進行學習。這之后的其它模型大多是利用LDA挖掘評價對象。

圖5:LDA示例

從技術上講,主題模型是基于貝葉斯網絡的圖模型。但卻可以被擴展用于建模多種信息。在情感分析中,由于每種意見都包含一個評價對象,那么就可以使用主題模型進行建模。但主題與評價對象還是有些不同的,主題同時包含了評價對象和情感詞。就情感分析來說需要被分割這兩者。這可以通過同時對評價對象和情感詞建模來完成。還需注意的是主題模型不僅能發現評價對象,還能對評價對象進行聚類。

Titov和McDonald(2008)開始發現將LDA直接應用全局數據可能并不適用于識別評價對象。其原因在于LDA依靠文檔中詞共現程度和主題分布的不同來發現主題及其詞概率分布。然而,某一商品下的評論往往都是同質的,也就是都是在討論同一個商品,這使得主題模型在挖掘評價對象上表現不好,僅能在發現實體上發揮些余熱(不同品牌和產品名稱)。Titov和McDonald因此提出了多粒度主題模型。在全局數據上利用主題模型發現討論實體,與此同時也將主題模型應于文檔中的連續的數條句子。發現得到的某一類評價對象實際上是一個一元語言模型,即詞的多項分布。描述相同評價對象的不同詞被自動聚類。然而這一方法并沒有將其中的評價詞(情感詞)加以分離。

通過擴展LDA,Lin和He(2009)提出了一個主題和情感詞的聯合模型,但仍未顯式地分開評價對象和評價詞。Brody和Elhadad(2010)認為可以先使用主題模型識別出評價對象,再考慮與評價對象相關的形容詞作為評價詞。Li等人(2010)為了發現評價對象及其褒貶評價詞,提出了Sentiment-LDA和Dpeendency-sentiment-LDA兩種聯合模型,但既沒有獨立發現評價對象,也沒有將評價對象與評價詞分開。Zhao等人(2010)提出MaxEnt-LDA(Maximum Entrpy LDA)來為評價對象和評價詞聯合建模,并使用句法特征輔助分離兩者。他們使用多項分布的指示變量來分辨評價對象、評價詞和背景詞(即評價對象和評價詞以外的詞),指示變量使用最大熵模型來訓練其參數。Sauper等人(2011)則試圖通過加入HMM模型達到區分評價對象、評價詞和背景詞的目的。但他們只應用在文本的短片段里。這些短片段是從評價論中抽取出的,例如“這電池正是我想要的”。這與Griffiths等(2005)于2005年提出的HMM-LDA頗有異曲同工之妙。Mukherjee和Liu(2012)從用戶提供的評價對象種子集開始,應用半監督聯合模型不斷迭代,產生貼近用戶需要的評價對象。聯合模型的其它改進見于Liu等人(2007),Lu和Zhai(2008)和Jo和Oh(2011)。

在數據量巨大的情況下,抽取得到的評價對象往往也比較多。為了發現較為重要的評價對象,Titov和McDonald(2008)在從評論中找出評價對象的同時,還預測用戶對評價對象的評價等級,并且抽取部分片段作為等級參考。Lu等人(2009)利用結構pLSA對短文本中各短語的依賴結構進行建模,并結合短評論的評價等級預測評論對象的評價等級。Lakkaraju等人在HMM-LDA(Griffiths等人,2005)的基礎上提出了一系列同時兼顧在詞序列和詞袋的聯合模型,其特點在于能發現潛在的評價對象。他們與Sauper等人(2011)一樣都考慮了句法結構和語義依賴。同樣利用聯合模型發現和整理評價對象,并預測評價等級的還有Moghaddam和Ester(2011)。 在實際應用中,主題模型的某些缺點限制了它在實際情感分析中的應用。其中最主要的原因在于它需要海量的數據和多次的參數微調,才能得到合理的結果。另外,大多數主題模型使用Gibbs采樣方法,由于使用了馬爾可夫鏈蒙特卡羅方法,其每次運行結果都是不一樣的。主題模型能輕易地找到在海量文檔下頻繁出現的主題或評價對象,但卻很難發現那些在局部文檔中頻繁出現的評價對象。而這些局部頻繁的評價對象卻往往可能與某一實體相關。對于普通的全局頻繁的評價對象,使用統計頻率的方法更容易獲得,而且還可以在不需要海量數據的情況下發現不頻繁的評價對象。也就是說,當前的主題建模技術對于實際的情感分析應用還不夠成熟。主題模型更適用于獲取文檔集合中更高層次的信息。盡管如此,研究者們對主題建模這一強大且擴展性強的建模工具仍抱有很大期望,不斷探索著。其中一個努力的方向是將自然語言知識和領域知識整合進主題模型(Andrzejewski和Zhu,2009;Andrejewski等人,2009;Mukherjee和Liu,2012;Zhai等人,2011)。這一方向的研究目前還過于依賴于統計并且有各自的局限性。未來還需要在各類各領域知識間做出權衡。

其他方法

除了以上所談的主流方法外,某些研究人員還在其它方法做了嘗試。Yi等人(2003)使用混合語言模型和概率比率來抽取產品的評價對象。Ma和Wan(2010)使用中心化理論和非監督學習。Meng和Wang(2009)從結構化的產品說明中提取評價對象。Kim和Hovy(2006)使用語義角色標注。Stoyanov和Cardie(2008)利用了指代消解。

總結 

大數據時代的到來不僅給機器學習帶來了前所未有的機遇,也帶來了實現和評估上的各種挑戰。評價對象抽取的任務在研究初期通過名詞的頻率統計就能大致得到不錯的效果,即使是隱含的對象也能通過評價詞的映射大致摸索出來,但隨著比重越來越大的用戶產生的文本越來越口語化,傳統的中文分詞與句法分析等技術所起到的作用將逐漸變小,時代呼喚著更深層次的語義理解。諸如隱馬爾可夫和條件隨機場這樣監督學習方法開始被研究者們應用到評價對象的抽取上,在訓練數據集充足的情況下,也的確取得了較好的效果。然而僅靠人工標注數據是無法跟上當前互聯網上海量的文本數據,像LDA這樣擴展性好的無監督方法越來越受到人們的關注。但LDA目前還存在著參數多,結果不穩定等短板,而且完全的無監督方法也無法適應各種千差萬別的應用背景下。展望未來,人們希望能誕生對文本——這一人造抽象數據——深度理解的基礎技術,或許時下火熱的深度學習(Deep Learning)就是其中一個突破點。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢