熱線電話:13121318867

登錄
首頁精彩閱讀文本內容分析在網絡大數據中研究那些方向及問題
文本內容分析在網絡大數據中研究那些方向及問題
2016-02-05
收藏

文本內容分析在網絡大數據中研究那些方向及問題

文本內容分析是實現大數據的理解與價值發現的有效手段。嘗試從短文本主題建模、單詞表達學習和網頁排序學習3個子方向,探討網絡大數據文本內容分析的挑戰和研究成果,最后指出未來大數據文本內容分析的一些研究方向和問題。

1 引言

伴隨著互聯網技術的迅猛發展和普及以及用戶規模的爆發式增長,互聯網已經步入了“大數據”時代。網絡大數據的“大”,不僅僅體現在其體量巨大(大數據的起始計量單位至少是Petabyte、Exabyte或Zettabyte),而且還體現在其增長異常迅猛(通常是指數級的速率),數據類型多樣(包括了文本、圖像、聲音、視頻等),數據質量良莠不齊并且關聯關系復雜。同時,網絡大數據另外一個突出的特點就是其價值密度低,大數據中包含了大量重復、噪聲和垃圾數據,存在大量共現但又毫無意義的關聯模式,如果缺乏有效的信息處理手段提取網絡大數據中潛在的價值,網絡大數據不僅不能成為一個價值“寶藏”,反倒會成為一個數據的“墳墓”。

文本內容分析是網絡信息處理的關鍵技術。網絡大數據對于文本內容分析而言是一把雙刃劍:一方面,網絡大數據提供了需要文本分析豐富的數據源,大規模的樣本資源可以更好地支持文本分析關鍵技術的發展;另一方面,網絡大數據復雜的內在特征對傳統文本分析技術提出了嚴峻的挑戰。例如,網絡大數據越來多地存在于電商、問答等私有化網絡或者深網中,包括了結構化數據、半結構化數據和非結構化數據,數據的獲取和存儲更加困難;數據龐大的規模、復雜的關聯關系,使得傳統的文本分析和挖掘技術在計算的時空復雜度上激增;另外,迅猛的數據增長速率、巨大的數據體量也使得傳統的全量計算模式(依賴于全體樣本的計算模式)不再適用。本文從短文本主題建模、單詞表達學習和網頁排序學習3個子方向探討網絡大數據文本內容分析的挑戰和研究成果。

2 文本內容分析關鍵技術

2.1 短文本主題建模

隨著Web2.0、社交媒體和移動互聯網等技術的發展,每個網民都成為了互聯網上信息的創造者與傳播者,促使網上文本信息爆炸式增長。與此同時,互聯網上的文本內容形式也在不斷變化。從博客到輕博客和微博、從郵件到論壇和即時通信、從新聞到評論等,一個顯著的特點就是這些文本信息的長度越來越短。這是因為短文本信息編寫簡單隨意,發布更為便捷。同時,短文本信息比長文本更簡約、緊湊,能節省其他用戶閱讀消息的時間和精力。短文本信息比傳統文本信息來源要廣得多,更新頻率也快得多,大大加速了互聯網上信息產生與傳播的速度。

海量的短文本數據中蘊藏著大量有價值的信息,但也給現有文本語義分析技術帶來了新的挑戰。與長文本相比,短文本信息內部上下文信息缺乏。此外,普通用戶常常用語不規范,新詞、多義詞等比較普遍。因此,對一條短文本信息的理解要比長文本要困難得多。在以往的長文本語義分析領域,一種普遍的方法就是利用概率話題模型(如LDA[1]和PLSA[2])對文檔內部的話題結構進行建模,然后利用統計推斷手段學習出文檔集合中潛在的話題以及話題結構。這些模型的一個基本假設是文檔是話題的一個混合分布,其中每個詞來源于一個話題。當文檔長度較長時,可以較準確地根據文檔中的詞推斷出文檔的話題屬性。然而,當文檔很短(只有幾個或十幾個詞,甚至少于話題的個數)時,由于數據不足,難以準確推斷出文檔中話題混合分布的參數以及每個詞的話題屬性,從而影響話題學習的效果。

為克服短文本信息的數據稀疏性,一種簡單做法是利用外部數據(如Wikipedia、搜索結果)擴充文檔的表示,再利用現有的長文本語義建模工具處理。但這種方式的效果嚴重依賴于原短文本文檔與擴充的外部數據的相關程度。對于一些實時性強的數據(如微博),要找到合適的外部數據源是很困難的。為此,很多人嘗試利用內部數據擴充文檔的表示,如偽相關反饋、加入短語特征[3]、相關消息聚合[4]等。無論是利用外部數據擴充,還是利用內部數據擴充,都面臨著擴充數據選擇不當帶來額外噪音的風險。另外,這兩種方法并沒有從模型上帶來任何改變,只是治標不治本。另外,一些研究者[5,6]則提出一條短文本消息只包含一個話題,將短文本消息用單詞混合模型(mixture of unigrams)建模。該方式雖然可緩解參數估計時的數據稀疏性問題,但對短文本消息的建模過于簡化?,F實情況下,一條短文本消息仍然可能包含多個話題,尤其是在話題粒度較細的時候。此時,單詞混合模型無法區分。

由于短文本消息和長文本文檔顯著不同,傳統面向長文本的話題建模方法并不能簡單地套用到短文本文檔上。為了更好地對短文本進行語義建模,提出了一種新的話題建模方法——雙詞話題模型(biterm topic model,BTM)[7]。BTM和傳統基于文檔產生式建模的話題模型的最大區別是,它通過建模文檔集合中雙詞的產生來學習話題。這里,雙詞指的是在同一個上下文中共現的詞對。由于一條短文本消息很短,可以簡單地認為每條消息是一條上下文。比如在“短文本語義建?!敝?,可以抽取出3個雙詞:(“短文本”,“語義”)、(“短文本”,“建?!保?、(“語義”,“建?!保?。其直接體現了詞的共現關系,因此采用雙詞作為建模單元。直觀地講,兩個詞共現次數越多,其語義越相關,也就越可能屬于同一話題。根據這一認識,假設每個雙詞由同一個話題產生,而話題從一個定義在整個語料集合上的話題混合分布產生。與LDA相比,BTM通過直接建模雙詞(即詞共現模式)來學習話題,從而避免短文本文檔過短導致的文檔建模困難問題。二者的圖模型表示如圖1所示。實驗結果表明,BTM在短文本上的效果相比LDA等傳統方法有明顯提升,而且在長文本上的效果也不輸于LDA。

除了長度短之外,互聯網上的短文本大數據還具有規模大、更新快的特點。為此,提出了BTM的兩種在線學習算法:在線BTM(oBTM)和增量BTM(iBTM)[8]。

這兩種算法的主要思想是用最近時間段內接收到的數據來持續更新模型,而不必反復計算較久遠的歷史數據。這兩種算法不僅可以用來處理大規模流式短文本數據,其學到的模型還可以即時反映話題的動態變化,比較適合用于大規模流式短文本語義建模。在微博等互聯網應用中,短文本信息還具備很強的時效性,因此其潛在的話題結構也會劇烈變化。尤其受一些突發和熱點事件、活動的影響,每天都可能涌現出大量的突發話題。為了對微博中突發話題建模,在BTM的基礎上提出了一種突發雙詞話題模型(BBTM或Bursty BTM)[9]。BBTM的做法是利用雙詞的突發性來指導突發話題的建模。原因是雙詞的突發性可以根據其時序頻率估算出來,突發性越強、共現次數越多的雙詞,越可能來源于某個突發話題?;谶@一思想,BBTM首先將文檔集合中的話題分為突發和非突發兩類,然后將雙詞的突發性作為一個雙詞話題類別判定的先驗。在實驗驗證過程中,發現BBTM識別出來的突發話題的準確性和可讀性都顯著優于現有的啟發式方法。

盡管在短文本語義建模方向取得了一些進展,但和人對短文本信息的認知能力相比,目前的研究仍然非常初步。在該方向上,筆者認為目前值得深入探索的一些研究點如下。

(1)多源異質數據下的短文本語義建模

在大數據時代的背景下,如何廣泛利用其他數據源中的知識(如Wikipedia、開放網頁、知識庫等),進一步提高計算機短文本的理解與處理能力,是進一步提升短文本語義建模的必經之路。

(2)復雜結構語義建模

目前研究的話題模型結構都比較簡單,只有一層潛在語義結構,話題的數目也很有限。這種簡單結構的話題模型只能大概反映文本中的語義,難以準確、全面地描述文本內容。真實文本數據中的語義結構很復雜,可以考慮采用層次、圖狀等結構提升模型的表達能力。

(3)融合上下文特征的話題建模

目前的語義建模方法大多仍然局限在利用詞共現信息上。在真實的應用環境中,短文本消息還包含大量的上下文信息(如詞性、詞序等內源特征)以及作者、地點、人物關系、時間等外源特征。豐富的上下文特征對解決短文本內容稀疏性會有很大幫助。

(4)與應用結合

對短文本語義建模能力的提升最終還需要落地于具體應用中。要最大限度地提升應用效果,需要研究與具體應用相關的語義建模方法。

2.2 單詞表示學習

單詞表示一直是人工智能、自然語言處理、信息檢索等領域的一個基本核心問題。

自然語言處理等相關領域最常用的單詞表示方法是one-hot表達,將單詞表示為一個高維向量,這個向量的維度是詞表大小,其中絕大多數元素為0,只有一個維度的值為1,這個維度就代表了當前的詞。這種one-hot表達如果采用稀疏方式存儲,非常簡潔、高效,配合上最大熵、SVM、CRF等算法,已經很好地完成了NLP(natural language processing,自然語言處理)領域的各種主流任務。

但是,這種表達有著根本性的缺陷,其假設所有詞都是獨立無關的,拋棄了單詞之間的相關性。這意味著,即使是兩個同義詞,在此表達下,它們的相似度也是0,這顯然是不合理的。同時,也因為每個單詞都是一個孤立的離散單元,在許多實際問題中會遇到維度災難問題。例如語言模型中,對于一個詞匯集合為100 000的模型,即使只使用二元組,其可能的組合情況便可以達到100億種。這樣就面臨嚴重的稀疏問題,傳統的語言模型必須使用各種復雜的平滑技術來估計那些沒有在語料中出現的組合的概率。

為解決語言模型中的維度災難和稀疏問題,Bengio等人提出了神經網絡語言模型[10]。此模型將每個單詞表示為一個連續的低維稠密實數向量,這樣得到的語言模型自帶平滑,無須傳統n-gram模型中那些復雜的平滑算法。這樣的連續低維稠密實數向量叫做分布式表達(distributed representation),最早由Hinton提出[7],有別于傳統語義網絡中用一個獨立節點表示一個概念的局部表達(local representation)的方式。而其真正意義上流行開來,始于Bengio在語言模型上取得的成功?,F在,單詞的分布式表達已經廣泛應用于自然語言處理的各個方面,如機器翻譯、情感分析和詞性標注等。

使用語言模型來學習單詞表達涉及在給定前文下預測下一個單詞出現的概率,因此需要在整個詞匯集合中進行歸一化操作,這是非常耗時的一個操作。而當年Bengio的神經網絡語言模型在今天看來并不很大的語料上訓練了4個月之久,即使后來的C&W的工作,也花了兩個月時間才得到一份單詞的表達。這在更大的數據上幾乎是不可忍受的。早期的單詞分布式表達工作主要集中在如何加速訓練上面。

代表性工作有Bengio等人2005年提出的層次神經網絡模型,輸出端不再是一個平坦的softmax層,而是一個樹狀輸出,利用WordNet將一個多項分布分解為一串伯努利分布來優化[11]。AndriyMnih和Geoffrey Hinton提出Log-Bilinear模型,去掉了網絡中隱層的非線性,在此基礎上又提出hierarchical log-bilinear模型,同樣也是將模型的輸出改為層級輸出,從而加速模型的訓練,并且效果也有一定的提升[12,13]。此后,Mnih將噪聲對比估計(noise contrastive estimation,NCE)用于近似優化神經網絡語言模型中的sofmax目標函數[14]。而在這方面走得最遠的當屬目前最受關注的Mikolov等人的工作——Word2Vec。Mikolov在循環神經網絡語言模型的工作中發現,將單詞的表達學習與語言模型的學習分離開來,可以獲得很好的結果。于是提出了continuous bag-of-words(CBOW)和skip-gram(SG)兩種單詞表達學習模型[15]。這兩種模型的目標不再是學習語言模型,而是直接利用自然語言處理中的分布式假設(distributional hypothesis)來學習單詞表達。這個假設認為一個單詞的語義由其周圍的上下文決定,因此出現在相似上下文中的詞,其含義也相似。CBOW模型利用上下文單詞的表達,直接預測當前詞的表達;而SG模型則是使用當前詞預測上下文中的每一個詞。這兩種模型都可以使用哈夫曼樹或者Negative sampling加速優化。

單詞表達學習算法大體都是基于一個同樣的假設——分布式假設。其假設一個單詞的語義由其周圍的上下文決定。由于單詞之間存在橫向(syntagmatic)和縱向(paradigmatic)兩種關系,如圖2所示。其中,橫向關系主要關注的是詞與詞之間在上下文中的共現關系,是一種組合性關系;而縱向關系則關注的是詞與詞之間具有相似上下文的關系,是一種替代性關系。根據所使用的分布信息的不同,單詞表達學習方法就可以分為兩大類:基于橫向關系和基于縱向關系?,F有模型都只單獨考慮了一種關系。如隱式語義索引(latent semantic indexing,LSI),假設在文檔中共現的單詞具有相似的語義,其利用了橫向關系;而Word2Vec這類方法認為,如果兩個單詞其周圍上下文相似,則其語義相似,其利用了縱向關系。

如圖所示,如果僅僅使用橫向關系,不能得到wolf和tiger相似,這并不合理;另一方面,如果只是用縱向關系,則wolf和fierce也不相似??梢?,單獨使用任一關系,都不能很好地捕捉單詞間的關聯。在ACL2015的工作[16]提出了兩種新的單詞表達學習模型(如圖3所示),有別于現有模型只建模單詞間的橫向關系或縱向關系,以并列(PDC模型)或層次(HDC模型)的方式同時建模這兩種關系,以得到更好的單詞表達。PDC模型和HDC模型對應地擴展了Word2Vec中CBOW和HDC模型,在其基礎上,利用文檔表達來預測文檔中出現的單詞,以捕捉單詞間的橫向關系。

在單詞的類似與相似度任務上,這兩個模型均取得了state-of-the-art結果。

分布式表達的假設自身也有不足之處,比如不能很好地處理反義詞情形。因為互為反義詞的兩個詞,經常出現在同樣的上下文中,所以往往反義詞之間的相似度反而高于其他近義詞。針對此問題,主流思路都是利用外部的知識庫來輔助單詞的表達學習。這類工作的思路大體類似,都是利用外部知識庫如Wikipedia、WordNet約束單詞表達的學習過程,比如讓更新同義詞表達、限制反義詞表達等。此外,分布式表達的假設也不能很好地處理那些出現次數很少的單詞。因為這些單詞的上下文信息太少,不足以學到一個很好的表達。比較直接的辦法就是直接利用語素信息來改善單詞的表達,如果兩個單詞具有相同的詞根,則其語義相似。

另外,目前單詞的表達學習主要還是無監督的學習。因此,評價更多地集中在對單詞本身的語義表達性能,如各種word similarity和word analogy任務。然而,這些任務并不能反映單詞表達在真實的自然語言處理或者信息檢索任務中的性能,所以更應該使用真實的任務作為實驗。但這樣帶來的一個問題就是前端表達學習作為無監督學習,與后端的具體任務是脫節的。這也導致許多研究反映,雖然不同的單詞學習模型在單詞表達任務上可能性能差異很大,但是在具體實際任務中并沒有顯著差異。但如果直接根據任務設計有監督的單詞學習模型,又會面臨可用的標注數據太少的問題。一種可行的方案可能是先利用大規模數據進行無監督學習,得到初始的單詞表達,然后根據具體的監督任務調整單詞表達,以期望實現更好的應用性能。

2.3 網頁排序學習

網絡搜索引擎已經成為人們日常生活中的重要工具,在搜索引擎的各個組成部分中,排序模型直接決定了人們看到的搜索結果,因此這種模型對于搜索引擎的性能起著至關重要的作用。

在信息檢索發展的歷史上,人們提出了很多排序模型,如進行相關性排序的BM25模型[17]和語言模型[18]以及進行搜索結果多樣化的MMR[19]模型等。這些模型對推動搜索技術發展起到了一定作用,但是也存在一些問題:有的模型建立在人們對搜索問題的主觀理解之上,需要根據經驗人為設定模型參數;還有一些模型雖然可以從大量網頁中學習,不斷調整參數,但無法利用用戶的反饋信息對模型參數進行優化。由于用戶提交不同的查詢詞或者不同用戶提交相同的查詢詞都有可能代表不同的信息需求,因此僅從研究者的主觀理解或者僅從網頁數據中學習排序模型,都無法很好地解決復雜的網絡搜索問題。在這樣的背景下,近年來研究人員開始嘗試使用有監督機器學習方法,即從用戶標注或者反饋中學習最優的相關性排序模型,稱為排序學習(learning to rank)[20]。

為了學習最優的相關性排序模型,需要一個訓練數據集。該集合包含隨機抽取的查詢詞、與查詢詞有關的網頁以及這些網頁的標注。這些標注可能是由用戶顯式提供的絕對信息,如一個網頁和查詢詞是非常相關、相關還是不相關等;也可能是從搜索引擎的用戶行為中挖掘出來的相對信息,如某個網頁是否比另外一個網頁更加相關。為了從這些標注數據中學到最優的排序模型,通常需要定義3個部分:一是表征網頁信息的特征向量(如詞頻、頁面分級(PageRank)等)和網頁間關系的特征向量(如網頁相似度等);二是模型的基本形式(如線性、非線性等);三是用來控制學習過程的損失函數(它衡量了當前模型的排序結果和標注信息之間的差別)。極小化損失函數可以得到與標注數據最吻合的模型參數。經過優化的模型將用于回答新的查詢詞。給定新的查詢詞,首先通過倒排表找到包含該查詢詞的網頁,然后為每個網頁提取特征向量,并將排序模型應用到這些特征向量上,從而給每個網頁輸出一個分數,最后將網頁按照分數的降序進行排列并返回給用戶。

目前針對相關性的排序學習算法效果已經做得很好,部分算法甚至還應用到了搜索引擎的部分模塊中。然而一個好的排序不僅依賴于相關性,多樣化也是一個重要考慮。其目標在于在排序結果的頂部盡量多地展現不同子話題的網頁,因此在排序的同時需要考慮網頁間的相似度。然而,這種解決方案的難點在于傳統的排序算法都以查詢和單個文檔作為輸入,計算查詢—文檔相關性很難將文檔間的關系融入排序模型內。

為了解決上述問題,有的研究者們直接利用結構化支持向量機直接優化多樣化排序評價準則[21],樂(Yue)等[22]也利用結構化支持向量機尋找最佳文檔子集。然而,由于上述算法沒有對排序模型進行本質上的改變,模型仍然難以勝任多樣化排序任務。

朱(Zhu)等人[23]提出了關系排序學習模型R-LTR,其基本思想是:利用傳統的搜索結果多樣化模型MMR的思想,使用序列文檔選擇的方式構造文檔排序,即從序列的頂部開始,依次選擇排在每一個位置上的文檔。在每一次進行文檔選擇時,考慮查詢—文檔的相關性和當前文檔與已選擇文檔間的相似性,如圖4所示。

因此,R-LTR模型的參數分成兩個部分:第一部分為相關性參數,其對應的特征描述了與查詢—文檔之間匹配的情況和文檔的重要性等;第二部分為文檔關系參數,其對應的特征描述了文檔—文檔之間的關系,包括文檔在話題、詞等級別的相似性等。在訓練過程中,R-LTR通過最大化似然的方式進行參數估計。在TREC標注數據集合上的測試表明,在搜索結果多樣化的任務上,R-LTR能夠超過傳統的排序學習模型,取得了顯著的效果提升。

夏(Xia)等人[24]針對R-LTR算法只利用了“正例”排序(如α-NDCG=1的最佳排序)進行訓練的問題,提出了PAMM算法,其主要思想是:同時利用“正例”排序和“負例”排序進行訓練;在排序過程中直接優化多樣化排序評價準則。實驗結果表明,上述改進方法進一步改善了搜索結果多樣化的排序效果,且使得算法具有優化制定的評價準則的能力。

盡管上述各項工作取得了一定的成功,但是由于搜索結果多樣化任務本身的復雜性,且評價準則本身不連續、不可導,使得直接對其進行優化仍然存在很多困難。相關的學習算法可能無法收斂或者很容易陷入局部極值點??傮w上講,這個方向還面臨很多挑戰,需要不斷探索。另外,是否能夠利用深度學習的方法自動學習多樣性排序的特征和樣本之間的依賴關系也是一個非常有前景的方向。

3 結束語

綜上所述,內容分析成為理解網絡大數據的重要手段。其中,短文本主題建模、單詞表達學習和多樣性排序學習是網絡大數據內容分析的熱點問題。隨著網絡大數據的發展,這些方向還存在很多值得探討的科學問題,例如多源異構數據的主題建模、如何有效利用監督信息得到特定主題的單詞表達以及如何使用深度學習的方法來自動學習多樣性的特征等。這些問題的解決有助于更好地理解和挖掘網絡大數據,從而達到內容分析的目的,為精準檢索、推薦等應用提供支持。

參考文獻

[1] Hofmann T. Probabilistic latent semanticanalysis. Proceedings of the 15th Conference on Uncertainty in Artificial Intelligence, Stockholm, Sweden, 1999

[2] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation. The Journal of Machine Learning Research, 2003, 3: 993~1022

[3] Metzler D, Dumais S, Meek C. Similarity measuresfor short segments of text. Proceedings of the 29th European Conference on IR Research, Rome, Italy, 2007: 16~27

[4] Hong L, Davison B. Empirical study of topic modeling in Twitter. Proceedings of the 1st Workshop on Social Media Analytics,Washington DC, USA, 2010: 80~88

[5] Zhao W, Jiang J, Weng J, et al. Comparing Twitter and traditional media using topic models. Proceedings of the 33rd European Conference on IR Research, Dublin, Ireland, 2011: 338~349

[6] Lakkaraju H, Bhattacharya I, Bhattacharyya C.Dynamic multi-relational Chinese restaurant process for analyzing influences on users in social media. Proceedings of the 12th IEEE International Conference on Data Mining, Brussels, Belgium, 2012

[7] Yan X H, Guo J F, Lan Y Y, et al. A biterm topicmodel for short texts. Proceedings of the 22nd International Conference on World Wide Web, Rio de Janeiro, Brazil, 2013: 1445~1456

[8] Cheng X Q, Yan X H, Lan Y Y, et al. BTM: topic modeling over short texts. IEEE Transactions on Knowledge and Data Engineering,2014, 26(12): 2928~2941

[9] Yan X H, Guo J F, Lan Y Y, et al. Aprobabilistic model for bursty topic discovery in microblogs. Proceedings ofthe 29th AAAI Conference on Artificial Intelligence, Austin Texas, USA, 2015

[10] Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model. Journal of Machine Learning Research,2003, 3: 1137~1155

[11] Morin F, Bengio Y. Hierarchical probabilistic neural network language model. Proceedings of the 10th International Workshopon Artificial Intelligence and Statistics, Barbados, 2005

[12] Mnih A, Hinton G. Three new graphical models for statistical language modelling. Proceedings of the 24th International Conference on Machine Learning, New York, NY, USA, 2007: 641~648

[13] Mnih A, Hinton G E. A scalable hierarchical distributed language model. Proceedings of the 23rd Annual Conference on Neural Information Processing Systems (NIPS), Vancouver, Canada, 2009

[14] Mnih A, Kavukcuoglu K. Learning word embeddings efficiently with noise-contrastive estimation. Proceedings of the 27rd Annual Conference on Neural Information Processing Systems (NIPS), Lake Tahoe, Nevada,USA, 2013

[15] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space. Proceedings of Workshop of ICLR, Arizona, USA, 2013

[16] Sun F, Guo J F, Lan Y Y, et al. Learning word representation by jointly modeling syntagmatic and paradigmatic relations.Proceedings of the 53rd Annual Metting of the Association for Computational Linguistics, Beijing, China, 2015

[17] Robertson S E. Overview of the okapi projects.Journal of Documentation, 1997, 53(1): 3~7

[18] Zhai C, Lafferty J. A study of smoothing methods for language models applied to Ad Hoc information retrieval.Proceedings of the 24th Annual International ACM SIGIR Conference on Research & Development on Information Retrieval, New Orleans, USA, 2001: 334~342

[19] Carbonell J, Goldstein J. The use of mmr,diversity-based reranking for reordering documents and producing summaries.Proceedings of the 21st Annual International ACM SIGIR Conference on Research& Development on Information Retrieval, Melbourne, Australia, 1998: 335~336

[20] Liu T Y. Learning to Rank for Information Retrieval. New York: Springer-Verlag New York Inc, 2011

[21] Liang S S, Ren Z C, Maarten D R. Personalized search result diversification via structured learning. Proceedings of the 20th ACM SIGKDD, New York, USA, 2014: 751~760

[22] Yue Y, Joachims T. Predicting diverse subsetsusing structural svms. Proceedings of the 25th ICML, Helsinki, Finland,2008:1224~1231

[23] Zhu Y, Lan Y, Guo J, et al. Learning for search result diversification. Proceedings of the 37th Annual International ACM SIGIR Conference on Research & Development on Information Retrieval, Gold Coast,QLD, Australia, 2014: 293~302

[24] Xia L, Xu J, Lan Y Y, et al. Learning maximal marginal relevance model via directly optimizing diversity evaluation measures.Proceedings of the 38th Annual International ACM SIGIR Conference on Researchand Development in Information Retrieval, Santiago, Chile, 2015

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢