熱線電話:13121318867

登錄
首頁精彩閱讀2016機器學習與自然語言處理學術全景圖
2016機器學習與自然語言處理學術全景圖
2017-01-09
收藏
隨著 2016 年結束,劍橋大學高級研究員 Marek Rei 對人工智能行業的 11 個主要會議和期刊進行了分析,它們包括 ACL、EACL、NAACL、EMNLP、COLING、CL、TACL、CoNLL、Sem / StarSem、NIPS 和 ICML。本次分析對目前在機器學習與自然語言處理領域的各類組織與院校的科研情況進行了對比。分析顯示,在論文數量上,卡耐基梅隆大學(CMU)高居第一位。

以下各圖所用到的信息均來自網絡,每份文件的機構組織信息都是由論文的 pdf 文件中獲取的,并不保證完全準確。

在你看完這份分析,得出自己的結論之前,請注意一個前提:論文的質量遠比數量重要,而論文質量并不在本次分析的范圍內。我們的分析來源于這樣一個動機:我們希望展示深度學習機器學習領域在過去的一年里發生了什么,大公司和院校正在做什么,希望它能夠為你提供一些幫助。

首先是 2016 年最活躍的 25 個機構:


卡耐基梅隆大學僅以一篇論文優勢擊敗谷歌。2016 年,微軟和斯坦福也發表 80 多篇論文。IBM、劍橋、華盛頓大學和 MIT 都抵達了 50 篇的界線。谷歌、斯坦福、MIT 以及普林斯頓大學明顯關注的是機器學習領域,論文發表幾乎都集中在了 NIPS 和 ICML 上。實際上,谷歌論文幾乎占了 NIPS 所有論文的 10%。不過,IBM、北大、愛丁堡大學以及達姆施塔特工業大學(TU Darmstadt)顯然關注的是自然語言處理應用。


接下來,看看作者個人情況。

Chris Dyer 繼續他驚人的論文發表勢頭,2016 年共發表了 24 篇論文!我很好奇為什么 Chris 不發 NIPS 或 ICML,但他確實在每一個 NLP 會議都有一篇論文(除了 2016 沒有開的 EACL)。緊跟之后的是 Yue Zhang (18)、Hinrich Schütze (15)、Timothy Baldwin (14) 和 Trevor Cohn (14)。來自哈爾濱工業大學的 Ting Liu 在 COLING 上就發了 10 篇論文。Anders S?gaard 和 Yang Liu 在 ACL 上都有 6 篇論文。



下面是 2016 年最高產的第一作者:

三位研究者發表了六篇第一作者論文,他們是 Ellie Pavlick(賓夕法尼亞大學)、Gustavo Paetzold(謝菲爾德大學)和 Zeyuan Allen-Zhu(普林斯頓大學高級研究所)。Alan Akbik(IBM)發表了 5 篇第一作者論文,還有七位研究者發表了四篇第一作者論文。


另外有 42 人發表了三篇第一作者論文,231 人發布了兩篇第一作者論文。

接下來看看在時間序列上的排布,首先,在不同會議上發表的論文總數:


NIPS 一直以來每年都有一場規模很大的會議,今年看起來更是不得了。另外,COLING 今年的表現超過了預期,甚至超過了 ACL。這是自 2012 年 NAACL 和 COLING 合并以來的第一次。

下面是每個組織機構的歷年來的論文數量:


在 2015 年超過微軟之后,CMU 繼續領跑。但是谷歌也大步跨越,幾乎快追上來了。斯坦福的表現也很搶眼,后面跟著 IBM 和劍橋大學。

最后,讓我們來看看個人作者:


在圖上可以看到,Chris Dyer 有一條非常明顯的上升曲線。其他過去五年來一直保持增長的作者:Preslav Nakov、Alessandro Moschitti、Yoshua Bengio 和 Anders S?gaard。

最后,我也決定做一張關于主題建模(topic modeling)的論文的圖。首先,我提取了所有論文的純文本,將其表征化和小寫化,并移除了 stopword。接著,我使用 LDA 對其進行了處理以發現 10 個隱主題(latent topic)。然后我使用 t-SNE 可視化了最靠前的作者,并基于它們的隱主題相似度將其做成了一張二維圖。最后,我手動為每一個聚類標注了一個詞(根據 LDA 找到的排名最高的術語)。下面是前 50 位作者的可視化圖:


我也為組織機構做了一張同樣的圖,但不打算用簡單的單詞做標記,因為重點大學會在不同的子領域發表研究。你可以自行分析這些內容:


本文經機器之心授權轉載

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢