熱線電話:13121318867

登錄
首頁精彩閱讀更多的數據勝過更好的算法 _數據分析師
更多的數據勝過更好的算法 _數據分析師
2014-11-18
收藏

Google更多的數據勝過更好的算法 _數據分析師


      時下數據的關注是越來越高,關于大數據的討論也是火熱異常。而作為玩轉大數據的巨頭之一Google對數據的重視更是非同一般,這次Google給我們帶來的是更多是數據意味著更好的語音識別。其產品研發總監Peter Norvig更認為:更多的數據勝過更好的算法!

  Google發布的新研究論文詳述了語音識別程序幕后的數據科學,包含了語音搜索和向YouTube視頻中添加文字說明和標簽。雖然其中的算法多數人都無法掌握,但是思想卻是完全可以理解的。論文的出發點在于人們對大數據熱衷的原因及為工作選擇合適數據集的重要性。

  Google自始至終都認為數據是越多越好,用產品研發總監Peter Norvig的話就是:更多的數據勝過更好的算法。盡管Norvig的評價中還有一些對算法的吹毛求疵,但是顯然更多的人接受了這篇論文并在大數據領域引起了熱烈的討論。模型用來學習的數據越多,模型就會變的越精確 即使開始時不是最尖端的。

  言歸正傳,下面我們來看一下更多的數據在語音識別系統的改善中所起到的作用。研究人員發現數據集和大型語言模型(維基百科對Google 研發中涉及到的n-gram模型的解釋)可以降低在收到第一個單詞時推測下一個單詞時的錯誤率。比如Google高級研究員在10月31日關于這項研究的博客中給出的例子:一個好的模型在前兩個單詞是New York時推測下一個詞時會更多的選擇pizza而不是granola。在做語音搜索時,他的團隊發現:模型的大小每增加兩個數量級就可以減少10%的關系詞錯誤率。

  這里的關鍵在于什么類型的數據集對你的模型有益,不管它們是什么。對于搜索的測試,Google使用google.com匿名查詢的隨機樣本中抽取沒有出現拼寫校正的230個單詞。因為人們講話和寫作不同于普通的打字搜索,所以YouTube模型的數據都是來自新聞報道的錄音和大型網站上的抓取。他們寫道:單純的就語言建模而言,各種各樣的話題和口語風格讓大型網站抓取成為語言模型建立的很好選擇。

  雖然這個研究并不一定具有突破性,但是卻道出了大數據和數據科學為什么會在今天引起這么多的注意。隨著消費者需求更智能的應用程序和更無縫的用戶體驗,每一塊數據的選擇及每一塊數據對應分析方案無疑都是重中之重!(文章來源:CDA數據分析師

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢