更多的數據勝過更好的算法 _數據分析師-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀更多的數據勝過更好的算法 _數據分析師

更多的數據勝過更好的算法 _數據分析師

2014-11-18

收藏

Google更多的數據勝過更好的算法 _數據分析師

時下大數據的關注是越來越高，關于大數據的討論也是火熱異常。而作為玩轉大數據的巨頭之一Google對數據的重視更是非同一般，這次Google給我們帶來的是更多是數據意味著更好的語音識別。其產品研發總監Peter Norvig更認為：更多的數據勝過更好的算法!

　　Google發布的新研究論文詳述了語音識別程序幕后的數據科學，包含了語音搜索和向YouTube視頻中添加文字說明和標簽。雖然其中的算法多數人都無法掌握，但是思想卻是完全可以理解的。論文的出發點在于人們對大數據熱衷的原因及為工作選擇合適數據集的重要性。

　　Google自始至終都認為數據是越多越好，用產品研發總監Peter Norvig的話就是：更多的數據勝過更好的算法。盡管Norvig的評價中還有一些對算法的吹毛求疵，但是顯然更多的人接受了這篇論文并在大數據領域引起了熱烈的討論。模型用來學習的數據越多，模型就會變的越精確即使開始時不是最尖端的。

　　言歸正傳，下面我們來看一下更多的數據在語音識別系統的改善中所起到的作用。研究人員發現數據集和大型語言模型(維基百科對Google 研發中涉及到的n-gram模型的解釋)可以降低在收到第一個單詞時推測下一個單詞時的錯誤率。比如Google高級研究員在10月31日關于這項研究的博客中給出的例子：一個好的模型在前兩個單詞是New York時推測下一個詞時會更多的選擇pizza而不是granola。在做語音搜索時，他的團隊發現：模型的大小每增加兩個數量級就可以減少10%的關系詞錯誤率。

　　這里的關鍵在于什么類型的數據集對你的模型有益，不管它們是什么。對于搜索的測試，Google使用google.com匿名查詢的隨機樣本中抽取沒有出現拼寫校正的230個單詞。因為人們講話和寫作不同于普通的打字搜索，所以YouTube模型的數據都是來自新聞報道的錄音和大型網站上的抓取。他們寫道：單純的就語言建模而言，各種各樣的話題和口語風格讓大型網站抓取成為語言模型建立的很好選擇。

　　雖然這個研究并不一定具有突破性，但是卻道出了大數據和數據科學為什么會在今天引起這么多的注意。隨著消費者需求更智能的應用程序和更無縫的用戶體驗，每一塊數據的選擇及每一塊數據對應分析方案無疑都是重中之重!（文章來源：CDA數據分析師）

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

大數據數據分析

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇隨機森林 vs XGBoost vs 決策樹：算法選擇中的

下一篇圖論在大數據分析中的作用！

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊