
硅谷觀察之大數據篇【下】:硅谷巨頭們的大數據玩法
在硅谷觀察之大數據篇的【上】篇中,我把硅谷地區大數據生長狀況基本梳理了一個相對完整的形狀出來。有朋友看了【下】的預告后在微博上給我留言說,聽說下篇要介紹一些公司的大數據部門情況,問能不能點名加個 Google 尤其是 Google Maps,因為特別想知道這個世界上最大的搜索引擎以及每天必不可少的出行神器是怎么當一個挖掘機的。
于是,上周我又去了 Google 采訪。本篇將一共呈現硅谷四大不同類型的公司如何玩轉大數據,其中包括了著名 FLAG 中的三家(Apple 在大數據這塊來說表現并不突出)。
本篇內容來自對 Evernote AI 負責人 Zeesha Currimbhoy、LinkedIn 大數據部門資深總監 Simon Zhang、前 Facebook 基礎架構工程師 Ashish Thusoo 和 Google 大數據部門一線工程師及 Google Maps 相關負責人的專訪。Enjoy~~
Evernote:今年新建AI部門劍指深度學習
Evernote 的全球大會上,CEO Phil Libin 提到,Evernote 的一個重要方向就是“讓 Evernote 變成一個強大的大腦”。要實現這個目標,就不得不提他們剛剛整合改組的 Augmented Intelligence 團隊(以下簡稱 AI team)。我在斯坦福約到 AI team 的 manager Zeesha Currimbhoy,在此分析一下從她那里得到的一手資料。
今年早些時候,這個 2 歲的數據處理團隊改組為由 Zeesha 帶領的 Augmented Intelligence team,總共十人不到,很低調,平日幾乎聽不到聲響。他們究竟在做什么?
與我們常說的 AI(artificial Intelligence)不同,Evernote 的團隊名叫做 Augmented Intelligence,通常情況下簡稱為 IA。
Zeesha 顯然是這個團隊里元老級的人物:“我是在 2012 年加入 Evernote 的,直接加入到了當時剛剛建立的數據處理團隊,這也就是現在 AI team 的雛形。我們最開始的項目都是簡單易行的小項目,比如按照你的個人打字方式來優化用戶的輸入體驗?!?/span>
傳統意義上的 AI 指的是通過大量數據和算法讓機器學會分析并作出決定。而這里講到 IA 則是讓電腦進行一定量的運算,而終極目的是以之武裝人腦,讓人來更好的做決定。這兩個概念在具體實施中自然有不少相通之處,但是其出發點卻是完全不同的。
這個區別也是 Evernote AI team 的亮點所在。作為一個筆記記錄工具,Evernote 與 Google 之類的搜索引擎相比,最大的區別就是它非常的個人化。用戶所儲存的筆記、網站鏈接、照片、視頻等都是他思維方式和關注點的體現。
Zeesha 小組的初衷便是,通過分析用戶儲存的筆記來學習其思維方式,然后以相同的模式從第三方數據庫(也就是互聯網上的各種開源信息)抽取信息推送給用戶,從而達到幫助用戶思考的過程。從這個意義上講,Zeesha 版的未來 Evernote 更像是一個大腦的超級外掛,為人腦提供各種強大的可理解的數據支持。
目前整個團隊的切入點是很小而專注的。
“我們不僅僅是幫助用戶做搜索,更重要的是在正確的時間給用戶推送正確的信息?!?/span>
實現這個目標的第一步就是給用戶自己的筆記分類,找到關聯點。今年早些時候,Evernote 已經在 Mac 的英文版上實行了一項叫做“Descriptive Search”的功能。用戶可以直接描述想要搜索的條目,Evernote 就會自動返回所有相關信息。
例如,用戶可以直接搜索“2012 后在布拉格的所有圖片”,或者“所有素食菜單”。不管用戶的筆記是怎樣分類的,Decriptive Search 都可以搜索到相關的信息并且避免返回過大范圍的數據。而這還僅僅是 AI team 長期目標的開始,這個團隊將在此基礎上開發一系列智能化的產品。
不用說,這樣一個新創團隊自然也面臨這諸多方面的挑戰。當下一個比較重要的技術難點就是 Evernote 用戶的數據量。雖然 Evernote 的用戶量已經達到了一億,但是由于整個團隊的關注點在個人化分析,外加隱私保護等諸多原因,AI team 并沒有做跨用戶的數據分析。
這樣做的結果就是團隊需要分析一億組各不相同的小數據組。比如,假設我只在 Evernote 上面存了 10 個筆記,那 Evernote 也應該能夠通過這些少量的數據來分析出有效結果。當然,這些技術的直接結果是用戶用 Evernote 越多,得到的個性化用戶體驗就越好。長期來講,也是一個可以增加用戶黏性的特點。
不過 Zeesha 也坦言:“的確,我們都知道沒有大數據就沒有所謂的智能分析。但是我們現在所做的正是在這樣的前提下來找到新的合適的算法?!彼]有深入去講目前團隊所用的是什么思路,但是考慮到這個領域一時還沒有很成功的先例,我們有理由期待在 Zeesha 帶領下的 Evernote AI team 在近期做出一些有意思的成果。
Facebook:大數據主要用于外部廣告精準投放和內部交流
Facebook 有一個超過 30 人的團隊花了近 4 年的時間才建立了 Facebook 的數據處理平臺。如今,Facebook 仍需要超過 100 名工程師來支持這個平臺的日常運行??上攵?,光是大數據分析的基礎設施就已經是一個耗時耗力的項目了。
Facebook 的一大價值就在于其超過 13.5 億活躍用戶每天發布的數據。而其大數據部門經過七八年的摸索,才在 2013 年把部門的 key foundation 定位成廣告的精準投放,開始建了一整套自己的數據處理系統和團隊。并進行了一系列配套的收購活動,比如買下世界第二大廣告平臺 Atlas。
據前 Facebook Data Infrastructure Manager Ashish Thusoo 介紹,Facebook 的數據處理平臺是一個 self-service, self-managing 的平臺,管理著超過 1 Exabyte 的數據。公司內部的各個部門可以直接看到處理過的實時數據,并根據需求進一步分析。
目前公司超過 30% 的團隊,包括工程師、Product Managers、Business Analysts 等多個職位人群每個月都一定會使用這項服務。這個數據處理平臺的建立讓各個不同部門之間可以通過數據容易地交流,明顯改變了公司的運行方式。
追溯歷史,Facebook 最早有大數據的雛形是在 2005 年,當時是小扎克親自做的。方法很簡單:用 Memcache 和 MySQL 進行數據存儲和管理。
很快 bug 就顯現了,用戶量帶來數據的急速增大,使用 Memcache 和 MySQL 對 Facebook 的快速開發生命周期(改變 - 修復 - 發布)帶來了阻礙,系統同步不一致的情況經常發生?;谶@個問題的解決方案是每秒 100 萬讀操作和幾百萬寫操作的 TAO(“The Associations and Objects”) 分布式數據庫,主要解決特定資源過量訪問時服務器掛掉的 bug。
小扎克在 2013 年第一季度戰略時提到的最重點就是公司的大數據方向,還特別提出不對盈利做過多需求,而是要求基于大數據來做好以下三個功能:
LinkedIn:大數據如何直接支持銷售和變現賺錢
LinkedIn 大數據部門的一個重要功用是分析挖掘網站上巨大的用戶和雇主信息,并直接用來支持銷售并變現。其最核心團隊商業分析團隊的總監 Simon Zhang 說,現在國內大家都在討論云,討論云計算,討論大數據,討論大數據平臺,但很少有人講:我如何用數據產生更多價值,通俗點講,直接賺到錢。
但這個問題很重要,因為關系到直接收入。四年半前 LinkedIn 內所有用戶的簡歷里抽取出來大概有 300 萬公司信息,作為銷售人員不可能給每個公司都打電話,所以問題來了:哪家公司應該打?打了后會是個有用的 call?
銷售們去問 Simon,他說只有通過數據分析。而這個問題的答案在沒有大數據部門之前這些決策都是拍腦袋想象的。
Simon 和當時部門僅有的另外三個同事寫出了一個模型后發現:真正買 LinkedIn 服務的人,在決定的那個環節上,其實是一線的產品經理,和用 LinkedIn 在上面獵聘的那些人。但他們做決策后是上面的老板簽字,這是一個迷惑項。數據分析結果出來后,他們銷售人員改變投放策略,把目標群體放在這些中層的管理人身上,銷售轉化率瞬間增加了三倍。
那時 LinkedIn 才 500 個人,Simon 一個人支持 200 名銷售人員。他當時預測谷歌要花 10 個 Million 美金在獵聘這一塊上,銷售人員說,Simon,這是不可能的事。
“但是數據就是這么顯示的,只有可能多不會少。我意識到,一定要流程化這個步驟?!?/span>
今天 LinkedIn 的“獵頭”這塊業務占據了總收入的 60%。是怎么在四年里發展起來的,他透露當時建造這個模型有以下這么幾個步驟:
這是 LinkedIn 大數據部門最早做的事情。
Simon 告訴36氪,公司內部從大數據分析這一個基本項上,可以不斷迭代出新產品線 LinkedIn 的三大商業模型是人才解決方案、市場營銷解決方案和付費訂閱,也是我們傳統的三大收入支柱。事實上我們還有一個,也就是第四個商業模型,叫“銷售解決方案”,已經在今年 7 月底上線。
這是賣給企業級用戶的?;氐絼偛配N售例子,LinkedIn 大數據系統是一個牛逼的模型,只需要改動里面一下關鍵字,或者一個參數,就可以變成另一個產品?!拔覀兿M軒偷狡髽I級用戶,讓他們在最快的速度里知道誰會想買你的東西?!?/span>
雖然這第四個商業模式目前看來對收入的貢獻還不多,只占 1%,但 anyway 有著無限的想象空間,公司內部對這個產品期待很高?!拔疫€不能告訴你它的增長率,但這方向代表的是趨勢,Linkedin 的 B2B 是一個不用懷疑的大的趨勢?!盨imon 說。
Google:一個閉環的大數據生態圈
作為世界上最大的搜索引擎,Google 和大數據的關系又是怎樣的呢?感謝微博上留言的朋友,這可確實是一個很有意思的議題。
Google 在大數據方面的基礎產品最早是 2003 年發布的第一個大規模商用分布式文件系統 GFS(Google File System),主要由 MapReduce 和 Big Table 這兩部分組成。前者是用于大數據并行計算的軟件架構,后者則被認為是現代 NOSQL 數據庫的鼻祖。
GFS 為大數據的計算實現提供了可能,現在涌現出的各種文件系統和 NOSQL 數據庫不可否認的都受到 Google 這些早期項目的影響。
隨后 2004 和 2006 年分別發布的 Map Reduce 和 BigTable,奠定了 Google 三大大數據產品基石。這三個產品的發布都是創始人謝爾蓋 - 布林和拉里 - 佩奇主導的,這兩人都是斯坦福大學的博士,科研的力量滲透到工業界,總是一件很美妙的事。
2011 年,Google 推出了基于 Google 基礎架構為客戶提供大數據的查詢服務和存儲服務的 BigQuery,有點類似于 Amazon 的 AWS,雖然目前從市場占有率上看與 AWS 還不在一個數量級,但價格體系更有優勢。Google 通過這個迎上了互聯網公司拼服務的風潮,讓多家第三方服務中集成了 BigQuery 可視化查詢工具。搶占了大數據存儲和分析的市場。
BigQuery 和 GAE(Google App Engine)等 Google 自有業務服務器構建了一個大數據生態圈,程序創建,數據收集,數據處理和數據分析等形成了閉環。
再來看 Google 的產品線,搜索,廣告,地圖,圖像,音樂,視頻這些,都是要靠大數據來支撐,根據不同種類數據建立模型進行優化來提升用戶體驗提升市場占有率的。
單獨說一下 Google maps,這個全球在移動地圖市場擁有超過 40% 的市場占有率的產品,也是美國這邊的出行神器。它幾乎標示了全球有互聯網覆蓋的每個角落,對建筑物的 3D 視覺處理也早在去年就完成,這個數據處理的工作量可能是目前最大的了,但這也僅限于數據集中的層面。真正的數據分析和挖掘體現在:輸入一個地點時,最近被最多用戶采用的路徑會被最先推薦給用戶。
Google 還把 Google+,Panoramio 和其他 Google 云平臺的圖片進行了標記和處理,將圖片內容和地理位置信息地結合在一起,圖像識別和社交系統評分處理后,Google 能夠把質量比較高的的圖片推送給用戶,優化了用戶看地圖時的視覺感受。
大數據為 Google 帶來了豐厚的利潤,比如在美國你一旦上網就能感覺到時無處不在的 Google 廣告(AdSense)。當然,它是一把雙刃劍,給站長們帶來收入的同時,但如何平衡用戶隱私的問題,是大數據處理需要克服的又一個技術難關,或許還需要互聯網秩序的進一步完善去支持。
像在【上】中所說,除 Facebook 等幾個很領先的公司外,大部分公司要么還沒有自行處理數據的能力。最后附上兩個例子,想說這邊的大公司沒有獨立大數據部門也是正常的,采取外包合作是普遍現象:
Pinterest:
Pinterest 曾嘗試自行通過 Amazon EMR 建立數據處理平臺,但是因為其穩定性無法控制和數據量增長過快的原因,最終決定改為使用 Qubole 提供的服務。在 Qubole 這個第三方平臺上,Pinterest 有能力處理其 0.7 億用戶每天所產生的海量數據,并且能夠完成包括 ETL、搜索、ad hoc query 等不同種類的數據處理方式。盡管 Pinterest 也是一個技術性公司,也有足夠優秀的工程師來建立數據處理團隊,他們依然選擇了 Qubole 這樣的專業團隊來完成數據處理服務。
Nike:
不僅僅硅谷的互聯網公司,眾多傳統企業也逐漸開始使用大數據相關技術。一個典型的例子就是 Nike。Nike 從 2012 年起與 API 服務公司 Apigee 合作,一方面,他們通過 Apigee 的 API 完善公司內部的數據管理系統,讓各個部門的數據進行整合,使得公司內部運行更加順暢、有效率。另一方面,他們也通過 API 開發 Nike Fuel Band 相關的移動產品。更是在 2014 年開啟了 Nike+ FuelLab 項目,開放了相關 API,使得眾多的開放者可以利用 Nike 所收集的大量數據開發數據分析產品,成功地連接了 Nike 傳統的零售業務,新的科技開發,和大數據價值。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25