
硅谷巨頭們的大數據玩法_數據分析師
本篇將一共呈現硅谷四大不同類型的公司如何玩轉大數據,其中包括了著名FLAG中的三家(Apple在大數據這塊來說表現并不突出)。
本篇內容來自對 Evernote AI 負責人 Zeesha Currimbhoy、LinkedIn 大數據部門資深總監 Simon Zhang、前 Facebook 基礎架構工程師 Ashish Thusoo 和 Google 大數據部門一線工程師及 Google Maps 相關負責人的專訪。Enjoy~~
Evernote:今年新建AI部門劍指深度學習
Evernote的全球大會上,CEO Phil Libin提到,Evernote的一個重要方向就是“讓Evernote變成一個強大的大腦”。要實現這個目標,就不得不提他們剛剛整合改組的Augmented Intelligence團隊(以下簡稱AI team)。我在斯坦福約到AI team的manager Zeesha Currimbhoy,在此分析一下從她那里得到的一手資料。
是什么?
今年早些時候,這個2歲的數據處理團隊改組為由Zeesha帶領的Augmented Intelligence team,總共十人不到,很低調,平日幾乎聽不到聲響。他們究竟在做什么?
與我們常說的AI(artificial Intelligence)不同,Evernote的團隊名叫做Augmented Intelligence,通常情況下簡稱為IA。Zeesha顯然是這個團隊里元老級的人物:“我是在2012年加入Evernote的,直接加入到了當時剛剛建立的數據處理團隊,這也就是現在AI team的雛形。我們最開始的項目都是簡單易行的小項目,比如按照你的個人打字方式來優化用戶的輸入體驗?!?/span>
傳統意義上的AI指的是通過大量數據和算法讓機器學會分析并作出決定。而這里講到IA則是讓電腦進行一定量的運算,而終極目的是以之武裝人腦,讓人來更好的做決定。這兩個概念在具體實施中自然有不少相通之處,但是其出發點卻是完全不同的。
這個區別也是Evernote AI team的亮點所在。作為一個筆記記錄工具,Evernote與Google之類的搜索引擎相比,最大的區別就是它非常的個人化。用戶所儲存的筆記、網站鏈接、照片、視頻等都是他思維方式和關注點的體現。
從哪來?
Zeesha小組的初衷便是,通過分析用戶儲存的筆記來學習其思維方式,然后以相同的模式從第三方數據庫(也就是互聯網上的各種開源信息)抽取信息推送給用戶,從而達到幫助用戶思考的過程。從這個意義上講,Zeesha版的未來Evernote更像是一個大腦的超級外掛,為人腦提供各種強大的可理解的數據支持。
目前整個團隊的切入點是很小而專注的?!拔覀儾粌H僅是幫助用戶做搜索,更重要的是在正確的時間給用戶推送正確的信息?!?/span>
實現這個目標的第一步就是給用戶自己的筆記分類,找到關聯點。今年早些時候,Evernote已經在Mac的英文版上實行了一項叫做“Descriptive Search”的功能。用戶可以直接描述想要搜索的條目,Evernote就會自動返回所有相關信息。
例如,用戶可以直接搜索“2012后在布拉格的所有圖片”,或者“所有素食菜單”。不管用戶的筆記是怎樣分類的,Decriptive Search都可以搜索到相關的信息并且避免返回過大范圍的數據。而這還僅僅是AI team長期目標的開始,這個團隊將在此基礎上開發一系列智能化的產品。
到哪去?
不用說,這樣一個新創團隊自然也面臨這諸多方面的挑戰。當下一個比較重要的技術難點就是Evernote用戶的數據量。雖然Evernote的用戶量已經達到了一億,但是由于整個團隊的關注點在個人化分析,外加隱私保護等諸多原因,AI team并沒有做跨用戶的數據分析。
這樣做的結果就是團隊需要分析一億組各不相同的小數據組。比如,假設我只在Evernote上面存了10個筆記,那Evernote也應該能夠通過這些少量的數據來分析出有效結果。當然,這些技術的直接結果是用戶用Evernote越多,得到的個性化用戶體驗就越好。長期來講,也是一個可以增加用戶黏性的特點。
不過Zeesha也坦言:“的確,我們都知道沒有大數據就沒有所謂的智能分析。但是我們現在所做的正是在這樣的前提下來找到新的合適的算法?!彼]有深入去講目前團隊所用的是什么思路,但是考慮到這個領域一時還沒有很成功的先例,我們有理由期待在Zeesha帶領下的Evernote AI team在近期做出一些有意思的成果。
Facebook:大數據主要用于外部廣告精準投放和內部交流
Facebook有一個超過30人的團隊花了近4年的時間才建立了Facebook的數據處理平臺。如今,Facebook仍需要超過100名工程師來支持這個平臺的日常運行??上攵?,光是大數據分析的基礎設施就已經是一個耗時耗力的項目了。
Facebook的一大價值就在于其超過13.5億活躍用戶每天發布的數據。而其大數據部門經過七八年的摸索,才在2013年把部門的key foundation定位成廣告的精準投放,開始建了一整套自己的數據處理系統和團隊。并進行了一系列配套的收購活動,比如買下世界第二大廣告平臺Atlas。
據前Facebook Data Infrastructure Manager Ashish Thusoo介紹,Facebook的數據處理平臺是一個self-service, self-managing的平臺,管理著超過1Exabyte的數據。公司內部的各個部門可以直接看到處理過的實時數據,并根據需求進一步分析。
目前公司超過30%的團隊,包括工程師、Product Managers、Business Analysts等多個職位人群每個月都一定會使用這項服務。這個數據處理平臺的建立讓各個不同部門之間可以通過數據容易地交流,明顯改變了公司的運行方式。
追溯歷史,Facebook最早有大數據的雛形是在2005年,當時是小扎克親自做的。方法很簡單:用Memcache和MySQL進行數據存儲和管理。很快bug就顯現了,用戶量帶來數據的急速增大,使用Memcache和MySQL對Facebook的快速開發生命周期(改變-修復-發布)帶來了阻礙,系統同步不一致的情況經常發生?;谶@個問題的解決方案是每秒100萬讀操作和幾百萬寫操作的TAO(“The Associations and Objects”) 分布式數據庫,主要解決特定資源過量訪問時服務器掛掉的bug。
小扎克在2013年第一季度戰略時提到的最重點就是公司的大數據方向,還特別提出不對盈利做過多需求,而是要求基于大數據來做好以下三個功能:
發布新的廣告產品。比如類似好友,管理特定好友和可以提升廣告商精確投放的功能。
除與Datalogix, Epsilon,Acxiom和BlueKai合作外,以加強廣告商定向投放廣告的能力。
通過收購Atlas Advertising Suite,加強廣告商判斷數字媒體廣告投資回報率(ROI)。
LinkedIn:大數據如何直接支持銷售和變現賺錢
LinkedIn大數據部門的一個重要功用是分析挖掘網站上巨大的用戶和雇主信息,并直接用來支持銷售并變現。其最核心團隊商業分析團隊的總監Simon Zhang說,現在國內大家都在討論云,討論云計算,討論大數據,討論大數據平臺,但很少有人講:我如何用數據產生更多價值,通俗點講,直接賺到錢。
但這個問題很重要,因為關系到直接收入。四年半前LinkedIn內所有用戶的簡歷里抽取出來大概有300萬公司信息,作為銷售人員不可能給每個公司都打電話,所以問題來了:哪家公司應該打?打了后會是個有用的call?
銷售們去問Simon,他說只有通過數據分析。而這個問題的答案在沒有大數據部門之前這些決策都是拍腦袋想象的。
Simon和當時部門僅有的另外三個同事寫出了一個模型后發現:真正買LinkedIn服務的人,在決定的那個環節上,其實是一線的產品經理,和用LinkedIn在上面獵聘的那些人。但他們做決策后是上面的老板簽字,這是一個迷惑項。數據分析結果出來后,他們銷售人員改變投放策略,把目標群體放在這些中層的管理人身上,銷售轉化率瞬間增加了三倍。
那時LinkedIn才500個人,Simon一個人支持200名銷售人員。他當時預測谷歌要花10個Million美金在獵聘這一塊上,銷售人員說,Simon,這是不可能的事。
“但是數據就是這么顯示的,只有可能多不會少。我意識到,一定要流程化這個步驟?!?/span>
今天LinkedIn的“獵頭”這塊業務占據了總收入的60%。是怎么在四年里發展起來的,他透露當時建造這個模型有以下這么幾個步驟:
分析每個公司它有多少員工。
分析這個公司它招了多少人。
分析人的位置功能職位級別一切參數,這些都是我們模型里面的各種功能。然后去分析,他們內部有多少HR員工,有多少負責獵頭的人,他們獵頭的流失率,他們每天在Linkedin的活動時間是多少。
這是LinkedIn大數據部門最早做的事情。
Simon告訴36氪,公司內部從大數據分析這一個基本項上,可以不斷迭代出新產品線LinkedIn的三大商業模型是人才解決方案、市場營銷解決方案和付費訂閱,也是我們傳統的三大收入支柱。事實上我們還有一個,也就是第四個商業模型,叫“銷售解決方案”,已經在今年7月底上線。
這是賣給企業級用戶的?;氐絼偛配N售例子,LinkedIn大數據系統是一個牛逼的模型,只需要改動里面一下關鍵字,或者一個參數,就可以變成另一個產品?!拔覀兿M軒偷狡髽I級用戶,讓他們在最快的速度里知道誰會想買你的東西?!?/span>
雖然這第四個商業模式目前看來對收入的貢獻還不多,只占 1%,但anyway有著無限的想象空間,公司內部對這個產品期待很高?!拔疫€不能告訴你它的增長率,但這方向代表的是趨勢,Linkedin的B2B是一個不用懷疑的大的趨勢?!盨imon說。
Google:一個閉環的大數據生態圈
作為世界上最大的搜索引擎,Google和大數據的關系又是怎樣的呢?感謝微博上留言的朋友,這可確實是一個很有意思的議題。
Google在大數據方面的基礎產品最早是 2003 年發布的第一個大規模商用分布式文件系統GFS(Google File System),主要由MapReduce和Big Table這兩部分組成。前者是用于大數據并行計算的軟件架構,后者則被認為是現代NOSQL數據庫的鼻祖。
GFS為大數據的計算實現提供了可能,現在涌現出的各種文件系統和NOSQL數據庫不可否認的都受到Google這些早期項目的影響。
隨后2004和2006年分別發布的Map Reduce和BigTable,奠定了Google三大大數據產品基石。這三個產品的發布都是創始人謝爾蓋-布林和拉里-佩奇主導的,這兩人都是斯坦福大學的博士,科研的力量滲透到工業界,總是一件很美妙的事。
2011年,Google推出了基于Google基礎架構為客戶提供大數據的查詢服務和存儲服務的BigQuery,有點類似于Amazon的AWS,雖然目前從市場占有率上看與AWS還不在一個數量級,但價格體系更有優勢。Google通過這個迎上了互聯網公司拼服務的風潮,讓多家第三方服務中集成了BigQuery可視化查詢工具。搶占了大數據存儲和分析的市場。
BigQuery和GAE(Google AppEngine)等Google自有業務服務器構建了一個大數據生態圈,程序創建,數據收集,數據處理和數據分析等形成了閉環。
再來看Google的產品線,搜索,廣告,地圖,圖像,音樂,視頻這些,都是要靠大數據來支撐,根據不同種類數據建立模型進行優化來提升用戶體驗提升市場占有率的。
單獨說一下Google maps,這個全球在移動地圖市場擁有超過40%的市場占有率的產品,也是美國這邊的出行神器。它幾乎標示了全球有互聯網覆蓋的每個角落,對建筑物的3D視覺處理也早在去年就完成,這個數據處理的工作量可能是目前最大的了,但這也僅限于數據集中的層面。真正的數據分析和挖掘體現在:輸入一個地點時,最近被最多用戶采用的路徑會被最先推薦給用戶。
Google還把Google+,Panoramio和其他Google云平臺的圖片進行了標記和處理,將圖片內容和地理位置信息地結合在一起,圖像識別和社交系統評分處理后,Google能夠把質量比較高的的圖片推送給用戶,優化了用戶看地圖時的視覺感受。
大數據為Google帶來了豐厚的利潤,比如在美國你一旦上網就能感覺到時無處不在的Google廣告(AdSense)。當然,它是一把雙刃劍,給站長們帶來收入的同時,但如何平衡用戶隱私的問題,是大數據處理需要克服的又一個技術難關,或許還需要互聯網秩序的進一步完善去支持。
像在【上篇】中所說,除Facebook等幾個很領先的公司外,大部分公司要么還沒有自行處理數據的能力。最后附上兩個例子,想說這邊的大公司沒有獨立大數據部門也是正常的,采取外包合作是普遍現象:
Pinterest:
Pinterest曾嘗試自行通過Amazon EMR建立數據處理平臺,但是因為其穩定性無法控制和數據量增長過快的原因,最終決定改為使用Qubole提供的服務。在Qubole這個第三方平臺上,Pinterest有能力處理其0.7億用戶每天所產生的海量數據,并且能夠完成包括ETL、搜索、ad hoc query 等不同種類的數據處理方式。盡管Pinterest也是一個技術性公司,也有足夠優秀的工程師來建立數據處理團隊,他們依然選擇了Qubole這樣的專業團隊來完成數據處理服務。
Nike:
不僅僅硅谷的互聯網公司,眾多傳統企業也逐漸開始使用大數據相關技術。一個典型的例子就是Nike。Nike從2012年起與API服務公司Apigee合作,一方面,他們通過Apigee的API完善公司內部的數據管理系統,讓各個部門的數據進行整合,使得公司內部運行更加順暢、有效率。另一方面,他們也通過API開發Nike Fuel Band相關的移動產品。更是在2014年開啟了Nike+FuelLab項目,開放了相關API,使得眾多的開放者可以利用Nike所收集的大量數據開發數據分析產品,成功地連接了Nike傳統的零售業務,新的科技開發,和大數據價值。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25