
阿里數據科技研究院:算法是大數據的核心
這兩天,阿里巴巴投入1500萬元新啟動了一個代號為“天池”的數據競賽,選手們比拼如何利用現有大數據進行淘寶女裝搭配的算法推薦、余額寶資金的流入流出預測等。其背后的推動者是被外界稱為阿里巴巴最神秘部門IDST的負責人涂子沛,著有《大數據》和《數據之巔》。
3月25日,筆者在阿里巴巴西溪園區的會議室里對涂子沛進行了獨家專訪。軍人出身的他,身上帶有一股特殊的英氣,這在IT圈里并不多見。
涂子沛去年年底從美國硅谷空降阿里巴巴出任副總裁,負責大數據的商業化創新研究。該消息引得業界廣泛關注,但這個主要由科學家組成的新部門一直未向外界揭開神秘面紗。
在阿里內部,做數據研究工作的IDST幾乎和集團的每一個BU(事業部)都有交集,這個扮演中轉站角色的部門,要如何肩負起馬云“讓數據驅動未來”的商業夢想?
做其他部門不愿做、做不了的事
IDST(InstituteofDataScience&Technologies),數據科學與技術研究院,單從名稱上看,就明顯區別于互聯網公司內部的事業部運營風格,如果把各事業部比喻成拼殺于戰場上的江湖派,那么IDST則充滿了學院風格,其員工也大多具有科學家背景。
作為負責人,涂子沛的名片上印的英文名字是Jack,和人們熟悉的JackMa(馬云)同名,其職位只寫了阿里巴巴集團副總裁,此外再沒有任何如IDST等相關名頭。
目前,這個部門大約有150名員工,分布在杭州、北京、硅谷和西雅圖兩岸四地,其中杭州有50人左右。在組織架構上,IDST分屬于阿里云;層級關系上,涂子沛向阿里巴巴集團首席技術官王堅博士匯報,王堅就是IDST這個想法的最初設計師。
事實上,IDST的三名負責人都有來頭。除了涂子沛,漆遠是普渡大學計算機系和統計系兩個系的終身教授,擅長機器學習和人工智能;金榕為美國密歇根州立大學終身教授,獲得過美國國家科學基金會獎(NSFCareerAward)。涂子沛對記者說,在分工上,漆遠帶中國團隊,金榕帶美國團隊,他負責商業和數據經濟方面的研究。
涂子沛出國前在廣州武警邊防總隊待了8年,后又在廣東省經貿部門工作兩年,其在政府方面的人脈也是馬云看中的資源。要知道去年以來,阿里云披荊斬棘般地與全國十幾個省份達成合作協議,與政府機構數據的對接對任何一個民間數據公司來說都如獲至寶。
“IDST要做阿里其他部門不愿做也做不了的事情?!边@是王堅對IDST的角色定位。何為不愿做?與那些營收增長立竿見影的業務部門相比,數據研究、機器學習、自然語言處理這些領域很難快速出成績。涂子沛也說,既然是創新部門,就沒有背負傳統的績效考核目標。何為做不了?單聽這些前沿性的研究領域就知道門檻有多高。
類似的研究室在全球有實力的科技企業中生根發芽,像谷歌大腦,即googleX實驗室,做的是人工智能、機器學習的研究,可應用到語音識別、無人汽車等領域;微軟類似的深度學習系統名叫Adam(亞當);去年5月,前“谷歌大腦”、第一個讓機器識別出“貓”的科學家吳恩達從硅谷回國,加盟百度深度學習研究院,推進人工智能研究。
從硅谷到中國,不只是科學家,大量云計算方面的高層人才正演繹著這個流動趨勢,比如從甲骨文到阿里云。涂子沛認為,這股趨勢背后說明,在大數據、云計算等前沿領域,中國與美國的差距微乎其微,越來越多的人看到了回國建功立業的機會。
每年投入1500萬元辦數據大賽
對大數據的分析和使用將對互聯網公司和用戶生活層面產生多大的改變?
去年,阿里巴巴舉辦了一次天貓算法推薦大賽,其中6名大學生組成的團隊拿走了100萬元的頭獎,他們設計的算法效率超過了阿里巴巴工程師16.9%,這套算法隨即被應用到“雙11”中,通俗地講就是讓商品推薦變得更精準,內部預計這套算法給平臺帶來了上千萬元的經濟價值,這也讓阿里見識到了外部新生力量的強大。
該項目的負責人、來自IDST部門的高級經理王一婷說,6個人中有一人即將入職阿里巴巴,一人靠這次的一炮而紅開始創業,其他人還未畢業。26日剛啟動的天池大賽與此類似,將持續一年時間,有“聯賽”的意味,去年比賽有國內外共7276支隊伍參加。
招攬人才、創新產品的商業化應用、推動大數據生態建設,這是IDST舉辦這類大賽的目的。這也得到了涂子沛的證實,他向本報記者透露,阿里每年在這個比賽上投入的資金在1500萬元左右,其中最大的花費是計算成本,阿里拿出了1000臺服務器專門提供給參賽者,項目還會對接風投,孵化選手們的創業夢想,“如果非要說這里邊有什么商業利益的話,只有參賽者的算法被應用到阿里業務中這一點?!?
這次天池大賽,選手們會圍繞3個課題施展拳腳,其中之一是淘寶女裝搭配,阿里將淘寶上的大數據脫敏后給到參賽者,后者需要設計一套算法,利用圖像識別等技術讓機器來搭配服飾,代替以往的人工挑選和搭配。當然,機器的“眼光”如何,最后還要經過消費者的評估。
還有針對資金規模高達5789億元的余額寶,選手們要做的是精準預測其未來每天的資金流入流出情況,既保證用戶的高收益,又避免大量贖回導致擠兌;此外,就是預測手機淘寶用戶的購物喜好。
而像在蝦米音樂上根據用戶的喜歡推薦音樂等課題將放到下一次大賽中去落實。
一切業務數據化,一切數據業務化,馬云最近一年在全球眾多高端場合“布道”其數據觀點。涂子沛稱,中國目前擁有的數據量占全世界的14%,預計到2020年這一比例將為21%,但數據利用率不到0.4%,數據商業化的空間以及數據經濟的未來價值已經顯現。
數據開放和數據商業化,將是未來幾年內不斷延伸的兩條交叉線。涂子沛說,以前寫書、演講,是知識傳播,這次從美國舉家搬到杭州,角色要求轉變成了知識創新,將會更有挑戰。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
2025 年,數據如同數字時代的 DNA,編碼著人類社會的未來圖景,驅動著商業時代的運轉。從全球互聯網用戶每天產生的2.5億TB數據, ...
2025-05-27CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25