
如何打造數據科學團隊,你想知道的都在這里
本文的兩位作者分別是Instacart負責數據科學業務的副總裁杰里米·斯坦利(JeremyStanley),以及技術顧問、LinkedIn前數據業務負責人丹尼爾·唐克朗(DanielTunkelang)。杰里米編寫的數據科學家招聘指南是同類作品中最為全面的。
很難相信,“數據科學家”到2008年才成為一項真正的職務頭銜。Facebook的杰夫·哈梅巴赫(JeffHammerbacher)和LinkedIn的D.J.帕蒂爾(DJ Patil)創造了這個詞語,以充分體現市場對跨學科技能的新需求。如今,市場對數據科學家的需求與日俱增,隨之而來的還有另一種需求,即如何才能壯大這些團隊。
我們兩人都親歷過數據科學的興衰,并在多家公司領導過團隊或是擔任顧問,它們屬于不同的行業,也曾處于不同的發展階段。我們看到的挑戰不僅在于如何招聘到頂尖的數據科學家,還包括如何發揮他們的功效,以及在人才競爭激烈的市場中如何留住他們。
在這篇文章中,我們解釋了為什么數據科學對許多初創公司都如此重要,公司應該何時對數據科學進行投資,如何在公司中安排數據科學的位置,以及怎樣打造一種讓數據科學蓬勃發展的文化。
首先,你想達到什么目的?
數據科學服務于兩個重要但并不相同的目標:提升用戶所使用的產品以及改進公司做出的決策。
二者的區別可能聽起來簡單,但在你打造自己的數據科學團隊時,記住它們之間的區別非常重要。下面,我們會進一步探究這兩個領域。
利用數據科學打造更好的產品
數據產品利用數據科學來提升產品表現。它們依賴一種良性循環,產品收集的數據能夠改進算法,而算法的改進又會提升用戶體驗。
在你收集到這些數據前會發生什么呢?產品的最初版本必須解決數據科學所謂的“冷啟動”問題——它必須提供“足夠好的”體驗來開啟數據收集和數據驅動的良性循環。要拿出這種足夠好的解決方案,我們要依賴產品經理和工程師。
舉例來說,當Instacart的用戶訪問網站時,我們的應用會在“再次購買”標簽下展示其最近購買的商品。這是一項用戶喜歡的功能,但它幾乎不需要用到數據科學——或者大量數據。當我們希望向用戶推薦他們之前沒有買過的產品時,數據科學就有了用武之地。這需要分析所有用戶的購買行為,找出哪些用戶是相似的,最終基于相似用戶的購買記錄來推薦產品。這就是數據科學的舞臺,利用數據創造價值,讓用戶能夠輕易發現自己可能忽視的新產品。
為了提升產品,數據科學家必須跟工程師長期密切合作。你還需要決定,是讓數據科學家獨自完成產品的提升,還是讓他們與工程師合作。兩種方式都可以,但最好將之規范化,并在整個公司內形成一種預期。否則,產品改進將難以應用到生產中,而且你會失去那些有才華的數據科學家,因為他們感到勞無所獲,遭到輕視。
利用數據科學做出更好的決策
決策科學利用數據分析和可視化技術來為業務和產品決策提供信息支持。決策者可能身在公司的任何位置——可能是需要確定優先事項的產品經理,也可能是負責公司戰略決策的高管團隊。
決策科學涵蓋的范圍很廣,但它們往往具有幾個共性:它們是公司之前沒有遇到過的新問題;它們往往是主觀性的,需要數據科學家應對未知變量和缺失的背景信息;它們是復雜的,涉及大量缺乏明確因果關系的不確定因素。與此同時,決策科學又至關重要——決策的結果是具體的,對業務有著重大影響。
以上所說的可能很像是數據分析,實際上,數據分析與決策科學之間的差異并不總是很明顯。盡管如此,決策科學不應該僅僅只是制作報表和指示板,數據科學家所做的工作不應是那種可以利用現成商業工具便可完成的工作。
LinkedIn的高管團隊利用決策科學做出了一項關鍵的業務決策,即讓用戶資料出現在搜索結果中。以往情況下,只有付費用戶才可以看到自己網絡中所有人的完整資料??梢娦缘囊巹t很復雜,LinkedIn希望簡化它們——但使用的方法不能損害公司營收。這里面的賭注是巨大的。
LinkedIn提出的可見性模式是對非付費用戶的每月用量進行限制,超出用量即停止服務。該公司的決策科學家模擬了這一改動帶來的影響,他們利用歷史行為數據來預測營收和用戶黏性可能受到的影響。分析結果表明,公司可以走出這一步。
結果,新模式不僅對公司業務產生了積極影響,也令數百萬用戶拍手稱贊,不僅如此,它還消除了產品開發過程中的一大難題。有些人對用量限制發出抱怨,但這部分人正是LinkedIn認為應該付費的用戶。
并非所有的決策都需要運用決策科學。有些決策太過瑣屑,運用數據科學所產生的成本并不值當。其他決策可能很重要,但公司可能缺乏能夠進行有效分析的數據。在這些情況下,公司需要依靠直覺和實驗來進行決策。優秀的決策科學家了解自身的局限性,并可以判斷自己的努力是否會徒勞無功或適得其反。
雖然決策科學和數據產品需要某些相同的技能,但很少有數據科學家能夠同時擅長兩個領域。決策科學依靠的是業務和產品意識、系統思維以及強大的溝通能力。而數據產品則要求機器學習知識和生產層面的工程學技能。如果你有一支小型數據科學團隊,你可能需要找到同時擅長這兩個領域的優秀人才。不過,隨著團隊規模的擴大,你將從專業分工中受益。
你是否應該投資于數據科學?
數據科學并不是適合所有人。只有當數據科學對你的成功至關重要時,你才需要對它進行投資,否則這件事就會干擾你,讓你付出高昂的代價。
在組建數據科學團隊之前,你應該問自己四個問題:
1. 你是否愿意利用數據科學為戰略決策或數據產品提供支持?
如果答案是否定的,就不要招聘數據科學家。
數據科學家可以幫你做出戰略決策,但前提是你愿意為他們營造這種氛圍。你可能不會從一開始就需要他們,但招到合適的人才需要時間——而且,他們了解公司的數據和業務也需要時間。在他們能夠利用數據科學來驅動決策之前,你需要把這些工作都做好。
數據產品可以通過提升優化程度和相關性來創造價值并取悅用戶。如果你的產品路線圖上有這些目標,你應該盡早招聘數據科學家,他們做出的設計決策能夠為你帶來長久的成功。數據科學家可以在產品設計、數據收集和系統架構方面做出重要決策,這些都是打造偉大產品的關鍵基礎。
2. 你能夠收集到所需的數據,并基于它采取行動嗎?
公司的創始工程師可以基于少量的產品和設計指導,打造出一款最小化可行產品。數據科學需要數據,而數據只有通過測量和規?;拍塬@得。推薦系統依靠監測產品來追蹤用戶行為,優化業務決策則要依靠對關鍵活動和結果進行精密的評估。
不過,僅僅收集數據是不夠的。只有在數據能夠驅動行動時,數據科學才有價值。
數據應該為產品迭代提供信息方面的支持,并驅動公司的關鍵績效指標。
數據監測需要整個公司的一致努力,要確定每款產品需要收集何種數據,同時還要建立起收集及維護這些數據的基礎設施和流程。要取得成功,數據測量需要數據科學家、工程師和產品經理通力協作,而這些都需要公司管理層的支持和投入。
同樣,數據驅動的決策也需要一種自上而下的承諾。包括首席執行官在內,公司必須利用數據來做決策,而不是誰的薪水高誰就說了算。
3. 你能從數據中挖掘出足夠多的信息,得到有意義的啟發嗎?
很多人在大數據與數據科學之間劃等號,但數據的規模并不代表著一切。數據科學的意義在于濾掉雜音,找到數據中的有用信號。
可用的信號不僅取決于數據的規模,還在于“信噪比”。
舉例來說,一款廣告產品可能從數十億次的廣告曝光中收集數據,但只有在用戶跟廣告進行互動的少數情況下,數據才承載了有用的信號。因此,大量的數據往往只能產生少量的信號。除非數據集中擁有大量信號,否則數據科學無法帶來有意義的啟發。
4. 你需要數據科學成為自己的核心競爭力嗎,還是可以外包出去?
打造一支數據科學團隊困難重重,而且代價高昂。如果你能通過外包滿足自己對數據科學的需求,你也許應該這樣做。一種選擇是利用外部咨詢團隊;而更好的選擇是利用現有解決方案,它們會利用應用程序界面來獲取數據、建立模型、實現自動化操作,并提供關鍵性的分析報告。你可能無法找到完美契合自身需求的解決方案,但如果能加速業務發展,讓核心團隊能夠聚焦于創造最大價值的領域,那么在這上面做一些妥協往往也是值得的。
在何種情況下,你需要讓數據科學成為自身的核心競爭力?如果數據科學正在解決的問題對公司的成功至關重要,那么你就不能把這些工作外包。此外,現成的解決方案往往有些死板。如果你的公司是在用一種獨特的方式解決問題(比如收集全新類型的數據,或是用全新的方法來使用數據),那么現成的解決方案可能缺乏靈活度,它將無法滿足你的需求。
你應該從何時起步?
數據科學需要基于數據進行科學分析,而大多數公司一開始并不會掌握太多數據。
在招聘數據業務主管或建立團隊之前,要確保他們有工作可做。同時,要盡早開始收集關鍵數據,這樣,數據科學團隊就能早早地發揮作用了。
如果你還沒有掌握數據,那么應該由誰來告訴你該收集什么樣的數據以及何時進行收集?此人并不一定要是數據科學家,但最好要了解不同數據集的作用,并能夠對公司的數據投資戰略做出強硬決策。如果你已經知道會在數據收集方面花費大量的時間和金錢,那么現在,或許是時候至少以最低限度的投資,招聘第一位數據科學家了。
如果你的業務是提供數據產品,那么你可能立刻就需要數據。但情況更有可能是,你的最小化可行產品不需要由數據驅動。你會根據直覺來押注,并觀察市場反應。在這種情況下,過早地投資于數據收集和數據科學將浪費你寶貴的時間和金錢,而這些資源本該用于把你的最小化可行產品推向市場。
一旦你擁有可供數據科學家處理的數據,并準備好投入大量的產品、工程和業務資源來為數據科學提供支持,你應該馬上開始組建團隊。
在公司培育一種重視數據的文化,此事宜早不宜遲。從并購到產品發布,業務決策應該基于數據而不是個人意見。盡早把數據科學引入公司,這樣做的好處之一是幫助大家形成一個觀念,即數據是最好的資產。
不過,不要僅僅因為數據科學行業很“性感”就急著去招聘。這個領域儼然已成為當下的熱門話題,因此很多人產生了一種緊迫感,想要盡快組建數據科學團隊。胸懷大志的公司急切地想招攬數據分析人才,但過早建立團隊會產生高昂的代價,不僅讓員工變得消極,還可能對企業文化產生持續的負面影響。
如果非要我們給出一則最重要的建議,那就是:在完成對最小化可行產品的驗證之后,你就可以考慮投資數據科學了。
一次成功的產品發布應該可以產生足夠的數據以供分析,而你需要跟上“數據流”的步伐,辦法就是招聘那些可以從中找到價值、并獲得啟發的人才。
數據科學在公司架構中處于什么位置?
你把數據科學放在公司架構中的哪個位置,這件事非常重要——對團隊本身,對其他部門以及對公司的整體成功來說,都是如此。目前有三種常見方案:獨立團隊,嵌入式團隊,以及整合型團隊。每一種方案都各有利弊,讓我們一一來分析。
獨立模式
在獨立模式下,數據科學團隊將成為與工程技術部門平行的獨立部門。數據科學團隊的主管將成為公司的主要領導者,通常向產品主管或工程主管報告——甚至直接向首席執行官匯報工作。
獨立模式的優勢是自主權,這種類型的數據科學團隊可以自主決定去解決自己眼中最有價值的問題。此外,獨立團隊還有一個象征性的優勢:它表明公司將數據視為一種重要資產,這將有助于公司吸引到一流人才。
決策科學團隊使用獨立模式的效果尤為明顯。盡管決策科學家會與產品團隊密切合作,但獨立性可以讓他們發出更強硬的聲音,比如告訴產品經理,他們的產品指標還不夠好,不適合發布。此外,決策科學家也能從團隊之間的溝通中獲益,既能更好地理解產品指標的相互依賴性,也能在實驗和數據分析方面實現相互分享。
這種獨立性的弊端在于邊緣化風險。隨著公司規模擴大,組成一個個產品團隊,他們往往傾向于自給自足。雖然與數據科學家的合作可以給產品團隊帶來好處,但他們不愿依賴自己無法控制的資源。他們想依靠自己把事情做好,甚至會以“研究工程師”等名目,招聘自己的數據科學家。如果產品團隊拒絕與獨立的數據科學團隊合作,那么后者就會被邊緣化,無法發揮應有作用。那時,公司就又會開始流失優秀人才。
LinkedIn最初的數據科學團隊就是獨立的,這使得他們可以在公司的多個產品上做出重要貢獻,比如更準確地找出用戶“可能認識的人”,以及檢測虛假賬號。不過,隨著LinkedIn的發展,獨立的數據科學團隊越來越難以同產品團隊協作,尤其是后者自身也招聘了具有類似技能的工程師。最終,該公司決定撤銷獨立的數據科學團隊。這也是意料之中的結果。
嵌入式模式
在嵌入式模式下,數據科學團隊負責引進人才,然后把他們派遣到公司的其他部門。公司依然會設立數據科學主管的崗位,但他(或她)更多地是扮演招聘經理和培訓師的角色。
嵌入式模式和獨立模式截然相反:它放棄了自主權來確保效用。在最理想的情況下,數據科學家會加入最需要他們的產品團隊,針對公司的一系列問題開展工作。
嵌入式模式的弊端在于,并不是所有的數據科學家都愿意放棄自主權。數據科學家的職位描述中強調創造性和主動性,而嵌入式角色往往要求他們聽命于自己所服務團隊的主管。
還有一種風險是,作為嵌入團隊的成員,數據科學家可能會覺得自己是“二等公民”——團隊主管覺得他們的職業發展和幸福感與自己無關,而直屬上司又覺得他們的工作不歸自己管。
我們看到一些公司在團隊中設置了數據科學經理一職,但這種方法奏效的前提是,公司的數據科學團隊要比較龐大才行。
在LinkedIn,丹尼爾親身體會了嵌入式模式的利與弊。實際上,決策科學團隊早已利用嵌入式模式取得了蓬勃發展。決策科學家會確保,產品團隊會基于數據信息做出決策,尤其是涉及產品發布的決策。與此同時,集中式管理促進了知識共享,也推動了員工的職業發展。但就像前面提到的,隨著公司規模不斷擴大,獨立數據產品團隊的發展會遭遇困難。最終,LinkedIn決定把數據科學工作整合到工程部門,丹尼爾轉任工程部門崗位,并擔任整合型團隊的主管,負責搜索結果的質量——這個領域尤其要求工程師和數據科學家緊密合作。
整合型模式
在整合型模式中,公司不會設立數據科學團隊。產品團隊自主招聘并管理數據科學家。
這種模式有利于公司內部的密切合作。通過讓數據科學家成為產品團隊的主要成員,整合型模式彌補了獨立模式和嵌入式模式在這方面的缺點。在整合型模式下,數據科學家、軟件工程師、設計師以及產品經理有著相同的工作目標,這增加了他們的團隊歸屬感。這樣,就可以避免團隊目標南轅北轍抑或是凝聚力不夠所導致的裂痕。
整合型模式的弊端在于,它會弱化數據科學家的身份認同感。數據科學家的身份是與自己所在的產品團隊聯系在一起,而不是一個集中的數據科學團隊。此外,這種模式也缺乏嵌入式模式的靈活性,因為你很難基于數據科學家的技能和興趣進行調崗。還有一點,整合型模式為數據科學家的職業發展設置了障礙,因為整合型團隊的主管可能不是評估或獎勵他們的最佳人選。
在Instacart,數據科學家已被完全整合到產品團隊中。這些團隊有自己的產品領域,可能是實時的訂單執行工具,也可能是用戶在購物時使用的應用,或者是搜索和推薦服務(該公司內部有15支這樣的團隊)。
每一支團隊都有工程師、數據科學家、設計師和產品經理,其中工程師和數據科學家向技術主管匯報工作——技術主管自己可能就是工程師或數據科學家。這種架構確保了工程師能夠與數據科學家密切合作,并且讓他們有權去做任何事,只要是服務于團隊目標即可。作為Instacart的數據科學副總裁,杰里米充當著數據科學家及其團隊主管的導師。他把數據科學家聚攏在一起,服務于不同的產品團隊。他還領導著整個公司的數據科學項目。
這三種模式各有利弊,你必須確定哪一種最適合自己的公司,還要想清楚你希望它今后如何發展。隨著需求的變化,要做好準備隨時調整。有時候,最佳方案并不是單一的模式,而是相互結合。正如安迪·格魯夫(Andy Grove)在《高產出管理》(HighOutput Management)一書中寫道的:
優秀的管理是集權和分權的調和,是在響應市場和發揮組織力量之間,求取最佳組合的平衡藝術。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25