
數據科學團隊的自測題
數據科學家具備很多相鄰領域的技能,至少是基本技能(比如工程、開發和運維、產品管理、數學、研究、寫作、商業等等),團隊最容易出問題的地方之一,就是他們無法專注于那些需要動用這一整套技能才能完成的工作 團隊是否擁有足夠的數據,以及相應的工具來高效地處理這些數據。如果處理數據時困難重重:因為和生產系統相沖突,沒有被文檔化,或者收集方式前后不一致,甚至根本就不存在……這個時候,數據科學團隊要及時出業績就很難了。 團隊必須能自信地報告負面結果,否則正面結果也會失去大家的信任。數據科學團隊需要能“抓關鍵”的決策者,而這些決策者必須實事求是地面對數據和證據。
原文翻譯:
雖然數據科學風頭正盛,但它依然是一個比較年輕的學科,還有很多基礎性的問題有待解答。數據科學家究竟是做什么的?成為數據科學家應當接受怎樣的教育培訓?數據科學家的職業道路是什么樣的?最近,我一直在思考一個相關的問題:一個高效的數據團隊的標志是什么?
說起出色的數據科學工作,我們最先想到的最重要的標準往往是“有沒有大量的數據?”而我主張采用一個涵蓋面更廣的清單,涉及團隊采用的流程、為團隊提供支持的基礎設施,以及團隊與公司其余部分之間的界限。如果這些事情安排妥當,讓團隊專注于他們自己的問題,并減少圍繞這些問題產生的摩擦,那么,數據科學家就會拿出優異的表現。
這種方法借鑒自joelonsoftware.com的喬爾提出的軟件工程團隊測試方式。你應當能快速對每個問題作出肯定或否定的回答??隙ù鸢冈蕉?,情況就越樂觀。
這是對團隊基本狀況的衡量,優秀的團隊可能存在其他各個方面的差異。這些問題既是關于團隊本身,也是關于團隊所處的生態系統,但依照我的經驗,數據科學團隊由于深深植根于公司內部,它必須敏銳地關注周遭的環境。你還可以換一個角度思考:假如你想加入這個團隊,你會問些什么問題?
問題
1.你們絕大部分時間都在做耗時一天以上的項目嗎?
2.公司有專門的工程師負責數據基礎設施嗎?
3.公司其他人可以不經過數據科學家,直接訪問基本數據嗎?
4.你們可以在不影響生產系統表現的情況下訪問數據嗎?
5.你們做分析的時間多于等待數據的時間嗎?
6.重大架構會文檔化嗎?
7.測量手段會被視為最小可發布產品的一部分嗎?
8.對于在收集到的數據中發現并修復錯誤,你們有設專門的流程嗎?
9.已經完成的研究工作會被文檔化并存放在某個中心位置嗎?
10.團隊在將工作共享出去之前,有一個常規的審查流程嗎?
11.你會通過做實驗去檢測決策帶來的影響嗎?
12.你能沒有后顧之憂地報告負面結果嗎?
13. CEO(或其他負責人)能說出團隊在當季做出的至少一個貢獻嗎?
14.公司在進行產品和業務規劃流程時,會來咨詢數據科學家嗎?
優秀的數據科學工作是建立在一組基本需求層次之上的:強大且受到良好維護的數據基礎設施,免受雜事干擾的環境,高質量的數據,強大的團隊研究流程,能“抓關鍵”的開明決策者。
第一組問題(1-3)的重點是考察數據科學團隊是否免受一些周邊問題的干擾,通過改善基礎設施、改進工具或交由專門人員處理,這些周邊問題就能得到更好的解決。因為數據科學是一個跨學科領域,數據科學家具備很多相鄰領域的技能,至少是基本技能(比如工程、開發和運維、產品管理、數學、研究、寫作、商業等等),團隊最容易出問題的地方之一,就是他們無法專注于那些需要動用這一整套技能才能完成的工作。如果大部分時間都用來響應臨時請求、為簡單的數據訪問提供支持,或是管理數據管線,那就會擠占真正的數據科學工作。正因為他們可以很好地勝任這些周邊工作,公司才需要設置嚴格的規定,確保他們不必去做。
沒有豐富的數據,數據團隊的工作就是盲目的,而第4-8個問題就考察了團隊是否擁有足夠的數據,以及相應的工具來高效地處理這些數據。如果處理數據時困難重重:因為和生產系統相沖突,沒有被文檔化,或者收集方式前后不一致,甚至根本就不存在……這個時候,數據科學團隊要及時出業績就很難了。這些問題也衡量了團隊在公司里得到的信任程度;如果產品團隊不能從數據科學團隊那里得到好處,對建立和維護數據收集系統的重視程度就會打折扣。
團隊內部流程(第9-11個問題)保證團隊所做的是高質量的研究工作,這些工作能建立并維護它在公司內部得到的信任。數據科學團隊所服務的對象大多沒有能力去驗證團隊的工作成果,所以,團隊自身要負責記錄自己的工作,使之接受嚴格的同行評議,并將結果傳播出去。這一點不言而喻:受控實驗是數據科學武器庫中最重要的一項工具,一個團隊若不經常使用它,那一定是有問題的。
如果數據科學團隊被強制要求,即使相關證據顯示產品有問題,也必須讓產品顯得完美,那就是公司領導層出了問題。團隊必須能自信地報告負面結果,否則正面結果也會失去大家的信任。數據科學團隊需要能“抓關鍵”的決策者,而這些決策者必須實事求是地面對數據和證據。具體怎么衡量呢?可以看公司內部是否需要數據科學團隊的參與,領導者能否快速確定,數據科學如何幫助自己的團隊取得成功。最后的第12-14題試圖考察這些方面。
這份清單顯然是不徹底的,也并不完全適合推而廣之。數據科學的界限劃分仍然是人們爭論不休的話題。純粹著眼于構建數據產品的團隊應該會有非常不同的觀點,那些刻意模糊數據科學和工程數據界限的人應該也有不同意見。所有數據團隊之間究竟有沒有共同點呢?請暢所欲言,提出新的問題,或告訴我們,上述哪幾個問題并不廣泛適用。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25