熱線電話:13121318867

登錄
首頁精彩閱讀數據科學團隊的自測題
數據科學團隊的自測題
2016-05-06
收藏

數據科學團隊的自測題

數據科學家具備很多相鄰領域的技能,至少是基本技能(比如工程、開發和運維、產品管理、數學、研究、寫作、商業等等),團隊最容易出問題的地方之一,就是他們無法專注于那些需要動用這一整套技能才能完成的工作 團隊是否擁有足夠的數據,以及相應的工具來高效地處理這些數據。如果處理數據時困難重重:因為和生產系統相沖突,沒有被文檔化,或者收集方式前后不一致,甚至根本就不存在……這個時候,數據科學團隊要及時出業績就很難了。 團隊必須能自信地報告負面結果,否則正面結果也會失去大家的信任。數據科學團隊需要能“抓關鍵”的決策者,而這些決策者必須實事求是地面對數據和證據。

原文翻譯:

雖然數據科學風頭正盛,但它依然是一個比較年輕的學科,還有很多基礎性的問題有待解答。數據科學家究竟是做什么的?成為數據科學家應當接受怎樣的教育培訓?數據科學家的職業道路是什么樣的?最近,我一直在思考一個相關的問題:一個高效的數據團隊的標志是什么?

說起出色的數據科學工作,我們最先想到的最重要的標準往往是“有沒有大量的數據?”而我主張采用一個涵蓋面更廣的清單,涉及團隊采用的流程、為團隊提供支持的基礎設施,以及團隊與公司其余部分之間的界限。如果這些事情安排妥當,讓團隊專注于他們自己的問題,并減少圍繞這些問題產生的摩擦,那么,數據科學家就會拿出優異的表現。

這種方法借鑒自joelonsoftware.com的喬爾提出的軟件工程團隊測試方式。你應當能快速對每個問題作出肯定或否定的回答??隙ù鸢冈蕉?,情況就越樂觀。

這是對團隊基本狀況的衡量,優秀的團隊可能存在其他各個方面的差異。這些問題既是關于團隊本身,也是關于團隊所處的生態系統,但依照我的經驗,數據科學團隊由于深深植根于公司內部,它必須敏銳地關注周遭的環境。你還可以換一個角度思考:假如你想加入這個團隊,你會問些什么問題?

問題

1.你們絕大部分時間都在做耗時一天以上的項目嗎?

2.公司有專門的工程師負責數據基礎設施嗎?

3.公司其他人可以不經過數據科學家,直接訪問基本數據嗎?

4.你們可以在不影響生產系統表現的情況下訪問數據嗎?

5.你們做分析的時間多于等待數據的時間嗎?

6.重大架構會文檔化嗎?

7.測量手段會被視為最小可發布產品的一部分嗎?

8.對于在收集到的數據中發現并修復錯誤,你們有設專門的流程嗎?

9.已經完成的研究工作會被文檔化并存放在某個中心位置嗎?

10.團隊在將工作共享出去之前,有一個常規的審查流程嗎?

11.你會通過做實驗去檢測決策帶來的影響嗎?

12.你能沒有后顧之憂地報告負面結果嗎?

13. CEO(或其他負責人)能說出團隊在當季做出的至少一個貢獻嗎?

14.公司在進行產品和業務規劃流程時,會來咨詢數據科學家嗎?

優秀的數據科學工作是建立在一組基本需求層次之上的:強大且受到良好維護的數據基礎設施,免受雜事干擾的環境,高質量的數據,強大的團隊研究流程,能“抓關鍵”的開明決策者。

第一組問題(1-3)的重點是考察數據科學團隊是否免受一些周邊問題的干擾,通過改善基礎設施、改進工具或交由專門人員處理,這些周邊問題就能得到更好的解決。因為數據科學是一個跨學科領域,數據科學家具備很多相鄰領域的技能,至少是基本技能(比如工程、開發和運維、產品管理、數學、研究、寫作、商業等等),團隊最容易出問題的地方之一,就是他們無法專注于那些需要動用這一整套技能才能完成的工作。如果大部分時間都用來響應臨時請求、為簡單的數據訪問提供支持,或是管理數據管線,那就會擠占真正的數據科學工作。正因為他們可以很好地勝任這些周邊工作,公司才需要設置嚴格的規定,確保他們不必去做。

沒有豐富的數據,數據團隊的工作就是盲目的,而第4-8個問題就考察了團隊是否擁有足夠的數據,以及相應的工具來高效地處理這些數據。如果處理數據時困難重重:因為和生產系統相沖突,沒有被文檔化,或者收集方式前后不一致,甚至根本就不存在……這個時候,數據科學團隊要及時出業績就很難了。這些問題也衡量了團隊在公司里得到的信任程度;如果產品團隊不能從數據科學團隊那里得到好處,對建立和維護數據收集系統的重視程度就會打折扣。

團隊內部流程(第9-11個問題)保證團隊所做的是高質量的研究工作,這些工作能建立并維護它在公司內部得到的信任。數據科學團隊所服務的對象大多沒有能力去驗證團隊的工作成果,所以,團隊自身要負責記錄自己的工作,使之接受嚴格的同行評議,并將結果傳播出去。這一點不言而喻:受控實驗是數據科學武器庫中最重要的一項工具,一個團隊若不經常使用它,那一定是有問題的。

如果數據科學團隊被強制要求,即使相關證據顯示產品有問題,也必須讓產品顯得完美,那就是公司領導層出了問題。團隊必須能自信地報告負面結果,否則正面結果也會失去大家的信任。數據科學團隊需要能“抓關鍵”的決策者,而這些決策者必須實事求是地面對數據和證據。具體怎么衡量呢?可以看公司內部是否需要數據科學團隊的參與,領導者能否快速確定,數據科學如何幫助自己的團隊取得成功。最后的第12-14題試圖考察這些方面。

這份清單顯然是不徹底的,也并不完全適合推而廣之。數據科學的界限劃分仍然是人們爭論不休的話題。純粹著眼于構建數據產品的團隊應該會有非常不同的觀點,那些刻意模糊數據科學和工程數據界限的人應該也有不同意見。所有數據團隊之間究竟有沒有共同點呢?請暢所欲言,提出新的問題,或告訴我們,上述哪幾個問題并不廣泛適用。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢