熱線電話:13121318867

登錄
首頁大數據時代麥肯錫教給我的5堂課能讓你成為更好的數據科學家
麥肯錫教給我的5堂課能讓你成為更好的數據科學家
2022-02-28
收藏


數據科學是近年來最熱門的領域之一,吸引了大量人才加入頂級公司數據科學團隊的競爭。有很多文章教你DS面試的toprep如何“從其他面試者中脫穎而出”,但旅程肯定不會止步于被錄用。得到一份工作只是第一步;然而,沒有多少人談論一旦你通過面試并加入公司,你如何從其他受雇的數據科學家中脫穎而出。

在麥肯錫的幾年里,我有幸與麥肯錫和我服務過的頂級公司的無數聰明的數據科學家共事,并觀察到了那些獲得合作伙伴和客戶最高評級和贊揚的共同特征。也許你們中的一些人會感到驚訝,表現最好的數據科學家不一定是那些構建最出色的模型或編寫最高效代碼的人(當然,他們必須清除相當高的技術技能標準才能被雇用),而是那些除了分析能力之外還擁有許多重要的“軟技能”的人。這篇文章總結了我在麥肯錫工作期間的經驗和觀察,總結了5個教訓,這些教訓將幫助你成為一名更好的數據科學家。


作為一個熱愛精確的數據人員,我想指出,盡管“數據科學家”作為一個標題涵蓋了當今行業中的廣泛工作,但在本文中,我主要關注的是對以任何形式影響業務決策的數據科學家(而不是那些更面向研究的“核心數據科學”角色)的提示。

第1課。自上而下的溝通是關鍵


自上而下的溝通,或稱金字塔原則,是麥肯錫合伙人芭芭拉·明托創造并推廣的,被許多人視為商業(甚至個人生活)中最有效的溝通結構。盡管這是戰略顧問等一些人的第二天性,但許多數據科學家在溝通方面會被絆倒。想法很簡單:當你試圖溝通一個想法/論點時,如果你以關鍵信息開始,然后是支持這一關鍵信息的幾個主要論點是最有效的,也是最容易讓觀眾理解的;如果需要,每個參數后面都可以跟支持數據。

采用自上而下的通信是有利的,原因如下:

  1. 關鍵是前面和中心:如果你在電子郵件/備忘錄的開頭看到了TLDR,或者在研究論文的開頭看到了執行摘要,你就會明白這一點的重要性。預先傳達關鍵信息將確保你的聽眾得到一個大致的概念,即使他們沒有抓住所有的細節。
  2. 演示/交流可以很容易地針對不同的受眾進行定制:您可以準備一套交流,并將其保持在“關鍵信息”的級別上,為C級主管提供主要論點,并為同行和其他對雜草內容感興趣的分析性受眾提供細節。

不幸的是,對于數據科學家來說,他們的工作大部分時間都在進行深入的分析,這種通信結構可能不是自然的,而且可能違反直覺。我經??吹綌祿茖W家以深入的細節開始演示或交流,但沒有傳達關鍵信息,就讓觀眾迷失了方向。

如何實踐:一個簡單的實踐方法是在會議之前根據這種結構記下你的想法,以便在交流分析的關鍵發現時保持正確。經常退一步問問自己你真正想解決的是什么問題也很有幫助;那應該是你傳達的關鍵信息。


第2課。自己做“翻譯”


如果你看看麥肯錫為公司數據組織設計的suggestedblueprint,它強調了一個名為“翻譯家”的角色的重要性,這個角色被認為是業務和數據團隊之間溝通的橋梁,將分析洞察力轉化為業務可操作的洞察力(我認為這個角色部分源于對我上面提到的觀點的失望)。我敢肯定,作為一名數據科學家,你被要求“像你向一個五歲的孩子解釋一樣解釋它”或“用簡單的英語解釋它”。從其他人中脫穎而出的數據科學家正是能夠做到這一點的人--充當自己的翻譯;如果有人問他們,他們可以向既沒有分析背景也沒有時間閱讀白皮書的首席執行官很好地解釋他們的ML模型,而且他們總是可以將分析結果與業務影響聯系起來。這些數據科學家受到重視的原因如下:

  1. 很難從非分析性的人那里得到“翻譯”:麥肯錫確實試圖培養一批戰略顧問來做不同分析研究的“翻譯”;但在我看來,從來沒有成功過。原因很簡單:為了準確地解釋復雜分析的關鍵要點并準確地反映警告,你需要一種分析心態和深刻的理解,這是通過幾周的分析新兵訓練營培訓無法實現的。例如,如果你不知道肘法,你如何解釋你為K-均值選擇的簇數?如果你不知道SSE是什么,你怎么解釋肘法?。作為一名學生,你花在教授這個大多不成功的速成班上的時間可能更好地花在打造自己的交流風格和自己想出翻譯上。
  2. 如果DS能解釋他們自己的分析,精確度的損失是可以避免的:我相信大多數人都玩過“電話”游戲或它的變體。信息傳遞的時間越長,就越難保持其準確性?,F在想象同樣的過程發生在你的分析工作中;如果你依賴別人來解釋/翻譯你的作品,當它到達最終用戶時,信息可能會與現實相差很大。

如何實踐:與朋友(最好是沒有任何分析背景的朋友)一起實踐,向他們解釋您的模型/分析(當然不透露任何敏感信息)。這也是在你的方法中發現知識差距的一個很好的方法;就像“偉大的解釋者”理查德·費曼認為的那樣,如果你不知道如何用簡單的方式解釋某事,很多時候是因為你自己沒有很好地理解它。

第3課。解決方案驅動是1號規則


這不僅限于數據人才;對于公司的任何職能/角色的人來說,這都是必不可少的。當然,能夠發現問題并提出擔憂是非常有價值的,但更值得贊賞的是提出潛在解決方案的能力。沒有一個解決方案驅動的人在房間里,討論往往會繞圈子,癡迷于問題,而不是試圖找出前進的道路。

在大多數頂級咨詢公司,解決方案驅動是一號法則,在我看來,這種方法也應該轉移到技術領域。作為一名數據科學家,當人們由于缺乏分析背景而提出荒謬的數據要求時,您可能會經常經歷令人沮喪的情況。我見過無數DS不知道如何處理這些情況,并因經常唱反調而在涉眾管理中失敗。與其關閉它們,不如以解決方案為導向,幫助它們重新定義請求,并利用您對數據和分析工具的更好理解來限制范圍。

以解決方案為導向并不意味著你永遠不能對任何事情說不,或者總是必須已經起草了完美的解決方案;這意味著你應該在你說的每一個“不”之后總是有一個“但是怎么樣……”。

如何實踐:遇到問題時,在向團隊或經理提出問題之前,先考慮一下解決問題的潛在方法。在解決問題時發揮你的創造力,不要害怕自己會提出新的解決方案。從擴展到您的工作流并了解更多關于業務和其他團隊工作的信息也很有幫助。了解全局通常有助于將點點滴滴聯系起來,并引導你找到創造性的解決方案。

第4課。在業務上下文中建模時,可解釋性勝過精確性

沒有人真的想預測流失,每個人都在試圖理解流失


如今,當每一家公司都在建立預測流失的模型時,很難后退一步問問自己,我們最初為什么要預測流失。公司希望預測流失,這樣他們就可以找到一個可行的解決方案來防止它。因此,如果您的模型告訴首席執行官“web訪問量的立方根是表示流失的最重要的特征之一”,他可以用這些信息做什么?可能沒什么…

作為一名數據科學家,就像你們中的許多人一樣,我過去在建模時只關注準確性,將其作為成功度量標準。但我逐漸意識到,如果不能將其與業務影響聯系起來,那么通過添加無法解釋的特性和微調超參數將準確率從96%提高到98%對業務毫無意義(同樣,這只適用于面向業務的DS,對于ML的某些領域,這種提高可能意味著整個世界)。

如果模型是一個黑箱,也很難從C級高管那里獲得可信度。模型是一個在一天結束時指導業務決策的工具,所以它的價值很大程度上是基于它的實用性和可解釋性也就不足為奇了。

如何實踐:在構建模型或進行分析時,始終牢記業務影響。當建立模型時,避免向模型投擲隨機的交互特征,希望其中一個會堅持;相反,在開始構建模型之前,要對特性工程階段進行深思熟慮。寫下從模型/分析中得出的業務建議也將幫助您重新評估在構建模型時所做的設計選擇。

第5課。確保有一個假設,但不嫁給一個



特征探索到探索性數據分析(EDA),假設作為大多數分析的起點是很重要的。如果沒有假設,您將無法指導如何為EDA切片和切分數據,或者首先測試哪些特性。沒有假設,甚至沒有必要進行AB測試(這就是為什么它被稱為假設測試)。但是,我經??吹綌祿茖W家在沒有明確假設的情況下鉆研頭朝下的分析階段,然后在兔子洞里迷失了方向?;蛘吒R姷那闆r是,數據科學家將假設結構化的過程完全留給團隊成員,而團隊成員對數據沒有可見性,后來才意識到沒有足夠的數據來檢驗這些假設。在我看來,最好的方法是讓數據科學家從一開始就參與這些假設的頭腦風暴會議,并使用假設來指導后續的分析并確定優先級。

假設很重要,它們應該作為起點,而不是終點。我一次又一次地看到許多數據科學家(或與數據科學家一起工作的人)堅持一個假設,盡管發現相互矛盾。這種對最初假設的“忠誠”將導致數據窺探和按摩數據以適應某種敘述。如果你熟悉“辛普森悖論”,你就能理解數據在講述“錯誤故事”方面的力量。優秀的數據科學家應該能夠保持數據的完整性,并將敘述轉向符合數據,而不是相反。

如何實踐:為了提出好的假設,建立業務理解和敏銳度是很重要的。在探索數據的過程中,讓假設留在你的腦海中,以指導你,但當數據告訴你一個不同于你最初“受過教育的猜測”的故事時,要虛心承認。有一個良好的商業意識也會幫助你調整你最初的理論,并根據數據調整你的敘述。

當談到面向業務的角色時,人們往往認為人才可以分為兩類:分析型和戰略型,似乎這兩種能力是對立的。好吧,我會告訴你一個秘密,最好的分析人才是那些同時理解事情的戰略/業務方面并理解如何與業務利益相關者溝通的人,而戰略角色中最好的人才對分析和數據有一定程度的理解。



數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢