熱線電話:13121318867

登錄
首頁大數據時代成為一名偉大的數據科學家所需的5項關鍵技能
成為一名偉大的數據科學家所需的5項關鍵技能
2022-02-21
收藏

由高級經理(數據科學)Sharan Kumar Ravindran撰寫

一個人不需要有天生的天賦就能成為一名成功的數據科學家。然而,要在數據科學中取得成功,需要一些技能。所有這些關鍵技能都可以通過適當的培訓和練習獲得。在這篇文章中,我將分享一些重要的技能,為什么它們對數據科學家來說很重要。此外,如何獲得這些技能。

批判性思維

數據科學家應該養成批判性思維的習慣。它有助于更好地理解這個問題。除非把問題理解到最細的層次,否則解決方案不可能是好的。批判性思維有助于分析不同的選擇,并有助于選擇正確的選擇。

在解決數據科學問題時,這并不總是一個好的或壞的決定。很多選擇都處于好與壞之間的灰色地帶。在一個數據科學項目中涉及到如此多的決策。例如,選擇正確的屬性集、正確的方法、正確的算法、度量模型性能的正確度量,等等。它需要更多的分析和清晰的思考來選擇正確的選項。


培養批判性思維的一個簡單方法就是像孩子一樣好奇。問盡可能多的問題,直到沒有更多的問題。我們問得越多,理解得越多。我們對問題理解得越好,結果就越好。

讓我用一個例子來演示批判性思維。讓我們考慮以下電信公司的場景。我們要識別忠誠的高凈值客戶。為了識別這個客戶群體,我們必須從一系列問題開始,

  • 客戶有哪些不同的個人資料類別?
  • 顧客的平均年齡是多少?
  • 一個顧客花多少錢?
  • 客戶互動的頻率是多少?
  • 客戶是否按時付賬?
  • 是否有任何遲付或漏付的情況?
  • 客戶的終身價值是什么?

這些有助于識別精英客戶。它有助于組織確保這些客戶體驗到最好的服務。

有一些技巧有助于提高批判性思維能力。其中一種技巧是第一性原理思維。它是一個有助于更好地理解問題的心智模型。下面是一個使用第一性原理解決數據科學問題的示例。

如何運用第一性原理思維解決數據科學問題?

心智模型是幫助清晰思考和更好決策的驚人工具。因此,采用心智模型有助于提高你的批判性思維能力。這里有一篇文章強調了在工作中采用心智模型的好處。

5個心智模型,幫助提升您的數據科學職業生涯

編碼

編碼技能對數據科學家來說就像眼睛對藝術家一樣重要。數據科學家要做的任何事情都需要編碼技能。從多個來源讀取數據,對數據進行探索性分析,構建模型,并對其進行評估。


AutoML解決方案會發生什么?近年來有許多AutoML產品出現。許多人甚至認為很快就不需要任何編碼技能了。讓我們舉一個例子,

  • 有2家公司,A公司和B公司
  • 他們都在使用最流行的AutoML產品
  • 他們能夠使用AutoML解決幾個數據科學問題
  • 現在他們中的一個想主宰市場
  • 能夠在使用AutoML解決方案實現的解決方案之上做的公司將有更好的機會。

不可否認,AutoML解決方案將在未來得到廣泛采用。數據科學團隊今天解決的許多標準問題將被自動化。這并不意味著數據科學工作的結束,也不意味著數據科學家編寫代碼的需求的結束。它將使數據科學團隊能夠專注于新的問題。

今天被捕獲的數據量如此之高。今天,許多組織只使用了可用數據的一小部分。有了AutoML,焦點將轉移到未被探索的領域。

你是否對數據科學感興趣,但覺得自己沒有編碼技能?這里有一篇文章將幫助您學習為數據科學編寫代碼。

不會編碼?以下是學習為數據科學編寫代碼的最佳方法

數學

數學是數據科學家需要理解的另一項重要技能。在學習數據科學時,你不知道一些數學概念是可以的。如果不了解數學概念,就不可能成為一名出色的數據科學家。


讓我舉一個簡單的例子,說明數學概念在解決問題時是如何有用的。讓我們選擇客戶流失分析。

  • 我們將從了解不同組客戶的行為和特征開始。一種方法是選擇不同的樣本數據并尋找模式。這里需要的數學概念是統計和概率
  • 為了有效地進行數據分析,對線性代數的理解將非常方便
  • 假設我們想建立一個模型來預測有可能流失的用戶。為了理解梯度下降的概念,微積分知識將是有幫助的。如果您正在使用決策樹,那么信息論的知識將有助于理解構建樹的邏輯。
  • 如果你期待著優化參數,那么運籌學和優化的知識可能會有所幫助。
  • 為了有效地實現模型評估,代數等數學概念可能非常有用

這還不是全部,沒有數學就沒有機器學習算法。這并不意味著你需要成為一名數學家才能成為一名成功的數據科學家。它所需要的只是高中數學水平。

如果你有興趣學習數據科學的數學。這是最適合你的課程。

數據科學數學

協作

一個數據科學家不能孤立地工作。一個數據科學家應該與多人協作以確保項目的成功。即使在今天,許多數據科學項目也失敗了。大多數失敗的首要原因是團隊之間缺乏理解和合作。


解釋跨不同團隊協作和工作的重要性。讓我們考慮一個場景,其中數據科學團隊正在與客戶增長團隊合作。目的是了解客戶流失的原因。

你決定和幾個不同的團隊談談,他們是這樣說的

增長團隊-客戶流失主要是由于競爭提供的優惠

營銷團隊-產品團隊發布的新特性可能會導致一些問題,從而導致客戶流失

產品團隊-營銷團隊只是專注于吸引大量新客戶,而沒有建立客戶的價值或意圖

客戶支持小組-許多客戶報告了許多與支付有關的問題。這可能是客戶流失的原因

如果您沒有與其他團隊交談,您將根據增長團隊提供的信息開始解決這個問題。你不能僅僅依靠一個團隊的投入來解決一個問題。即使增長團隊是這里的主要發起人,僅僅依賴他們提供的投入也是不夠的。為了獲得一個整體的圖像,您需要與不同的利益相關者交談。當你限制與你一起工作的人或團隊時,來自這些人的偏見會傳遞到你正在構建的解決方案中。

此外,在許多情況下,數據科學團隊需要與數據工程和其他技術團隊密切合作。沒有良好的合作努力,就不會有成功。

溝通與講故事


  • 在項目中投入的努力量
  • 在生產中部署的最終機器學習模型的準確性
  • 從探索性分析中發現的見解

如果解決方案沒有很好地傳達給利益相關者,所有這些都是無用的。數據科學中涉及的問題和解決方案通常要復雜得多。在將它們傳達給業務之前,簡化它們是非常重要的。在交流中使用講故事的方法很有幫助。

讓我舉一個例子,更簡單地解釋良好溝通的重要性。讓我們考慮以下場景。數據科學團隊正在研究一個預測模型,以預測零售能源客戶的能源使用情況。數據科學團隊需要說服業務和基礎設施團隊擁有和運行至少10個不同的模型以獲得更好的準確性的重要性。這意味著更高的計算能力的使用和更多的時間來訓練模型。

選項a-您使用用于將客戶分組到不同組中的聚類技術,因此需要為每個組建立一個模型。

這里的問題是,業務團隊還沒有被告知為每個組實際使用一個模型的好處。因此,如果成本很高,他們可能不會被說服。

選項B-從客戶的配置文件和特征開始。您可以顯示客戶的能源使用模式。你向業務團隊展示了獨特的模式,比如一些家庭在周末幾乎使用可以忽略不計的電力,可能是因為他們通常傾向于在不同的地方度過周末。同樣,你展示了獨特的模式,因此你解釋了一個模型不能適合所有這些不同的客戶,因此至少需要每個10個不同的模型來迎合10個不同的獨特類別的客戶。

現在,企業明白了擁有這么多不同模型的重要性。他們可以很容易地將增量收益與所需的基礎設施成本進行比較,以評估選項。

數據科學團隊的工作是向利益相關者清楚地傳達這個想法。這不是一項容易的工作,因為大多數人對數據科學的知識有限。只有當企業從中發現價值時,數據科學項目才被認為是成功的。

改善組織中協作的一個好方法是提供一個在團隊之間有良好信息流動的環境。

領導技能-好的擁有

Last but not least is leadership skills. Most organizations have a small data science team and they generally work on different sets of problems. It is very common for a data scientist to get pulled into different meetings and for Adhoc questioning. It is the job of the data scientist to decide when to say yes and when to say No. It is very important to set the priorities right.

此外,數據科學家需要有一個清晰的思考過程,并應該有能力預見結果。很多時候,業務團隊會有很大的壓力來加速分析。數據科學家的角色是管理期望并產生高質量的結果。

保持聯系


  • 如果你喜歡這篇文章并對類似的文章感興趣,請在Medium上關注我。訂閱Medium,可以獲得數千篇與職業、金錢等相關的文章。
  • 我在YouTube頻道上教授和談論各種數據科學話題。在這里訂閱我的頻道。
  • 在這里注冊tomy電子郵件列表,獲取更多數據科學提示,并與我的工作保持聯系



數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢