熱線電話:13121318867

登錄
首頁大數據時代在我的數據科學生涯的3年里,我學到的3個最重要的教訓
在我的數據科學生涯的3年里,我學到的3個最重要的教訓
2022-02-28
收藏

我相信這些課程是如此重要,因為它們有助于擁有一個成功的數據科學職業生涯。讀完這篇文章后,您會意識到,要成為一名優秀的數據科學家,不僅僅是構建復雜的模型。

話雖如此,以下是我在數據科學生涯中學到的3個最重要的教訓!

1.很大一部分時間實際上花在你的項目之間(之前和之后)。

其中一件事是,幾乎所有的數據科學課程和訓練營都強調并詳細闡述了項目生命周期中的建模階段,而實際上,這只是整個過程的一個很小的組成部分。

如果在工作中構建一個初步的機器學習模型需要一個月的時間,那么您可能需要花一個月的時間來事先理解業務問題,然后記錄和社交項目。

不僅建議您在構建模型之前和之后完成這些步驟,而且這對項目的成功至關重要。

讓我們深入探討每一個問題的重要性:

  • 業務理解:理解手頭的業務問題對您的成功至關重要。例如,如果您正在構建一個機器學習模型,您應該知道該模型應該預測什么,誰將使用它,它將如何實際使用,您將使用什么度量來評估該模型,等等。您必須花時間了解關于業務目標的所有以創建適用的模型。
  • 文檔:雖然我同意文檔不如瀏覽數據和構建模型那么令人興奮,但對于代碼、構建的任何表以及如何構建模型,有清晰簡潔的文檔是很重要的。這一點非常重要,這樣您或其他人在使用模型或修復模型時就可以輕松地參考這些資源。
  • 社會化:社會化很少被談論,但如果業務不使用您的項目,它們就不會成功。使你的項目社會化需要向相關的利益相關者展示它們,解釋它們的價值,以及如何使用它們。您可以向更多的利益相關者推銷您的想法,他們就越有可能采用您的數據產品,您的項目也就越成功。

這三個步驟有什么共同點?它們都是交流的一種形式。事實上,我認為良好的交流是數據科學家和高級數據科學家之間的區別。

2.基本面會讓你超過80%的成功。

當我開始學習數據科學時,我試圖學習最復雜的概念,而不學習基礎知識。

經過多年的經驗,我已經意識到,基礎知識足以讓你在職業生涯中取得80%以上的成功。為什么?簡單的解決方案總是會贏。它們更容易理解,更容易實現,也更容易維護。一旦一個簡單的解決方案證明了它對公司的價值,只有這樣,您才能研究更復雜的解決方案。

那么基本面到底是什么呢?

A)SQL

經過3年的工作,我確信掌握SQL是成功職業生涯的關鍵。SQL并不是一項難以學習的技能(例如,從哪里選擇),但它肯定是一項難以完善的技能。SQL對于數據爭論、數據探索、數據可視化(構建儀表板)、構建報表和構建數據管道至關重要。

如果你想掌握SQL,請看下面我的指南:一個完整的15周的課程來掌握數據科學的SQL

B)描述性和推論性統計

對基本的描述性和推論性統計有一個很好的理解也是非常重要的。

描述性統計信息允許您以簡單的方式總結和理解數據。

推理統計允許您根據有限數量的數據(樣本)做出結論。這對于建立解釋模型和A/B測試是必不可少的。

C)用于EDA和特征工程的Python

Python主要用于執行EDA和特性工程。也就是說,這兩個步驟也可以使用SQL來完成,所以要記住這一點。我個人喜歡在我的技術棧中使用Python,因為我發現在Jupyter筆記本中執行EDA比在SQL控制臺或儀表板中執行EDA更容易。查看:探索性數據分析的一個詳細的一步一步指南

3.迭代并構建一個模型的多個版本比花費大量時間構建一個最終模型要好。

構建、測試、迭代、重復。

通常,在一個模型上花費更少的時間來將初始版本投入生產并從那里進行迭代總是更好的。為什么?

  1. 在初始模型上分配更少的時間激勵您提出更簡單的解決方案。正如我在本文前面所說的,簡單的解決方案有幾個好處。
  2. 你提出POC(概念證明)的速度越快,你就能越快地從其他人那里得到改進的反饋。
  3. 業務需要不斷變化,因此如果能夠盡早部署項目,那么成功的可能性更大。

我想說明的一點是不是催促您的項目,而是快速部署它們,以便您可以接收反饋、迭代和改進您的項目。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢