熱線電話:13121318867

登錄
首頁大數據時代如何獲得實際的數據科學經驗,以便為職業生涯做好準備
如何獲得實際的數據科學經驗,以便為職業生涯做好準備
2022-02-28
收藏

在這篇文章中,我將給出三種方法,在這些方法中,您可以自己獲得實際的數據科學經驗。通過完成這些項目,您將對SQL、PandasMachine learning Modeling有更好的理解。

  1. 首先,我將為您提供實際的SQL案例研究,在這些案例中,您會遇到一個業務問題,并需要查詢數據庫以診斷問題并制定解決方案。
  2. 其次,我將為Pandas提供幾十個練習問題,Pandas是Python中用于數據操作和分析的庫。這將幫助您開發數據爭論和數據清理所需的技能。
  3. 第三,我將為您提供各種機器學習問題,在這些問題中,您可以開發一個機器學習模型來進行預測。通過這樣做,您將了解如何處理機器學習問題,以及從頭到尾開發機器學習模型所需的基本步驟。

話雖如此,讓我們潛入其中吧!

1.SQL案例研究

如果你想成為一名數據科學家,你就得有很強的SQL技能。Mode提供了三個模擬實際業務問題的實際SQL案例研究,以及一個在線SQL編輯器,您可以在其中編寫和運行查詢。

要打開模式的SQL編輯器,請轉到此鏈接并單擊超鏈接,其中顯示“打開另一個窗口到模式”。

學習SQL

如果您是SQL新手,我將首先從Mode的SQL教程開始,在那里您可以學習基本、中級和高級SQL技術。如果您已經對SQL有了很好的了解,可以跳過這個。

案例研究1:調查用戶參與度下降

  • 案件鏈接。

這個案例的目的是確定Yammer項目用戶參與度下降的原因。在深入研究數據之前,您應該在這里閱讀Yammer的概述。您應該使用4個表。

到案例的鏈接將為您提供更多關于問題、數據和應該回答的問題的詳細信息。

如果你想要指導,請看看我是如何處理這個案例研究的。

案例研究2:理解搜索功能

  • 案件鏈接。

本案例更側重于產品分析。在這里,您需要深入到數據中,并確定用戶體驗是好是壞。這個案例的有趣之處在于,決定“好”和“壞”的含義以及如何評估用戶體驗取決于您。

案例研究3:驗證A/B測試結果

  • 案件鏈接。

最實用的數據科學應用程序之一是執行A/B測試。在這個案例研究中,您將深入研究a/B測試的結果,其中對照組和治療組之間有50%的差異。在這種情況下,您的任務是在徹底分析后驗證或使結果無效。

2.熊貓練習問題

當我第一次開始開發機器學習模型時,我發現我缺乏熊貓技能是我所能做的一個很大的限制。不幸的是,與Python和SQL不同,互聯網上沒有太多的資源允許您練習Pandas的技能。

然而,幾周前,我訪問了這個資源-這是一個專門針對熊貓的充滿實踐問題的存儲庫。通過完成這些練習問題,您將知道如何:

  • 篩選和排序數據
  • 分組和聚合數據
  • 使用.apply()操作數據
  • 合并數據集
  • 還有更多。

如果你能完成這些練習問題,你應該能夠自信地說你知道如何使用Pandas進行數據科學項目。它還將為您的下一節提供顯著幫助。

3.機器學習建模

獲得數據科學經驗的最好方法之一是創建自己的機器學習模型。這意味著找到一個公共數據集,定義一個問題,并用機器學習解決這個問題。

Kaggles是世界上最大的數據科學社區之一,有數百個數據集可供選擇。下面是一些你可以用來開始的想法。

預測葡萄酒質量

  • 數據在那里。

此數據集包含關于各種葡萄酒、它們的組成和葡萄酒質量的數據。這可能是一個回歸或分類問題,這取決于您如何構建它??纯茨闶欠衲茴A測一個紅葡萄酒的質量給11個輸入(固定酸度,揮發性酸度,檸檬酸,殘糖,氯化物,游離二氧化硫,總二氧化硫,密度,pH,硫酸鹽和酒精。

如果您想要為該數據集創建機器學習模型的指導,請查看我的方法此處.

二手車價格估算器

  • 數據在那里。

Craigslist是世界上最大的二手車銷售收藏庫。此數據集由Craigslist中的刮擦數據組成,每隔幾個月更新一次。使用此數據集,看看是否可以創建一個數據集來預測汽車上市是否已經結束或價格過低。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢