熱線電話:13121318867

登錄
首頁精彩閱讀在過去的一年里,我是如何自學數據科學的?
在過去的一年里,我是如何自學數據科學的?
2018-11-29
收藏

 

作者: Harrison Jansma
編譯: Mika
CDA 數據分析師原創作品,轉載需授權

 

在過去的一年里,我自學了數據科學。我學習了數百個在線資源課程,每天學習6-8個小時,同時還在做一份兼職工作謀生。

我的目標是在缺乏資金的前提下,從事我熱愛的數據科學職業。

在過去幾個月里,我取得了很多成就。我發布了自己的網站,并獲得了一個很不錯的計算機科學研究生課程獎學金。

在本文中,我總結了自己是如何自學數據科學的,希望能給你有所幫助,讓你更加順利地開啟自己的數據科學職業生涯。

注意,本文中我所說的“數據科學”指的是,那些將數據轉化為現實行動的工具集合。當中包括機器學習、數據庫技術、統計、編程和特定領域技術。

 

資源推薦

互聯網上資源紛亂復雜,試圖從中學習有時會讓人無從下手。

Dataquest,DataCamp和Udacity等網站都提供不錯的數據科學知識。它們都有相應的課程計劃,都能讓你系統地進行學習。

但問題在于,以上這些網站課程太貴了。而且沒有教你如何在工作環境中應用概念,同時還限制你進行自我探索。

edX和coursera上的課程是免費的,并且設有針對特定主題的課程。如果你善于從視頻或課堂環境中學習,這些都是學習數據科學的絕佳方式。



免費在線教育平臺

以下列出了許多不錯的數據科學課程,當中有些課程是免費的。

https://www.class-central.com/subject/data-science

如果你喜歡跟著書學習,那么可以看到這本教材。

Data Science From Scratch 
http://math.ecnu.edu.cn/~lfzhou/seminar/[Joel_Grus]_Data_Science_from_Scratch_First_Princ.pdf

為了讓你更明確在數據科學中需要掌握哪些技能,在下一部分中,我將詳細介紹具體的課程計劃指南。


數據科學課程指南

 

Python編程

編程是數據科學家的基本技能。你需要熟悉Python的語法,了解如何以多種不同的方式運行python程序。(Jupyter notebook VS 命令行 VS IDE)

我花了大約一個月的時間來學習這些Python文檔,以及CodeSignal上的編程挑戰。

https://docs.python.org/3/tutorial/
https://docs.python-guide.org/intro/learning/

 

統計與線性代數

這是進行機器學習和數據分析的先決條件。如果這方面你有不錯的基礎,建議花一兩個星期來梳理關注概念。

特別注意描述性統計。能夠理解數據集是一項非常重要的技能。

Numpy,Pandas,Matplotlib

學習如何加載、操作和可視化數據。掌握這些庫對你的個人項目至關重要。

可以查看相關教程,這些都是我用過的。
http://pandas.pydata.org/pandas-docs/stable/
https://docs.scipy.org/doc/numpy/user/index.html
https://matplotlib.org/tutorials/index.html

請記住,學習這些庫的唯一方法就是使用它們!

機器學習

學習機器學習算法的理論和應用。然后將學到的概念應用于真實數據上。

大多數初學者會從使用UCI ML Repository的數據集開始,使用數據并瀏覽機器學習教程。

Scikit-learn文檔具有出色的算法應用教程。
http://scikit-learn.org/stable/

生產系統

工作意味著獲取實際數據并將其轉化為行動。為此,你需要學習如何使用業務資源來獲取、轉換和處理數據。

亞馬遜網絡服務,谷歌云,微軟Azure

這是數據科學課程中最基礎的部分。主要是因為你使用的特定工具取決于你要進入的行業。

但是,數據庫操作是必需的技能。你可以在ModeAnalytics或Codecademy上學習如何用代碼操作數據庫。你還可以在DigitalOcean上實現自己的數據庫。

另一個需要的技能是版本控制。你可以創建GitHub帳戶,并命令行每天提交代碼來輕松獲得此技能。

在考慮學習其他技術時,重要的是認識到你的興趣是什么。如果你對Web開發感興趣,那么關注該行業中公司使用的工具。



學習建議

 

1. 學習概念時要有主次

網上的學習資源很多,因此在線學習時很容易走彎路。

當開始研究某個主題時,你需要牢記自己目標。否則你將忘記初衷,被其他的內容吸引注意力。建議有效地整理和存儲資源,從而更專注目前需要掌握的技能。



目前我的Chrome書簽欄

如果你這樣做,你保持有序的學習路徑,將注意力集中在目前應關注的內容,避免分心。

 

2. 不要著急。學習是跑馬拉松,而不是百米沖刺。

如果你要在數據科學領域取得成功,你需要不斷地學習。請記住,學習過程就是回報。

在整個學習過程中,你將探索自己感興趣的內容,你對自己的了解越多,你學習的樂趣就越多。

 

3. 學習,應用,重復

不要只學習一個概念,然后學習下一個概念。學習過程不會停止,直到你可以將概念應用于現實情況。


4. 建立個人作品集,向他人展示自己的技能

懷疑主義是你在學習數據科學時將面臨的最大逆境之一。這可能來自其他人,也可能來自你自己。

因此,在學習數據科學時,個人簡歷是很重要的一環。這能讓你找到理想的工作,成為更自信的數據科學家。

在作品集中包含你引以為榮的項目。你是否從頭開始開發過Web應用程序嗎?你有自己的IMDB數據庫嗎?你是否寫過有趣的醫療保健數據數據分析?把這些羅列在作品集中。

這是我的作品集,存儲在GitHub上是一個不錯的選擇,其中可以包含摘要頁面和相關的項目文件。


5. 數據科學+ ____ =充滿激情的職業

數據科學是能夠改變世界的工具。數據科學的應用是無窮無盡的,因此你需要找到你的興趣所在。

如果你找到自己感興趣的內容,你將更愿意投入其中完成項目。

在學習的過程中,請留意那些讓你感興趣的項目或想法。

發現你所熱衷的領域后,你會更系統地學習該領域所需的技能和專業知識。

結論

進入數據科學行業并不容易。為了激勵自己繼續學習,你需要毅力和自控能力。數據科學家需要時刻具有好奇心,并熱衷于尋找答案。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢