熱線電話:13121318867

登錄
首頁精彩閱讀初學者必看丨如何成為一名數據科學家
初學者必看丨如何成為一名數據科學家
2017-12-22
收藏

初學者必看丨如何成為一名數據科學家

想從事數據科學領域的初學者總是很困惑:應該學習哪種編程語言?專業重要嗎?需要掌握哪些工具和技能?在這篇文章中,你的這些問題都能得到解答。

幾星期前,我發布了我的第二篇Kaggle Kernel( Kernel: Kaggle 中用于探索概念、展示技術或分享解決方案的短腳本)。我對Kaggle最近發布的“機器學習和數據科學現狀”調查很感興趣,并認為我可以從中得出一些有趣的見解。我以為大多數寫Kernel的人都已經是數據科學家了,比起如何入門,他們應該對其他的內容更感興趣。

令我驚訝的是,我贏得了每周一次的Kernel獎,我的這篇Kernel最終獲得了超過預期的關注度。

在這里我把這篇分享給大家,探究如何成為一名數據科學家。

一、編程語言

據我所知,數據科學領域有兩種語言是最常用的,即Python和R語言。我個人比較喜歡R語言,但是好奇在實際情況中是什么樣的。

我根據受訪者的職位,比較選擇Python或R語言作為主要編程語言的人數。事實證明,除了統計學和運籌學之外,其他職位中使用Python的人數更多。然而這兩個領域,特別是運籌學由于樣本量太小,以至于結果的參考價值并不高。

二、專業和職位

我想知道哪些專業傾向選擇哪些職位,因此我創建了比較大學專業和所選職位的圖表。

當然,計算機科學專業的人群會成為計算機科學家,程序員和軟件工程師。數學專業的人群會選擇預測建模,數據科學和統計學職位,物理專業則傾向于進入研究領域。

圖表中一個有趣的信息是,每個職位都有至少一名非此專業的人士。這表明,只要你有理想,所學專業不是限制做你想做的事情的理由。

三、學習資源

用來學習數據科學的在線資源特別豐富。我很好奇對于調查的受訪者來說哪些在線資源是最有用的。

事實證明,人們認為創建項目,參加課程,參加Kaggle挑戰是學習和了解數據科學最有用的方法。我很喜歡從事數據科學的項目,并在完成項目的過程中一步步成長為一名數據科學家。

四、重要的工作技能

調查的另一個問題是詢問受訪者,他們認為在工作中最有用的技能是什么。

掌握Python和統計知識被認為是最有用的工作技能。這方面R語言略微落后于Python,這反映了第一張圖的情況。有趣的是,MOOC(大型開放式網絡課程)在實用性方面得分最低。然而上一張圖中,人們認為在線課程是學習數據科學最有用的資源之一。這也讓我感覺不是跟確定,是不是受訪者認為在找工作時,MOOC不應該被用作認證。

五、實際運用的工具

受訪者也被問到,他們認為哪些技術在日常工作中最有用。在以下圖表中,我分析了所有受訪者的情況,以及具體的職位情況。

Python被評為整個行業中最需要掌握的技術。R語言排名第三位。每個職位都說要用到SQL、Jupyter、Unix和TensorFlow了。表明這些可能是不久之后需要掌握的重要技術。

六、實際運用的方法

與上一個問題類似,受訪者被問到,他們在工作中實際運用到的數據科學方法。

我們可以看到,每個職業的人群都用到了數據可視化、交叉驗證、邏輯回歸決策樹。機器學習工程師則要經常使用自然語言處理和神經網絡技術。其他職位有相應的方法需要經常使用。

結論

我喜歡運用龐大的數據集,這將非常適合我今后的工作。如果你是一名數據科學家新手,并且正在找工作,那么我給你列出以下幾幾條建議:

1.學習 Python

Python和R語言都已經存在數十年了。但正如我們在第一張圖中看到的那樣,在大多數情況下Python是勝出的。圖四和圖五也反應了這一情況。很難找到一家不使用Python的公司,所以學好Python絕對是沒錯的。

2.專業選擇計算機科學或數學

正如圖二所示,每個職位都有不同的專業。然而根據圖中的比例來看,每個職位中計算機科學和數學人數是最多的。雖然這不是必須的,但這兩個專業能讓你在求職中獲得一些優勢。

3.創建項目、參加課程、參與Kaggle挑戰

正如圖三所示,學習數據科學方面有些方法特別實用。

4.了解廣泛使用的工具

有無數的工具可供我們使用,但通過這次調查,我們了解到哪些是主流的工具。

我希望以上幾點能夠幫助你起步,逐步成為一名數據科學家。祝你好運!



數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢