熱線電話:13121318867

登錄
首頁精彩閱讀我是如何從物理學轉行到數據科學領域
我是如何從物理學轉行到數據科學領域
2018-05-05
收藏

我是如何從物理學轉行到數據科學領域

很多人問我是如果從物理學轉行到數據科學,本文講述了關于我為什么決定成為一名數據科學家,以及我是如何追求并實現目標的。希望能夠最終鼓勵更多的人追求自己的夢想。讓我們開始吧!

CERN 暑期項目

2017年CERN暑期項目

CERN(歐洲核子研究組織)暑期項目為物理、計算機和工程專業的本科生提供了千載難逢的機會,讓他們前往瑞士日內瓦,與頂尖科學家一起參加研究項目。

2017年6月,我非常幸運地被選中參加這個項目。粒子物理學是我的研究方向,能夠參加CERN的研究項目讓我欣喜不已。在為期2個月的項目期間,針對CMS(緊湊μ子線圈)實驗,我通過世界級LHC(大型強子對撞機)計算網格和云計算進行了相關分析和模擬。

CMS(緊湊μ子線圈)

此外,暑期項目還包含了一系列圍繞粒子物理和計算領域的講座、研討會。

在此期間,通過參加講座、研討會以及項目,我開始接觸到機器學習和大數據分析。令我驚訝的是,機器學習技術能夠處理大量的數據,并精確的對各種微觀粒子進行分類和檢測。接著我毫不猶豫地投入了對機器學習云計算的探究與學習。

誰知道這次經歷會成為我人生中的轉折點,我打算投身數據分析。然而此時我對數據科學的定義仍比較模糊。

數據科學領域初探

當我一結束暑期項目回到新加坡,我就對解數據科學進行了一些探究,令我驚訝的是,這個領域并沒有明確的定義。但總的來說,在我看來,數據科學涵蓋了編程、數學、統計知識以及一定專業知識。

盡管如此,我還是驚訝于數據是如何被用來為公司得出分析見解,并驅動商業價值。從理解業務問題,到收集和進行數據可視化,直到構建原型開發階段,進行微調,并將模型部署到實際應用程序中,在這些過程中我發現了通過使用數據解決復雜問題、完成挑戰的滿足感。

“沒有數據,你只是一個空有想法的人”。

—— W. Edwards Deming

我的出發點—數據可視化

Tableau Dashboard

2017年8月,作為進入數據科學領域的第一步,我參加了由Tableau和IMDA(Infocomm Media Development Authority)共同組織的NIC Face-Off 數據競賽,當中我首次接觸到數據可視化。

當中我有機會使用Tableau Public對各種開放數據源進行可視化,這些數據調查了東南亞霧霾的起源,并提供了可操作性的的見解。

第一份數據分析兼職實習

在同月,我偶然發現了一個機會成為了mobilityX的一名數據分析實習生,這是一家由SMRT資助的初創公司??紤]到可讀性和廣泛社區的支持,我使用Python進行編程。

其實在我大一開始學習編程時,我想過放棄。為了運行一個簡單的for循環,我可能要花費好幾天甚至幾周。而且我常常會感覺自己沒有天賦。

直到大三我和教授開始一項研究項目,我才開始對編程產生興趣。我開始使用Python進行構建,并喜歡上了這個編程語言。

我開始不在自我懷疑,而是采用以下的步驟學習編程:

1. 理解編程的基本邏輯;

2. 選擇一種編程語言并學習如何使用(語法等);

3. 練習,練習,再練習;

4. 重復步驟1-3 。

實習一直持續到2018年3月,期間我的收獲頗多。我學會使用PostgreSQL和Python進行數據清理和操作、web抓取以及數據提取。

數據科學全職實習

之前經歷進一步強化了我對數據科學的喜愛。之后我計劃了自己的學習時間表,并在2017年12月畢業后,開始了在Quantum Inventions的數據科學全職實習。

看到這里你可能會問 ,為什么我選擇去實習而不是一份數據科學的工作?那就是在申請全職工作之前,能夠通過處理實際的數據,獲得更多的技術知識,并從頭開始體驗數據科學的整個流程。

學習資源

以下總結了我的學習過程,當中我接受了很多人的幫助,并充分利用了大量的在線資源。

1. 推薦書籍

我讀的第一本數據科學的書是《統計學習導論:基于R應用》(An Introduction to Statistical Learning?—?with Applications in R)。這本書對于初學者是非常不錯的選擇,當中著重統計建模和機器學習的基本概念,并提供詳細而直觀的解釋。如果你很擅長數學,那么你肯定會喜歡這本書:《統計學習基礎》(The Elements of Statistical Learning)。

還有一些相關書籍也是不錯的選擇,比如Sebastian Raschka的《面向初學者的機器學習》(Machine Learning for Absolute Beginners),《Python 和機器學習》(Python Machine Learning);以及Jake VanderPlas的《Python數據科學手冊》( Python Data Science Handbook)。

2. 在線課程

Coursera

我推薦Coursera聯合創始人吳恩達的《機器學習》課程。他能夠把復雜的概念分解成更簡單內容。該課程為期11周,主要圍繞監督式學習、無監督學習以及機器學習的實際應用。當構建機器學習模型時,我仍然會參考該課程講義,用來解決欠擬合或過度擬合的問題。

Udemy

Jose Portilla的《在數據科學和機器學習中使用Python》(Python for Data Science and Machine Learning Bootcamp)是不錯的選擇。該課程從Python基礎知識開始,逐步指導你如何使用scikit-learn和TensorFlow實現各種機器學習深度學習代碼。本課程詳細介紹了Python中各種庫,用來實現機器學習模型。

此外,我強烈推薦Kirill Eremenko和Hadelin de Ponteves的課程《深度學習A-Z:人工神經網絡》( Deep Learning A-Z?: Hands-On Artificial Neural Networks )。通過該課程,我第一次接觸到深度學習。課程主要通過實際操作的編程教程,把握監督和無監督深度學習。

Lynda

我推薦Lillian Pierson的課程《在數據科學基礎訓練中使用Python》( Python for Data Science Essential Training 。該課程以統計分析為基礎,圍繞數據管理和數據可視化。

3. LinkedIn

LinkedIn是與數據科學社區有緊密聯系的的強大平臺。人們愿意在上面分享他們的經驗、想法和知識,從而幫助他人。在LinkedIn上,我學習到了很多,無論是技術知識還是職業咨詢等。

4. 其他資源

許多數據科學領域的初學者經常會被大量的資源所淹沒。除了以上資源平臺以外,還有Towards Data Science、Quora、DZone、KDnuggets、Analytics Vidhya、DataTau、fast.ai 等都是不錯的選擇。

建立作品集

個人作品集能夠展示你的經驗和能力,特別是當你沒有數據科學方面的博士學位時。

由于我只有物理學的學士學位,我沒有計算機科學相關學位,在大學的前三年中我也沒有任何相關的數據科學作品。建立個人作品集是很重要的,因為公司需要知道你學了些什么,如何能過為公司業務貢獻價值。這也是我決定實習和學習在線課程的原因。

不久之前,我和朋友一起參加由Shopee和工程與科技協會(IET)組織的Kaggle 機器學習挑戰賽。這是我第一次參加Kaggle比賽,我學習了如何使用卷積神經網絡(CNN)和遷移學習進行圖像識別。

結語

我分享了我進入數據科學行業的一些情況,希望我的經歷能夠讓你覺得數據科學其實很有趣,并不那么嚇人。直到我接觸到數據科學,我才愈發感受到什么是學無止境。我希望本文能夠激勵你去挑戰自己,實現自己的夢想。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢