
我是如何從物理學轉行到數據科學領域
很多人問我是如果從物理學轉行到數據科學,本文講述了關于我為什么決定成為一名數據科學家,以及我是如何追求并實現目標的。希望能夠最終鼓勵更多的人追求自己的夢想。讓我們開始吧!
CERN 暑期項目
2017年CERN暑期項目
CERN(歐洲核子研究組織)暑期項目為物理、計算機和工程專業的本科生提供了千載難逢的機會,讓他們前往瑞士日內瓦,與頂尖科學家一起參加研究項目。
2017年6月,我非常幸運地被選中參加這個項目。粒子物理學是我的研究方向,能夠參加CERN的研究項目讓我欣喜不已。在為期2個月的項目期間,針對CMS(緊湊μ子線圈)實驗,我通過世界級LHC(大型強子對撞機)計算網格和云計算進行了相關分析和模擬。
CMS(緊湊μ子線圈)
此外,暑期項目還包含了一系列圍繞粒子物理和計算領域的講座、研討會。
在此期間,通過參加講座、研討會以及項目,我開始接觸到機器學習和大數據分析。令我驚訝的是,機器學習技術能夠處理大量的數據,并精確的對各種微觀粒子進行分類和檢測。接著我毫不猶豫地投入了對機器學習和云計算的探究與學習。
誰知道這次經歷會成為我人生中的轉折點,我打算投身數據分析。然而此時我對數據科學的定義仍比較模糊。
數據科學領域初探
當我一結束暑期項目回到新加坡,我就對解數據科學進行了一些探究,令我驚訝的是,這個領域并沒有明確的定義。但總的來說,在我看來,數據科學涵蓋了編程、數學、統計知識以及一定專業知識。
盡管如此,我還是驚訝于數據是如何被用來為公司得出分析見解,并驅動商業價值。從理解業務問題,到收集和進行數據可視化,直到構建原型開發階段,進行微調,并將模型部署到實際應用程序中,在這些過程中我發現了通過使用數據解決復雜問題、完成挑戰的滿足感。
“沒有數據,你只是一個空有想法的人”。
—— W. Edwards Deming
我的出發點—數據可視化
Tableau Dashboard
2017年8月,作為進入數據科學領域的第一步,我參加了由Tableau和IMDA(Infocomm Media Development Authority)共同組織的NIC Face-Off 數據競賽,當中我首次接觸到數據可視化。
當中我有機會使用Tableau Public對各種開放數據源進行可視化,這些數據調查了東南亞霧霾的起源,并提供了可操作性的的見解。
第一份數據分析兼職實習
在同月,我偶然發現了一個機會成為了mobilityX的一名數據分析實習生,這是一家由SMRT資助的初創公司??紤]到可讀性和廣泛社區的支持,我使用Python進行編程。
其實在我大一開始學習編程時,我想過放棄。為了運行一個簡單的for循環,我可能要花費好幾天甚至幾周。而且我常常會感覺自己沒有天賦。
直到大三我和教授開始一項研究項目,我才開始對編程產生興趣。我開始使用Python進行構建,并喜歡上了這個編程語言。
我開始不在自我懷疑,而是采用以下的步驟學習編程:
1. 理解編程的基本邏輯;
2. 選擇一種編程語言并學習如何使用(語法等);
3. 練習,練習,再練習;
4. 重復步驟1-3 。
實習一直持續到2018年3月,期間我的收獲頗多。我學會使用PostgreSQL和Python進行數據清理和操作、web抓取以及數據提取。
數據科學全職實習
之前經歷進一步強化了我對數據科學的喜愛。之后我計劃了自己的學習時間表,并在2017年12月畢業后,開始了在Quantum Inventions的數據科學全職實習。
看到這里你可能會問 ,為什么我選擇去實習而不是一份數據科學的工作?那就是在申請全職工作之前,能夠通過處理實際的數據,獲得更多的技術知識,并從頭開始體驗數據科學的整個流程。
學習資源
以下總結了我的學習過程,當中我接受了很多人的幫助,并充分利用了大量的在線資源。
1. 推薦書籍
我讀的第一本數據科學的書是《統計學習導論:基于R應用》(An Introduction to Statistical Learning?—?with Applications in R)。這本書對于初學者是非常不錯的選擇,當中著重統計建模和機器學習的基本概念,并提供詳細而直觀的解釋。如果你很擅長數學,那么你肯定會喜歡這本書:《統計學習基礎》(The Elements of Statistical Learning)。
還有一些相關書籍也是不錯的選擇,比如Sebastian Raschka的《面向初學者的機器學習》(Machine Learning for Absolute Beginners),《Python 和機器學習》(Python Machine Learning);以及Jake VanderPlas的《Python數據科學手冊》( Python Data Science Handbook)。
2. 在線課程
Coursera
我推薦Coursera聯合創始人吳恩達的《機器學習》課程。他能夠把復雜的概念分解成更簡單內容。該課程為期11周,主要圍繞監督式學習、無監督學習以及機器學習的實際應用。當構建機器學習模型時,我仍然會參考該課程講義,用來解決欠擬合或過度擬合的問題。
Udemy
Jose Portilla的《在數據科學和機器學習中使用Python》(Python for Data Science and Machine Learning Bootcamp)是不錯的選擇。該課程從Python基礎知識開始,逐步指導你如何使用scikit-learn和TensorFlow實現各種機器學習和深度學習代碼。本課程詳細介紹了Python中各種庫,用來實現機器學習模型。
此外,我強烈推薦Kirill Eremenko和Hadelin de Ponteves的課程《深度學習A-Z:人工神經網絡》( Deep Learning A-Z?: Hands-On Artificial Neural Networks )。通過該課程,我第一次接觸到深度學習。課程主要通過實際操作的編程教程,把握監督和無監督深度學習。
Lynda
我推薦Lillian Pierson的課程《在數據科學基礎訓練中使用Python》( Python for Data Science Essential Training 。該課程以統計分析為基礎,圍繞數據管理和數據可視化。
3. LinkedIn
LinkedIn是與數據科學社區有緊密聯系的的強大平臺。人們愿意在上面分享他們的經驗、想法和知識,從而幫助他人。在LinkedIn上,我學習到了很多,無論是技術知識還是職業咨詢等。
4. 其他資源
許多數據科學領域的初學者經常會被大量的資源所淹沒。除了以上資源平臺以外,還有Towards Data Science、Quora、DZone、KDnuggets、Analytics Vidhya、DataTau、fast.ai 等都是不錯的選擇。
建立作品集
個人作品集能夠展示你的經驗和能力,特別是當你沒有數據科學方面的博士學位時。
由于我只有物理學的學士學位,我沒有計算機科學相關學位,在大學的前三年中我也沒有任何相關的數據科學作品。建立個人作品集是很重要的,因為公司需要知道你學了些什么,如何能過為公司業務貢獻價值。這也是我決定實習和學習在線課程的原因。
不久之前,我和朋友一起參加由Shopee和工程與科技協會(IET)組織的Kaggle 機器學習挑戰賽。這是我第一次參加Kaggle比賽,我學習了如何使用卷積神經網絡(CNN)和遷移學習進行圖像識別。
結語
我分享了我進入數據科學行業的一些情況,希望我的經歷能夠讓你覺得數據科學其實很有趣,并不那么嚇人。直到我接觸到數據科學,我才愈發感受到什么是學無止境。我希望本文能夠激勵你去挑戰自己,實現自己的夢想。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24