
作者 | Mohammad Shahebaz
來源 | 圖靈TOPIA
本文作者Shahebaz,畢業于JNTUH大學電子與通信工程學院。他最近在Kaggle比賽中獲得了4枚銀牌和1枚金牌獎牌,并且擁有31 枚討論金牌,他現在是其所在國家(印度)最年輕(21歲)的Kaggle X2 Master。
他表示,介紹進入數據科學領域所需技能的文章有很多,分享成功經驗和意見的訪談也不少。但很少能找到文章具體介紹他們是如何開始自己的數據科學之旅的。所以,近期他在Medium上撰文分享了自己的成長經驗。
他表示,剛開始的時候,自己也是個菜鳥,對很多知識并不是很擅長;并且,數學也從來不是自己最喜歡的科目。然而,今天他卻很熱愛這個領域。。。
以下是文章具體內容:
少有人走的路
我是最近才開始參加比賽的,并且在過去的9個月中,在各種比賽中贏得了一堆獎牌。這聽起來是不是挺神奇的?
我曾經特別害怕參加Kaggle比賽,因為 - 覺得它們很難!
那么,這一切是從什么時候開始改變的呢?
2017年,作為Oppia.org的會員和活躍撰稿人,為了更好地工作,我開始學習Python 2.7。
后來我學會了所謂的“過時”的 Python2.7版本,但是又不得不重新學習Python 3。
我幾乎無法創建列表或add/join字符串,那時我也只是一名新手程序員。
我在開源貢獻期間學習了編程,使用git進行軟件版本控制,以及意識到了良好結構和文檔化代碼的重要性。
有一天,我正在搜索Python 2.7還能做什么的時候,瀏覽了一下互聯網并登陸了Kaggle。著名的Kaggle 聲明(statement)正盯著我,讀完問題聲明后,我驚奇地盯著屏幕。
“在這次挑戰中,我們要求您完成對哪些人可能存活的分析”
當我讀到這個。我感覺到了像追星族般的驚奇。預測幸存的人?這是什么樣的黑魔法?我甚至立刻檢查了Kaggle網站的真實性,第二個驚奇的時刻就是我意識到 -
數據科學聽起來像是21世紀非常真實的科幻技術!
就像一部科幻電影突然在我的現實生活中出現,它的概念對我來說完全陌生。
我決定讓自己進入這個領域。而對數據科學學習的熱情一直在我身上保持。(老實說,即使今天也沒有任何消減)
我是如何學習的?推薦資源!
▲選擇的悖論——越多越少
如今,網上有很多課程。通過谷歌搜索 - “如何成為數據科學家” ,你就會得到許多結果,也就很容易陷入選擇的悖論。這種感覺就像在餐館里從琳瑯滿目的選擇中選擇一道美味的開胃菜。就本文的范圍而言,我將列出我最喜歡的幾本書。
Python推薦
如果您使用Python編寫代碼并且您的技能處于中間水平,則本書應該放在您的書架上。
《Python的數據結構和算法》由Michael T. Goodrich,Roberto Tamassia,Michael H. Goldwasser 撰寫。
▲《Python中的數據結構和算法》
本書深入探討了Python中的OOP,數據結構和算法的概念。我喜歡本章每一節的練習。在制作需要優化和格式化編碼的車庫項目時,我仍然將其用于日常參考。
著手機器學習基礎知識
結束Python基礎知識之后。我買了幾本關于機器學習的書,我推薦這本書;
▲《用Python學習機器學習》
《用Python學習機器學習》,作者是Andreas C. Müllerand Sarah Guido
它涉及機器學習的基礎知識,由scikit-learn的創始人自己編寫,它是一本完整的初學者入門書。
讀這本書讓我非常熟悉scikit-learn,我最終還在官方的scikit-learn存儲庫中推了幾個PR。
但是,如果您熟悉數據科學并已進入任何機器學習競賽的前20%,您會發現上述的書挺無聊的。但是,如果你仔細閱讀,肯定有一些方便的技巧和方法可以幫助你在比賽中獲得優勢。
另一本比MOOC更值得推薦的書是《Introduction to Statistical Learning with Applications in R》
如果我是一名面試官,我會找一個在理論和實踐中理解ISLR的人。
▲《ISLR》
這本書是關于R語言的。但是,我仍然十分推薦它。
通常在研究背景下,對于想要深入挖掘并達到統計核心的人來說,《統計學習的要素》是非常推薦的一本書。ISLR和ESL這兩本書都是可以免費下載的。因此,您不必破費,就可以獲得免費的機器學習知識。
▲《統計學習的要素》
人們經常問我 - 你學習機器學習的MOOC是什么?
答案是None。
我發現在線課程沒有效果。至少,我注冊的那些沒有效果。有以下幾個原因:
這并不意味著我討厭MOOC。事實上,我計劃在今年完成一些工作。我建議你把基礎打牢,而不是專注于觀看只針對單一課程的視頻內容。閱讀書籍和資源肯定擴展了我對某些概念的認識,我現在可以從不同的角度來解釋這些概念。
初學者的生活
我經常在LinkedIn上收到想要從事數據科學的人發來的信息。但痛苦的現實是,根據你之前所做的,學習曲線并不陡峭。我會讓你從我的經歷中走出來。
這是我當時的問題:
1、如何開始使用數據科學?
2、我完成了一堆算法。接下來做什么?
3、如何找到工作并搞定數據科學面試?
4、做Kaggle值得嗎?比賽會有所作為嗎?
我非??释玫竭@些問題的答案!
現在,我已經通過了系統的學習,可以用一句話回答你:事情沒那么簡單,這很復雜。
部分原因是術語—數據分析師、數據科學家和ML工程師是三個不同的頭銜。這份工作的性質因公司而異。
數據分析師有時只能執行SQL查詢,或者構建模型或進行業務分析。有時他們也會成為項目經理。
數據科學家有時制作基本模型,其他角色需要博士學位。研究工作和很少的其他工作需要在大型系統上進行模型調優和部署。
ML Engineer是融合了數據科學知識的軟件工程專業知識
問題是……
您的夢想數據科學工作沒有固定的職位描述。
許多公司仍在搞清楚“究竟什么屬于數據科學,應該關注哪些問題”。在這種情況下,你的學習必須是連續的,而不是受MOOC課程時間限制的,這一點變得非常重要。
追隨你的激情,解決問題。比如從你的Android手機上收集數據,匯總推文研究你最喜歡的演員的粉絲,在《復仇者聯盟3:無限戰爭》中應用奇怪的機器學習案例等等。
▲我的圖像說明項目
想象力是無限的,ML也有無限的可能性?,F在讓我們來探索成為一名更好的數據科學家的能力技能。
數據科學愛好者的目標清單
該列表適用于數據科學家角色,但是如果您申請領域特定的角色,則可能需要更多的技能。
1. 掌握統計和概率:比較容易,這項技能數據科學領域的面包和黃油。我強烈推薦面包優先的方法,除非你是寫研究論文或在學術界的角色。
在現實世界中,雖然在編寫代碼時不會經常使用stats知識。但是,掌握好stas知識不僅能讓你成為更好的數據科學家,還能幫助你做出關鍵決定。
2. 參與數據科學競賽:主要是學習不一定非要贏比賽。我明白在比賽中獲勝并且贏得獎金聽起來有利可圖。我花了100多場比賽才進入我的第一個50強排行榜。沒有人從第一天開始就是贏家。比賽將幫助您在競爭激烈的世界中回顧自己的成長。
3.你的項目是你自己最好的代言人:使您的GitHub配置文件保持活躍并完成至少2-3個項目,包括文檔的最終實現。雖然比賽是應用你的技能的一種方式,但是對他們的反對聲很大。
比賽并不是現實世界數據科學任務的同義詞。他們就像在一家五星級餐廳品嘗現成的拼盤。
從頭開始貢獻或處理項目將使您在實際數據科學任務中獲得經驗,這些任務才被認為是最重要的。
數據科學&其他
如果你正在尋找一個職位,如果職位描述要求你全能:既要求你是數據科學家又要有8-10年“spark”經驗。
趕緊跑吧!(Spark是2011年推出的!)
有很多公司只是因為媒體炒作或者人云亦云的趨勢而想要去推動數據科學。
有時候,他們需要的只是.groupby(),而不是機器學習。
未來的工作角色將會大不相同。作為一名數據科學家,請確定您想要進入的領域。目標是你在那個領域的項目和競賽。
招聘人員更傾向于雇傭已經從事過公司目前正在從事的工作的人。
假設你要去一家餐廳吃海德拉巴Biryani。你會喜歡一個剛剛在YouTube上看過菜譜的新廚師,還是喜歡一家專門制作正宗海德拉巴Biryani的餐廳?公司也是如此。他們想要的是一個有經驗的人。
例如:我經常堅持參加金融領域和NLP的競賽。這是我幾個月前接受采訪時最大的優勢。我可以問更多與領域相關的問題,了解公司目前正在進行哪些項目,以及我認為自己適合哪些領域。
畢竟,比工作更重要的是,可以在你最喜歡的項目度過每個星期一上午。
寫在最后
我遇到了這樣一個奇妙的場景,實際上是一個極端的場景。想象一下,如果Tensorflow消失了會怎樣?
您意識到您不再是數據科學家和ML工程師了!
這個想象很有趣但也合法。
未來可能會有一些新的工具和數據科學庫。曾經XGBoost是商業機密算法,現在它完全開源。明天,其他一些工具將改變數據游戲。
AutoML已經在引領下一代數據科學解決方案。我親自從H2O.ai中找到無人駕駛 AI !
當重復性任務自動化時,業界總會出現問題。讓自己了解并學習核心技能,而不是少數庫的語法。探索:
你需要讓自己時刻保持學習和成長。
打個比方,如果您自己不進行.transform()和.fit()改進,那么您將成為一個under fit分類器~
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25