熱線電話:13121318867

登錄
首頁精彩閱讀我的數據科學成長之路:從菜鳥到最年輕Kaggle X2大師
我的數據科學成長之路:從菜鳥到最年輕Kaggle X2大師
2019-08-14
收藏
我的數據科學成長之路:從菜鳥到最年輕Kaggle X2 大師

作者 | Mohammad Shahebaz

來源 | 圖靈TOPIA

本文作者Shahebaz,畢業于JNTUH大學電子與通信工程學院。他最近在Kaggle比賽中獲得了4枚銀牌和1枚金牌獎牌,并且擁有31 枚討論金牌,他現在是其所在國家(印度)最年輕(21歲)的Kaggle X2 Master。

他表示,介紹進入數據科學領域所需技能的文章有很多,分享成功經驗和意見的訪談也不少。但很少能找到文章具體介紹他們是如何開始自己的數據科學之旅的。所以,近期他在Medium上撰文分享了自己的成長經驗。

他表示,剛開始的時候,自己也是個菜鳥,對很多知識并不是很擅長;并且,數學也從來不是自己最喜歡的科目。然而,今天他卻很熱愛這個領域。。。


以下是文章具體內容:


少有人走的路

我是最近才開始參加比賽的,并且在過去的9個月中,在各種比賽中贏得了一堆獎牌。這聽起來是不是挺神奇的?

我曾經特別害怕參加Kaggle比賽,因為 - 覺得它們很難!

那么,這一切是從什么時候開始改變的呢?

2017年,作為Oppia.org的會員和活躍撰稿人,為了更好地工作,我開始學習Python 2.7。

后來我學會了所謂的“過時”的 Python2.7版本,但是又不得不重新學習Python 3。

我幾乎無法創建列表或add/join字符串,那時我也只是一名新手程序員。

我在開源貢獻期間學習了編程,使用git進行軟件版本控制,以及意識到了良好結構和文檔化代碼的重要性。

有一天,我正在搜索Python 2.7還能做什么的時候,瀏覽了一下互聯網并登陸了Kaggle。著名的Kaggle 聲明(statement)正盯著我,讀完問題聲明后,我驚奇地盯著屏幕。

我的數據科學成長之路:從菜鳥到最年輕Kaggle X2 大師

“在這次挑戰中,我們要求您完成對哪些人可能存活的分析”

我的數據科學成長之路:從菜鳥到最年輕Kaggle X2 大師

當我讀到這個。我感覺到了像追星族般的驚奇。預測幸存的人?這是什么樣的黑魔法?我甚至立刻檢查了Kaggle網站的真實性,第二個驚奇的時刻就是我意識到 -

數據科學聽起來像是21世紀非常真實的科幻技術!

就像一部科幻電影突然在我的現實生活中出現,它的概念對我來說完全陌生。

我決定讓自己進入這個領域。而對數據科學學習的熱情一直在我身上保持。(老實說,即使今天也沒有任何消減)


我是如何學習的?推薦資源!


我的數據科學成長之路:從菜鳥到最年輕Kaggle X2 大師

▲選擇的悖論——越多越少

如今,網上有很多課程。通過谷歌搜索 - “如何成為數據科學家” ,你就會得到許多結果,也就很容易陷入選擇的悖論。這種感覺就像在餐館里從琳瑯滿目的選擇中選擇一道美味的開胃菜。就本文的范圍而言,我將列出我最喜歡的幾本書。


Python推薦

如果您使用Python編寫代碼并且您的技能處于中間水平,則本書應該放在您的書架上。

《Python的數據結構和算法》由Michael T. Goodrich,Roberto Tamassia,Michael H. Goldwasser 撰寫。

我的數據科學成長之路:從菜鳥到最年輕Kaggle X2 大師

▲《Python中的數據結構和算法》

本書深入探討了Python中的OOP,數據結構和算法的概念。我喜歡本章每一節的練習。在制作需要優化和格式化編碼的車庫項目時,我仍然將其用于日常參考。


著手機器學習基礎知識

結束Python基礎知識之后。我買了幾本關于機器學習的書,我推薦這本書;

▲《用Python學習機器學習

《用Python學習機器學習》,作者是Andreas C. Müllerand Sarah Guido

它涉及機器學習的基礎知識,由scikit-learn的創始人自己編寫,它是一本完整的初學者入門書。

讀這本書讓我非常熟悉scikit-learn,我最終還在官方的scikit-learn存儲庫中推了幾個PR。

但是,如果您熟悉數據科學并已進入任何機器學習競賽的前20%,您會發現上述的書挺無聊的。但是,如果你仔細閱讀,肯定有一些方便的技巧和方法可以幫助你在比賽中獲得優勢。

另一本比MOOC更值得推薦的書是《Introduction to Statistical Learning with Applications in R》

如果我是一名面試官,我會找一個在理論和實踐中理解ISLR的人。

我的數據科學成長之路:從菜鳥到最年輕Kaggle X2 大師

▲《ISLR》

這本書是關于R語言的。但是,我仍然十分推薦它。

通常在研究背景下,對于想要深入挖掘并達到統計核心的人來說,《統計學習的要素》是非常推薦的一本書。ISLR和ESL這兩本書都是可以免費下載的。因此,您不必破費,就可以獲得免費的機器學習知識。

我的數據科學成長之路:從菜鳥到最年輕Kaggle X2 大師

▲《統計學習的要素》


人們經常問我 - 你學習機器學習的MOOC是什么?

答案是None。

我發現在線課程沒有效果。至少,我注冊的那些沒有效果。有以下幾個原因:

  • 與書籍相比,在視頻中很難找到概念參考;
  • 書籍會深入足夠的細節。

這并不意味著我討厭MOOC。事實上,我計劃在今年完成一些工作。我建議你把基礎打牢,而不是專注于觀看只針對單一課程的視頻內容。閱讀書籍和資源肯定擴展了我對某些概念的認識,我現在可以從不同的角度來解釋這些概念。


初學者的生活

我經常在LinkedIn上收到想要從事數據科學的人發來的信息。但痛苦的現實是,根據你之前所做的,學習曲線并不陡峭。我會讓你從我的經歷中走出來。

這是我當時的問題:

1、如何開始使用數據科學?

2、我完成了一堆算法。接下來做什么?

3、如何找到工作并搞定數據科學面試?

4、做Kaggle值得嗎?比賽會有所作為嗎?

我非??释玫竭@些問題的答案!

我的數據科學成長之路:從菜鳥到最年輕Kaggle X2 大師

現在,我已經通過了系統的學習,可以用一句話回答你:事情沒那么簡單,這很復雜。

部分原因是術語—數據分析師、數據科學家和ML工程師是三個不同的頭銜。這份工作的性質因公司而異。

數據分析師有時只能執行SQL查詢,或者構建模型或進行業務分析。有時他們也會成為項目經理。

數據科學家有時制作基本模型,其他角色需要博士學位。研究工作和很少的其他工作需要在大型系統上進行模型調優和部署。

ML Engineer是融合了數據科學知識的軟件工程專業知識

問題是……

您的夢想數據科學工作沒有固定的職位描述。

許多公司仍在搞清楚“究竟什么屬于數據科學,應該關注哪些問題”。在這種情況下,你的學習必須是連續的,而不是受MOOC課程時間限制的,這一點變得非常重要。

追隨你的激情,解決問題。比如從你的Android手機上收集數據,匯總推文研究你最喜歡的演員的粉絲,在《復仇者聯盟3:無限戰爭》中應用奇怪的機器學習案例等等。

我的數據科學成長之路:從菜鳥到最年輕Kaggle X2 大師

▲我的圖像說明項目

想象力是無限的,ML也有無限的可能性?,F在讓我們來探索成為一名更好的數據科學家的能力技能。


數據科學愛好者的目標清單

該列表適用于數據科學家角色,但是如果您申請領域特定的角色,則可能需要更多的技能。

1. 掌握統計和概率:比較容易,這項技能數據科學領域的面包和黃油。我強烈推薦面包優先的方法,除非你是寫研究論文或在學術界的角色。

在現實世界中,雖然在編寫代碼時不會經常使用stats知識。但是,掌握好stas知識不僅能讓你成為更好的數據科學家,還能幫助你做出關鍵決定。

2. 參與數據科學競賽:主要是學習不一定非要贏比賽。我明白在比賽中獲勝并且贏得獎金聽起來有利可圖。我花了100多場比賽才進入我的第一個50強排行榜。沒有人從第一天開始就是贏家。比賽將幫助您在競爭激烈的世界中回顧自己的成長。

3.你的項目是你自己最好的代言人:使您的GitHub配置文件保持活躍并完成至少2-3個項目,包括文檔的最終實現。雖然比賽是應用你的技能的一種方式,但是對他們的反對聲很大。

比賽并不是現實世界數據科學任務的同義詞。他們就像在一家五星級餐廳品嘗現成的拼盤。

從頭開始貢獻或處理項目將使您在實際數據科學任務中獲得經驗,這些任務才被認為是最重要的。


數據科學&其他

如果你正在尋找一個職位,如果職位描述要求你全能:既要求你是數據科學家又要有8-10年“spark”經驗。

趕緊跑吧!(Spark是2011年推出的!)

有很多公司只是因為媒體炒作或者人云亦云的趨勢而想要去推動數據科學。

有時候,他們需要的只是.groupby(),而不是機器學習。

未來的工作角色將會大不相同。作為一名數據科學家,請確定您想要進入的領域。目標是你在那個領域的項目和競賽。

招聘人員更傾向于雇傭已經從事過公司目前正在從事的工作的人。

假設你要去一家餐廳吃海德拉巴Biryani。你會喜歡一個剛剛在YouTube上看過菜譜的新廚師,還是喜歡一家專門制作正宗海德拉巴Biryani的餐廳?公司也是如此。他們想要的是一個有經驗的人。

例如:我經常堅持參加金融領域和NLP的競賽。這是我幾個月前接受采訪時最大的優勢。我可以問更多與領域相關的問題,了解公司目前正在進行哪些項目,以及我認為自己適合哪些領域。

畢竟,比工作更重要的是,可以在你最喜歡的項目度過每個星期一上午。


寫在最后

我遇到了這樣一個奇妙的場景,實際上是一個極端的場景。想象一下,如果Tensorflow消失了會怎樣?

您意識到您不再是數據科學家和ML工程師了!

這個想象很有趣但也合法。

未來可能會有一些新的工具和數據科學庫。曾經XGBoost是商業機密算法,現在它完全開源。明天,其他一些工具將改變數據游戲。

AutoML已經在引領下一代數據科學解決方案。我親自從H2O.ai中找到無人駕駛 AI !

我的數據科學成長之路:從菜鳥到最年輕Kaggle X2 大師

當重復性任務自動化時,業界總會出現問題。讓自己了解并學習核心技能,而不是少數庫的語法。探索:

你需要讓自己時刻保持學習和成長。

打個比方,如果您自己不進行.transform()和.fit()改進,那么您將成為一個under fit分類器~

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢