熱線電話:13121318867

登錄
首頁大數據時代我迄今為止的數據科學學習之旅
我迄今為止的數據科學學習之旅
2022-03-14
收藏

自由數據科學家Arnuld談數據

埃里克·韋伯(是的,那個長得不錯的家伙帶著一只可愛的狗)最近在LinkedIn上寫了一篇帖子,講述了當他開始數據科學生涯時,他希望自己能少做的10件事。這篇文章是我通過這十點的旅程。首先,你應該繼續閱讀他的帖子。下面是截圖:


首先,這不是一個“內容”的帖子。

已經有這么多的文章和博客帖子了,所以看看他們。在這里,我們將談談你的重點和方向,當你渴望成為一名數據科學家,并得到業界的關注。

1)認為我需要學習一切


是的,這需要你很多時間和精力。這個障礙是你應該馬上處理的。一開始我和它作斗爭,但幾個月后,它就消失了。我把這個突破歸因于我的日常閱讀習慣。

我一直在閱讀LinkedIn上的帖子(尤其是埃里克·韋伯本人的帖子)。此外,我每天讀很多來自不同數據科學家和機器學習工程師的博客,讀一兩個小時或更多。這讓我明白了數據科學在工業工作中的重要性:你用你的技能為組織增加了多少價值。通過構建你感興趣的東西或構建解決問題的東西來定義價值。你通過回答這個問題來選擇學什么,它會給你一個關于什么該學什么不該學的想法。

我花了幾個月才意識到這一點(我猜是6個月)。我將把這幾個月加在一起,看我們可以節省多少時間。


2)為面試瑣事做準備。


是的,這是另一場斗爭,主要是因為以下幾個原因:

  • 對于什么是數據科學家,沒有一個統一的定義。對他的工作職責只有一個模糊的想法,這些職責與數據分析師或機器學習工程師有什么不同?
  • 然后是令人困惑的工作描述。由于對數據科學家沒有一個令人滿意的定義,你會看到這樣的描述:機器學習、軟件工程、Python、R、多年的統計學、微積分、線性代數、Big-O等等??粗ぷ髅枋?,你覺得你需要50歲以上才能申請這些工作。

別上當。不要把工作描述放在心上。大多數“面試瑣事”是數據科學的新事物與組織中人才獲取、數據科學和軟件工程團隊之間溝通渠道不暢的結合。與其對此感到不知所措,你需要專注于如何破解它。

解決這個問題的一個方法是通過觀察現實。如果你認識任何現實生活中的數據科學家、數據分析師和機器學習工程師(離線的,在物理世界中),和他們談談他們的工作將是一個很好的主意。如果你不認識任何人,那么你可以隨時查看博客和文章。

我線下不認識這方面的專業人士。所以我通過閱讀博客和文章來學習。我所了解到的是,公司會招來很多人參加面試,他們都是“懂”東西的人,但很少有“造”東西的人。因此,專注于構建材料而不是單純的學習和教育(例如,部署和生產是兩件重要的事情)。我花了5-6個月才意識到這一點。

6+6=迄今12個月

3)試圖模仿別人的道路


啊哈,這是我最喜歡的:-)因為這是我浪費了大部分時間的地方:

  • Tetiana Ivanovaland6個月就找到了工作
  • 凱利·彭蘭德達辭去數據分析師工作一年后的工作
  • Natassha Selvaraj找到了一份工作,她正在大學學習
  • Mikko Koskinenen根本不打算成為一名數據科學家
  • 托馬斯·赫普納覺得自己比泰坦尼克號數據還失落,一年后,他作為一名數據科學家進入了這個行業

看看我的個人資料,我在軟件開發(C語言)方面有4.5年的經驗,現在已經做了8個月的數據科學工作,但仍然遠遠沒有回答這個問題:

你最喜歡的機器學習算法是什么?為什么?

是的,我同意我的情況看起來像是big-o:O(n^n)的最壞情況

我讀過成百上千(不,我沒有夸張)的博客帖子和文章,這些人找到了數據科學的工作,改變了行業。我追蹤并模仿他們的數據科學之旅進入我的生活,從他們的思維模式到他們課程的選擇,甚至他們對某些書中某些章節的選擇,就像一份完美的復制品。我仍然沒有回答上面的問題,因為我甚至不知道為什么我會喜歡一個機器學習算法而不是另一個。畢竟,我只是在無意識地咀嚼所有的模特,以“變得像他們一樣”的名義。

兩天前,我放棄了它,決定遵循我認為我應該做的事情。(令人驚訝的是,我今天看到了Eric的帖子。好像宇宙在告訴我,我走在正確的道路上,一條屬于我的道路。)

我認為我們每個人都必須個性化我們的旅程。我們的環境、我們的才能、我們的經驗、我們的態度、我們的職業道德、我們的背景和我們的學習能力,都是不同和獨特的。這就是為什么追蹤別人的路徑可能永遠行不通。

所以我決定我將嘗試和開創自己的道路,成為一名數據科學家。這并不是說我會停止閱讀別人的旅行,我仍然會閱讀,但我不會盲目地跟隨他們,試圖將其復制到我的生活中,我會把它們作為指南針,作為指導機制。這花了我8個月的時間。遲來總比不來好。

6+6+8=20個月


4)關注完美的解決方案。


我的計算機編程經驗解決了這個問題。我花了50年的時間在這個行業做編程,寫代碼為我的雇主賺錢,這已經教會了我“完成”比“完美”好。發現一個人面臨的問題,并建立一個解決方案,實際上是唯一重要的事情。單純的學習和教育是不行的。

6+6+8+0=20個月

5)學習我很少使用的高級統計數據


回到2018年,我花了很多時間為數據科學學習數學和統計學。我花了4個月的時間學習:

  • 可汗學院代數一和二
  • 馬里利桑那州立大學edX學院級代數與解題
  • MIT大圖微積分從YouTube
  • 西爾瓦納斯·P·湯普森使微積分變得容易??蓮腉utenberg項目免費獲得
  • 微積分1A:與MITat edx的微分。
  • 可汗學院微積分1中的極限和積分。
  • 閱讀不同的統計學書籍以獲得統計學思維方式

這是一個多么大的錯誤:-(.據我今天所知,我所需要的只是:

  1. 統計學基礎。不是統計本身,而是機器學習和數據分析特別需要的主題
  2. 貝葉斯定理基礎
  3. 線性代數基礎(只有一些小東西,如矩陣乘法和轉置等)
  4. 大O符號的基礎(查看Outtreature Cake的解釋)

是的,沒有什么花哨的,只有基本的。你找到工作后能做的所有花哨的事情。在此之前,您使用Python或R庫。不要像在學?;虼髮W里那樣試圖學習數學公式,而是嘗試使用Python中的庫調用來學習如何使用它,例如使用Scipy計算t檢驗,并學習理解它所需的數學知識:

3.1。Python-Scipy課堂講稿中的統計學
一個簡單的線性回歸給出兩組觀測值,x和y,我們想檢驗y是線性的假設...

嗯,有8-10個月:

6+6+8+0+10=30個月


6)認為R與Python的辯論只需要選擇1。


我糾結于這個問題:

  1. 從R開始的數據科學比哈德利·韋翰。讀了幾章,然后放棄了,因為我讀到Python正在工業世界中取得進展。
  2. 我從Python開始,嘗試了幾本書,然后我回到了R,因為ggplot看起來比matplotlib更好。
  3. 然后我又回到了Python,因為它更具有軟件工程的感覺。
  4. 回到R,因為tidyverse作為一個包,在數據分析和可視化方面比Python工具成熟得多。

當我從一家公司得到一個帶回家的任務時,這個問題就消失了,這家公司找我做R相關的工作。在使用R和Python完成帶回家的任務后,我再也不想碰R了。根據我的經驗,Python更適合于軟件工程實踐,而在為實際工業工作編寫數據科學代碼時,軟件工程實踐是絕對必要的。它幾乎和你在做軟件開發時一樣。從那以后,我完全變成了Python。就我個人而言,如果我必須使用另一種語言,我會使用JuliaInstead。大約4-6個月。

6+6+8+0+10+4=34個月

7)花大量時間思考非結構化數據


這個錯誤是我在“數學錯誤”之后做的。我花了幾個月的時間思考SQL與NoSQL的對比。我們看著某件事,我們從我們的觀點來思考它,并認為這就是它的意思。我們都知道這是一個數據時代,每天都有數百萬兆字節的數據產生。大部分都是非結構化的。我猜我應該學習NoSQL。但是幾乎所有的工作描述都只提到SQL。然后我會想到做SQL。


我既沒有學SQL也沒有學NoSQL。這就是為什么對一件事左右為難會消磨你幾個月的時間。

我不再以我的方式來解釋事情,而是開始關注那些獲得數據科學工作的人以及他們學到了什么。他們都把SQL列為一種技能。所以我改用SQL。開始ISSQLBolt的好地方。

我不會在這里考慮任何時間浪費,因為即使我沒有學到任何東西,我用這些時間來學習其他東西。所以,到目前為止的等式是:

6+6+8+0+10+4+0=34個月

8)考慮的是技術,而不是業務


這是一個你需要認真改變心態的領域,我也需要這樣的改變。我的計算機編程背景使我成為一個百分之百的技術人員,他真的不知道如何不僅僅是一個團隊工作者。對團隊的貢獻是我社交和溝通技巧的終點。

我從一開始就不知道這一點,但由于我的閱讀習慣,我發現了數據科學的許多特點,使它與其他技術工作格格不入。我克服這一點的一個方法是與我認識或遇到的人談論大數據。通過向我的朋友和其他人解釋數據科學,機器學習概念。但是由于我的自由職業工作和數據科學學習需要我花很多時間在電腦前,我沒有得到很多機會來鍛煉這種方法。


數據科學不僅僅是編程,數據科學不僅僅是Web開發,它不僅僅是分析數據和建立模型。這是故事的一半。數據科學的另一半是能夠與不太懂技術的人交流。業務利益相關者、管理層的決策者和客戶是你將要與之打交道的三種不同類型的非技術人員。因此,如果我們把與人合作視為“另一項技術工作”,那么它將是一個巨大的痛苦。Bycole Nussbaumer Knaflic有一本關于交流數據洞察力的優秀書籍,書名為“用數據講故事”。它是一種必讀的書。

這還有另一面。業務問題。你所建立的模型,你所做的比較,以及你所達到的準確性,它是如何使業務受益的?你看,如果一個數據科學家不能為業務帶來利潤或利益或增值,他的工作就沒有意義。如果你來自像我這樣的技術背景,這是一件很難掌握和擅長的事情。在這種情況下,技術心態所做的是讓您的注意力只集中在構建模型和分析數據上,因為這是我們所做的。我們沒有業務上下文。

我沒有一個很好的解決辦法,因為從來沒有任何個人經驗。所以在這里半信半疑地接受我的建議。也搜索自己。我只能閱讀博客、帖子和文章來理解該做什么。我也不認識任何產品經理(我見過一兩個IT服務經理,但我不知道這是否合格)。我遇到的唯一解決這個問題的方法有兩個:

  1. 閱讀案例研究,產品案例研究。這就是產品經理所做的。因此,如果你認識任何產品經理(甚至是項目經理),你應該和他們談談他們的產品/項目是如何給公司帶來價值的。
  2. 讀一些書,比如蓋爾·拉克曼·麥克道爾·杰基(博?。ぐ屯吡_的《破解首相采訪》

如果你是一名程序員或軟件開發人員,不了解這一點會使你在技術技能上工作時間長而辛苦。6個月的損耗:

6+6+8+0+10+4+0+6=40個月

9)努力跟上所有的報紙


你需要避免的另一個陷阱。我在這里面陷了一段時間。我想自己寫一兩篇論文,但現在我的第一個重點總是“構建某個東西”。盡可能少地學習構建某個東西。

是的,所有這些文件看起來非常非常令人印象深刻,非常漂亮。論文大多是關于學術的。你正試圖在這個行業找到一份工作。學術界和工業界并不匹配,除了兩個可能的例外:

  1. 你正在尋找一個行業內的研究職位。在這種情況下,你的投資組合將僅限于10-20%的雇主。
  2. 你想為四大公司工作,即Facebook、亞馬遜、谷歌和微軟。

除了上面所說的,我看不出偏離我的重心在一個好的一級或二級公司找到一個數據科學家的職位有什么意義。別誤會我的意思,我喜歡做研究。事實上,早在大學時,我就想讀博士學位。在微內核研究中。研究工作需要大量的時間和精力。我認為更好的生活方式是在職業生涯中找到平衡點:在你的興趣和市場/行業需求之間找到平衡點。避免在任何一邊摔倒。


與其跟上所有的論文,一個更好的平衡學習的方法是:

  1. 使用Pandas學習數據清理的基本知識(Kaggle datasets已經為你完成了90%的工作。在現實生活中,你必須完成所有的清理。學習刮擦一些數據并清理它)
  2. 學習機器學習建模的基礎知識,以及為什么我們選擇一個模型而不是另一個模型。什么樣的模型適合什么樣的領域問題,例如醫療保健與財務
  3. 了解如何將模型部署到生產中(您將了解使用EstrealmLit、Heroku和Voila時實際工作的感受。我在這里使用Voila實現了熊檢測模型。)

6+6+8+0+10+4+0+6+10=50個月

10)相信做某事只有一種方法


這個很大。我想我一輩子都在為此掙扎。有些人有,有些人沒有。我傾向于說,也許聰明人沒有這個問題(我見過或讀到的聰明人,他們沒有)。像我這樣的人一輩子都在努力戰勝它。這是個監獄,相信我。帶著“做某事只有一種方法”的心態生活是相當令人沮喪的。如果你看現實生活中的故事,想法沒有任何限制。


這更多的是個人發展的障礙,而不是技術上的障礙,因為無論你在哪個領域工作,這一個都會出現,它絕對與技術無關。我還在努力。到目前為止,我找到的一個解決辦法是,當我在某個問題上找不到路時,如果是晚上,我會下機器去散步;如果不是晚上,我會讀一本完全無關的書(一些非小說類的書),或者騎摩托車,完全忘記這個問題。然后我會回來,試著從不同的文章或博客文章中學習同樣的東西,而不是提到我被困的原點。只是從別人的角度看待同樣的問題。

我不能給這個規定任何時間限制。我一生都在為這個奮斗:

6+6+8+0+10+4+0+6+10+壽命=50+壽命

所以,我浪費了將近50個月?

不是真的。

當談到我浪費時間的地方時,所有這些觀點都相互重疊。實際上是12個月。2019年12月至2020年11月。在開始的幾個月里,我甚至不知道我需要做什么。事情直到今年2020年3月才開始有意義。我想如果事情對我來說更清楚,我可以節省4-6個月的時間,但這只是一個瘋狂的猜測,一些真正聰明的人告訴我:需要任何時間來打破障礙。讓我再重復一遍:

我們每個人都有一次個人數據科學之旅。我們的環境、我們的才能、我們的經驗、我們的態度、我們的職業道德、我們的背景和我們的學習能力,都是不同和獨特的。這就是為什么也許追蹤別人的道路永遠行不通。這就是為什么你需要不斷推動自己學習你能學到的東西,讓自己了解這個行業正在發生的事情,并不斷糾正你的道路(就像我們智能手機上的地圖等應用程序不斷糾正我們并指明方向)

獎金--你的精神面貌


我試圖學習神經網絡,然后才能理解邏輯回歸線性回歸更適合什么樣的問題。在機器學習有任何意義之前,我就在做深度學習。就我而言,這是因為:

  1. 媒體--炒作AI和深度學習
  2. 我專注于建造一些偉大的、真正令人印象深刻的東西
  3. 假設每個人都在做這件事,如果我想找到一份工作,我需要做得比他們更好。畢竟市場競爭如此激烈。
  4. 聚焦四大
  5. 我對醫療保健數據和Codershas醫學影像診斷章節的實用深度學習感興趣。你可以在這里看到一個例子。

深度學習和AI在媒體中無處不在。我們傾向于認為我們需要比其他人更好,而其他人已經在寫高度數學化的博客文章,用他們華而不實的公式和大量代碼。不相信我?檢查一下這個。當這樣的人已經掌握了深度學習和數據科學,誰會接近我們?

是啊,這太常見了,他們給它起了個名字。它被稱為“冒名頂替綜合癥”。去讀一下吧。我以為我唯一一個受折磨的人。但后來我意識到這很常見。是的,市場是競爭的,由于目前的流行病,許多人失去了工作。我在領英上看到過幾個數據科學家和機器學習工程師失業的帖子。我見過他們甚至懇求“喜歡和分享”他們正在找工作??吹竭@一點令人心碎。每個人都值得過上好日子。


讓我們看看積極的一面,這場流行病擾亂了世界,它使許多企業陷入停頓,而一些企業的客戶端數量飆升(播客和視頻會議服務就是其中之一)。在這樣一個混亂的時代,我們需要更好地承受痛苦和苦難,并找到加強我們決心的方法。我相信我們出生在某一年不是偶然的,這就是我們在這場流行病中的原因。我認為我們應該從中吸取教訓,我們應該在這些時代創造更好的生活。我祝你在數據科學的學習之旅中好運,我希望我們繼續相互學習,使自己變得更好。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢