
數據科學是成功的。全球成千上萬的學生報名參加在線課程,甚至數據科學碩士課程。
數據科學領域是一個競爭非常激烈的市場,尤其是在一家大型科技公司獲得一份(假設的)夢想工作。積極的消息是,通過充分的準備,你已經掌握了在這樣一個職位上獲得競爭優勢的機會。
另一方面,也有很多MOOC、碩士課程、訓練營、博客、視頻和數據科學院。作為一個初學者,你感到失落。我應該上哪門課?我應該學習哪些主題?我需要關注哪些方法?我必須學習什么工具和編程語言?
事實是,每個數據科學家都有她/他的個人旅程,并偏向于那條學習道路。所以,如果不了解你,很難說什么是對你最好的方法。
但也有所有數據科學家一遍又一遍地犯的共同錯誤。即使知道了它們,你也不會完全回避它們,但最終,你會更早地停止去做它們,并發現更快地回到成功的道路上。
基于我在數據科學領域20多年的經驗,帶領多達150人的團隊,并仍然在全球領先的大學之一兼職授課,我為你總結了避免更快實現夢想的核心錯誤。
錯誤給出了作為一個初學者的數據科學家的學習進度的順序。
我知道你被所有的課程淹沒了,你盡量不犯任何錯誤。你想有效地投資你的時間和金錢,選擇正確的方法,承諾最快和最好的成功。
不幸的是,在任何技術和科學領域都沒有立竿見影的成功,為了最好的成功,你不會有任何比較。
事實是,今天,所有已建立的平臺、學院和研究所都有很好的課程。所以,不要過度思考和分析課程。勇敢地選擇一個,完成那個課程,然后再選擇另一個。
最關鍵的方面是開始和做。你不能在這里犯錯誤,因為你既不知道你的旅程,也不知道當選擇另一個時,它會有什么不同。沒人能告訴你。經期。
同樣重要的是要認識到學習是循環的,而不是線性的。選修一門數據科學課程并不排除你正在選修另一門。
在我多年的經驗之后,我仍然從事數據科學、機器學習和人工智能訓練。在每一個仍然如此“簡單”的初學者課程中,我發現了一個新的方面和關于這個主題的新觀點。而這正是最終造就一個高要求數據科學家的原因。它是理解對一個主題的所有不同觀點。
許多有抱負的數據科學家認為,簡歷中提到的盡可能多的方法有助于更快地找到工作。但事實恰恰相反。當你在六個月前開始為每個招聘人員提供數據科學時,很明顯,這是一個沒有實質內容的流行語。
如果我們看回歸模型,有很多書只是關于回歸。有50多種回歸類型,每種都有不同的前提條件。所以,只有“回歸”在你的簡歷中沒有說什么。此外,回歸模型仍然是應用程序的最重要的模型,并為一般的數據科學奠定了理解的基礎。
你必須明白用一種方法解決的是什么;假設是什么;參數是什么意思;什么是陷阱;等等,等等。
根據簡歷和回歸知識的描述,每一個有經驗的招聘人員--或者今天,這個過程背后的算法--都可以識別你理解的深度。
只對少數幾種方法有深入的知識和經驗,總比對許多方法一無所知要好。
當開始編碼時,人們認為他們必須迅速開始編碼和重新編程盡可能多的算法。另外,在這里你應該集中于理解幾個而不是數量。
首先,你需要了解編碼的先決條件:線性代數、數學歸納法、離散數學、幾何學--是的,這是優秀程序員的強項,但經常被數據科學家遺忘,統計學和概率論、微積分、布爾代數和圖論。
我并沒有因為編碼更多而變得更好更快。我通過理解數學基礎,審查其他人的代碼,并在不同的數據和問題上運行和測試它們來擅長編程。
是的,編碼是必不可少的,但更重要的是理解代碼的(好的)架構。而這只能通過查看其他代碼來了解。
一個事實是,代碼越來越成為一種商品,甚至出現了無代碼工具。區分者將不再是那些能編碼和不能編碼的人,而是那些理解其架構和不理解其架構的人。
我向您展示另一個示例:我假設您已經使用了TensorFlow。但你明白是什么嗎?它是做什么的?以及它為什么被稱為“TensorFlow”?你知道張量是什么嗎?不僅僅是張量積的機械計算,它在幾何上意味著什么?
學習數據科學是一種嘗試和錯誤。只有當你做了盡可能多的經驗,找出所有的錯誤并解決它們時,你才會有更深的理解。
理論是好的和重要的。你需要了解基本原理。
不幸的是,在實踐中,它很少像理論上那樣起作用。相反,它經常以一種方式精確地起作用,正如你所知道的那樣,你不應該這樣做。
所以,你必須從實際的例子開始。通常,您還沒有準備好去做實際的工作:沒有足夠的基礎知識或者沒有足夠的編程經驗。
但我強烈建議:即使你覺得還沒有準備好做練習,也要從一開始就開始。它不是一個為期一天或一周的項目。一個1-2小時的小項目就足夠了。
您可以從像RapidMiner或KNIME這樣的無代碼工具開始,也可以使用其他人的代碼并應用它。例如。拿一個簡單的情感分析代碼,用它來推文或產品說明。然后您可以開始更改其他示例的代碼并比較結果。
當你小時候學會說話時,你開始用單個單詞或兩三個單詞的表達。一步一步地,你對這種語言建立了一種感覺。數據科學的實踐經驗也是如此。
專業提示:學習是循環的。所以,儲存你的工作。稍后您可以返回,改進它,將其移到GitHub,并使用Tableau添加可視化。
認證沒問題。有很多聲音告訴你,你不應該做認證。但它們可以作為一種動力,最后,它們正式地顯示了你的進步和你對學習的渴望。我還是做證件的。它沒有錯,當你投入時間時,擁有它是合法的。
但它不是市場上的差異化者。事實是,有成千上萬的人有同樣的認證。因此,要擁有競爭優勢,你必須超越這一點。
例如,我的一個學生向我尋求金融領域的實習機會。他想學以致用,了解數據科學團隊的文化和合作。我可以把他放在銀行里,他可以用銀行寫學期論文。是的,同時做學習、實習和學期論文是很有壓力的。但這將為他提供無價的競爭優勢。
大多數有抱負的數據科學家擔心其他數據科學家的意見。而且他們聽到的論據越多,他們就越困惑。即使在清晰的道路上需要混亂,但它不應該保持穩定的狀態。
每一個數據科學家都是一個擁有她/他的經驗、學習和職業道路和觀點的個體。我習慣說,“如果你有兩個數據科學家在一個房間里,你至少有四個不同的意見?!?
把意見作為靈感和作為搜索信息的指南是好的,但不是作為信息本身。
尋找確鑿的事實。得出合乎邏輯的結論,驗證并再次更新它們。這是在你的數據科學職業生涯中取得成功的一項重要技能。
許多數據科學家認為他們可以將這些方法應用于每個問題和行業,但我可以告訴你,從20多年的經驗來看,這是錯誤的。
我經??吹綌祿茖W家向商業人士展示發現,他們的反應是,“哦,我們已經知道這一點了。我們需要的是“為什么會發生這種情況”和“如何解決它”,或者,在最壞的情況下,“這絕對是胡說八道,因為這不是我們的業務運作方式?!编?!
擁有領域知識比了解所有性別歧視和最花哨的方法更重要。一個數據科學家正在解決一個商業問題,而不是一個技術問題。通過解決一個業務問題,你給公司的業務帶來了價值,而你的價值只有你的解決方案的價值。當你了解業務時,你就成功地做到了這一點。
我在許多不同的行業工作過。每次在我開始從事這個行業之前,我都會讀到很多關于這個行業的東西。
只有那時,我才開始與商家互動。
你學習的一半應該包含工業和商業知識的發展。
很容易因為不懂題目而分心或提前放棄。學習數據科學是一場馬拉松,而不是短跑。因此,建立一個持續和一致的學習常規是至關重要的。就像馬拉松訓練一樣,你每天都在小單位訓練。
同樣,正如前面所寫的,學習是循環的。曾經研究過一個課題并不意味著你已經掌握了它。
我舉個例子。在數學金融講座中,我不得不學習許多極限定理??荚囘M行得很好,我確信我理解他們。但七年后,當我不得不審查復雜結構金融產品估值的代碼時,天平從我的眼睛里掉了下來,我意識到直到審查代碼的那一刻我才明白。
所以,每天,或者至少每周,預定幾個小時來學習。不管你是一個有抱負的人還是已經是一個資深的數據科學家。
學習應包括新的數據科學主題、已學過但從另一個角度出發的主題,例如另一門課程或書籍、新技術和技術趨勢、工業和商業知識、數據可視化和數據故事,以及數據應用。
它增加了一層又一層的理解,在求職面試中,你將能夠通過從不同的角度展示整體觀點來給出令人信服的答案。
在一份數據科學工作中,您主要將您的發現傳達給非技術人員,特別是業務人員。生意在資助你的工作。沒有他們的承諾,你的工作和數據科學團隊就不會存在。
你的工作是為企業帶來價值。不是為了應用而應用花哨的方法。
我的一個朋友是一家全球性銀行的數據科學主管。當他們雇傭數據科學家時,他們會提前兩周給他們發送一個數據集,并要求他們做20分鐘的演示。沒有進一步的投入。他們想看講故事。他們對所使用的方法不感興趣--除了候選人會對所使用的方法說出絕對無稽之談。他們希望看到的是,首先,業務問題的框架,以及為什么解決它很重要。第二,應該解決什么和最后,如何解決,以及在業務環境中的結果?!斑@是我們一整天做的最重要的工作。候選人在這方面不能盡善盡美,但要表明她/他已經明白我們工作中什么是重要的?!?
因此,學習數據講故事--甚至有免費的課程--并學習業務環境中的數據可視化。
許多人認為他們可以通過自己的努力學習數據科學。所有其他數據科學家都被視為競爭對手,其中一個不愿意交流知識。
但是生活在你的世界里,你只根據你的選擇來閱讀和學習,這是非常有偏見的,對一個主題或方法的許多觀點都是缺失的。此外,關于一個主題的開放式論述和在論證中獲得經驗是缺失的--這是任何數據科學家都需要的技能。
任何有經驗的招聘人員在問一兩個問題后都會知道你是一個人表演,還是你有一個生動的網絡來幫助你成倍地獲得知識。這有利于公司,增加您的市場價值和需求。
因此,發展網絡是至關重要的。這可以通過參加訓練營、黑客馬拉松和Meetup會議來實現。
現在,你從理論上知道你應該避免什么了。
這些錯誤中的任何一個對你的數據科學工作來說都是一個潛在的攪局者。
我知道你還會犯幾個這樣的錯誤。我沒有什么不同。認為“我與眾不同”是人之常情--盡管數據說的恰恰相反。但是意識到這些潛在的錯誤將幫助你更快地重新調整你的路徑,從而更有效地成為一名被要求的數據科學家。
增加工作機會的一步一步實際指導
如何戰略性地利用Meetup會議來獲得你夢寐以求的數據科學工作
edX 2021上的數據科學微主程序最終指南
6個節目你該選哪一個?
頂級技術趨勢及其對數據科學、機器學習和人工智能的影響
為你和你的事業制定的行動計劃
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《劉靜:10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda ...
2025-04-23