
作者 | Low Wei Hong
譯者 | Sambodhi
導讀:數據科學其實就是一門數學、計算機、軟件相關的復合型的技術,離開編程自然是無法存在的。無論是數據科學家還是數據分析師,都需要跨學科人才,必須知道如何操作代碼以便告訴計算機如何分析數據。他們要比軟件工程師更擅長統計學,比統計學家更擅長軟件工程,需要掌握的知識有數學統計、編程能力、機器學習、研究能力等。
如果我了解機器學習算法的全部數學邏輯,但我卻不能很好地進行編程,那我還有機會進入數據科學領域嗎? 如果我只是勉強了解哪些機器學習算法背后的數學知識,但我可以很好地進行編程,那我有沒有資格成為一名數據科學家?
我希望,在我大學畢業前努力進入數據科學領域之前就能知道這個答案是什么。
先說一下我的背景。我有數學背景,但在大學期間并沒有學過多少編程課程。我在大學學過的編程語言包括 R、C++ 和 Matlab。
Matlab 并不是開源語言,主要用于研究行業。R 沒有 Python 那樣擁有龐大的社區,尤其是在數據科學相關的庫中。C++(C 族)仍然是編程的基礎。所以如果你正在學習編程的話,我還是建議你學習 C 族的語言。
當我在實習期間,Python 在這個行業使用得最多。因此,我仍然需要自己去學習 Python。此外,我就只選修了一門與數學有關的機器學習課程。
我感到有些不知所措,因為,我不僅要學習數學,同時還要提高我的編程技能。因此,當時我就在想,我應該將更多的精力放在編程上呢,還是放在學習數學上呢?
數學,還是編程?
我將分享我的觀點,即在目前的行業中,哪一個實際上更受歡迎。
讓我來問你一個問題。如果你是數據科學的技術主管,并且手下已經有很多博士在為你工作,同時,你還想擴大團隊?,F在你心目中有兩個候選人,其中一個更擅長編程,另一個更擅長數學概念。那么,你會選擇哪一個候選人呢?
這個問題并沒有正確或錯誤的答案,但跟據我的觀察,他們通常會喜歡在編程方面擁有更好技能的那些人。
你可能會想,為什么會是這樣呢?
原因很簡單,因為大多數數據科學項目的方向,都是由博士提供的,他們應該有更多的知識。因此,能夠更快地實現多種方法的人,將是最后一個堅持到底的人。
然后,你可能會問,都說統計是數據科學的基礎,而你卻告訴我,為了進入數據科學領域,只需學習如何編程就可以了?
不是的,數學在數據科學中仍然非常重要。 那些更懂數學的人,將會是能夠提出新想法來改進機器學習模型的那些人。
目前市場上有大量的機器學習模型。因此,知道在什么樣的場景中使用哪些模型,肯定會為你節省大量時間。此外,當之前表現很好的模型,突然開始出現性能下降時,你就能找出可能的原因了。
但是,如果你只是想進入數據科學領域的話,就不需要在數學部分深入研究太多細節。數據科學并不只是關于如何推導或求解數學方程式。 更重要的是,要 知道如何定義并解決業務問題。
例如,你在一家電子商務公司工作。你得到一個任務,讓你實現對列表進行自動分類??赡?,你需要做的第一步就是定義問題,也許是說明你需要實現的時間表和正確性。下一步,你將考慮模型可能面臨的一些問題,并需要澄清這些問題。
假設,如果列表名稱和圖片屬于不同的類別,那么應該如何對列表進行分類?是按圖片進行分類呢,還是按列表名稱進行分類呢?
在理解了你的團隊同意的標準作業程序(Standard Operating Procedure,SOP)之后,那么只有你才能啟動這個項目。
回到主題,數據科學迫切需要的技能之一是 分叉 GitHub 代碼并在數據集上進行實驗的能力。因此,如果你擅長編程的話,那么無論編程語言是什么,你都能夠測試不同的方法。
例如,你正在使用給定的數據集來訓練 NER(Name Entity Recognition,命名實體識別)模型。讓我們想象一下,目前還沒有人用 Python 在 NER 上編寫代碼,而唯一可用的代碼,由斯坦福大學提供,用 Java 編寫的。遇到這種情況應該怎么辦?因此,掌握不同編程語言的知識絕對是一個加分項,這樣,你就可以節省用 Python 編寫整個代碼的時間,以便訓練模型。
另一方面,如果你深入學習機器學習的數學部分,你就 會對你應該關注哪些指標更加敏感,這要取決于不同的問題。 假設你正在從事一個信用欺詐項目。你應該關注的指標就不再是正確性,而應該是 f1-score 等。因為你的目標是不僅能夠識別盡可能多的欺詐案件,而且還要保持準確率。
最后的感想
在數據科學領域中,數學和編程同等重要,但如果你正考慮在數據科學領域轉行或者開始你的職業生涯,我想說的是,對于各種機器學習模型來說,掌握編程技能要比深入鉆研數學更為重要。
開始進行更多的實際項目,并能夠在面試過程中清晰地陳述和回答問題,這肯定會增加你進軍數據科學領域的機會。
進入數據科學領域可沒那么容易,但請記住,不要放棄,繼續努力!
你所有的努力很快就會有回報,不管有多難,要堅持你正在做的事情。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24