
Kaggle機器學習大調查:中國從業者平均25歲,博士工資最高,最常使用Python
筆者按:Kaggle 是互聯網上最著名的數據科學競賽平臺之一,用戶數量超過了100 萬人。最近,這一社區首次進行了機器學習/數據科學現狀調查,向我們提供了有關從業者人群、業界最新動態以及如何進入該行業的洞見。
在超過 16,000 名從業者的詳盡答卷中,我們可以一窺目前業內的發展趨勢。
報告包括以下重點內容:
Python可能是當前最常使用的機器學習工具,但更多的統計學家仍然用R語言。
總體來說數據科學家平均年齡在30歲左右,但隨著不同國家這個具體數值也在變化,例如,印度的受訪者總體比澳大利亞平均年齡小9歲。
受訪者學歷占比最多的似乎是碩士,但是工資最高的(年薪150K以上)則更多是博士學位獲得者。
雷鋒網編譯和解讀報告內容如下,后臺回復關鍵詞“Kaggle調查”獲取。
一、數據工作者是什么樣的?
觀察數據從業者的方式有很多,但本文將從人口統計學信息也就是數據科學從業者的工作和背景開始。
你的年齡是?
如圖可見,本次調查對象的平均年齡大約 30 歲,但這個值在各個國家之間有變動。中國機器學習從業者年齡分布較為集中在20-45之間,中位數年齡非常年輕,在25歲左右,而美國的年齡分布則較為廣泛,從圖表上看起來,不乏百歲長者和稚子。
你目前的就業狀況如何?
受調查者中,有 65.7% 表示自己有全職工作。但當將國籍選定為中國之后,這一數字的比例下降到53.5%。
你的職位是什么?
我們發現,數據科學領域可涵蓋的工作非常多。比如在伊朗和馬來西亞,數據科學從業者最流行的工作頭銜是「科學家或者研究者」。在中國,最流行的頭銜前三位是“機器學習工程師”、“數據分析師“以及”數據科學家“。
你的全職年薪是多少?
中位數$55,441,不過由于很多人沒有全職工作,所以這一數字不見得準確。
就平均收入來說,美國的機器學習從業者薪資最高,年薪11萬美元。中國則明顯低于這個數字,平均不到$30K.印度則只有$11K,
你的最高學歷是什么?
總體來說,數據科學從業者中最普遍的學歷是碩士,但是獲取最高薪水($150K - $200K 和 $200k+)的那些人多是有著博士學位。
中國的機器學習從業者學歷以本科(39.5%)和碩士(40.5)為主,博士學歷僅占比11.2%。美國對應的學歷百分比則分別為26.5%,44.5%,和20.7%。
總體來說,被調查者的平均水平是數據科學家職稱,30 歲左右,碩士學歷,年薪$55,000 左右。但實際情況并不如此平均。這些最初的幾個人口統計學問題只是展示了復雜的 Kaggle 數據科學社區在年齡、性別、國籍、工作職稱、薪水、經驗和學歷方面的表層差異。
二、數據科學家的工作內容是什么?
我們把數據科學家定義為寫代碼以分析數據的一群人。他們的日常工作內容是什么?以下是我們的調查結果。
這一部分的問題受訪者不再以國籍分類, 而是以所在公司規模、行業等。
工作中你使用什么數據科學方法?
Logistic 回歸是工作之中最為常用的數據科學方法,不過軍事領域和國家安全領域中神經網絡使用則更為頻繁。
總的來說,數據科學中更常見的還是使用經典的機器學習算法,簡單的線性與非線性分類器是數據科學中最常見的算法,而功能強大的集成方法也十分受歡迎。我們看到目前神經網絡模型的使用頻率要高于支持向量機,這可能是近來多層感知機要比使用帶核函數的 SVM 更加廣泛的表現。
工作中你使用最多的工具語言是什么?
Python 是數據科學家最常用的語言,也是最常用的數據分析工具。不過,還有很多數據科學家對R 語言仍保持著較高忠誠度。
在工作中你常用的數據類型是什么?
關系型數據是開發者在工作中最常用的數據類型,大多數產業工程師都十分關注。而學術研究者和國防安全產業則更關注文本與圖像。
如何分享工作中的代碼?
超過一半數據工作者(58.4%)使用Git分享代碼。不過,大公司的工作者更喜歡將代碼保留在本地,并將代碼用郵件分享。而初創公司可能需要在云中共享以保持更加敏捷的反應。
工作中遇到的障礙主要是什么?
臟數據(dirty data)以占據接近一半的比例位列第一,臟數據(Dirty Read)是指源系統中的數據不在給定的范圍內或對于實際業務毫無意義,也就是說數據科學家一般最常見的困擾就是需要對數據進行大量的預處理工程。
緊隨其后的是“缺乏數據科學天賦”、“缺乏資金和管理支持”“缺乏一個能明確回答的問題”以及“數據不可用或無法獲取”。
值得注意的一點是,當調整公司規模到中小型企業,“缺乏資金組建數據團隊”這一選項立刻躍居第三??磥碣Y金和人才始終是創業公司面對的一大難題。這也意味著新的數據科學家很幸運。他們進入了一個搶手的行業。
三、數據科學家新手如何入行?
尋求新的職業發展時,看看別人的成功秘訣往往很有幫助。我們調查了在數據科學行業工作的人們,詢問他們是如何“成功”的。以下是我們覺得較好的幾條建議:
你建議數據科學家新手最先學哪門語言?
每一位數據科學家對于如何選擇第一門語言都有自己的想法。事實證明,那些使用 Python 或 R 語言的人們做出了正確的選擇。不過如果你問一下使用過 R 和 Python 的人們,他們推薦 Python 給你的概率可能會大兩倍。
你們使用哪些數據科學學習資源?
數據科學是一個快速變化的領域,有很多有價值的資源可以幫助你學習并保持業內頂尖的位置,從而不斷提升自己的競爭力。已經在數據科學領域中工作的人更多使用 Stack Overflow Q&A,Conferences 和 Podcasts,以在這個新人輩出的行業保持與時俱進。如果想要發布內容或開源軟件,請記住,剛進入這個領域的人們通常更多使用官方的文檔和觀看 Youtube 視頻。
你們在哪里獲取開源數據?
沒有數據,就沒有數據科學。當需要學習數據科學技巧的時候,知道如何找到干凈的開源數據集用于練習和開發項目相當重要。我們很高興的得知,我們的數據集聚合器(dataset aggregators):https://www.kaggle.com/datasets 正發展為數據科學社區成員中最頻繁使用的工具。
你們怎么找工作,以及怎么找到的?
找工作的時候你可能會到公司網站上,或尋找指定技術方向的招聘信息,但是根據已經在數據科學領域工作的人們的經驗,這些方式是最差的選擇。而通過建立自己在這個行業的關系網絡、直接聯系招聘者或建立自己的網絡以進入這個領域才是他們的首選。
注:少于 50 名受訪者的組別被合并進了「Other」類中。其中一些柱狀圖為了美觀而做了縮放處理,希望查看所有問題和結果的原始數據可訪問源網頁查看。原報告后臺回復關鍵詞“Kaggle調查”獲取。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25