
大數據人才流失: 科研為何陷入困境_數據分析師
然而近年來,科學研究領域加速轉變到以數據為核心,是有負面影響的??偨Y來說就是:稱職的科學研究者需要的能力,和稱職的工業界從業人員需要的能 力,越來越無法區分。具有典型惰性的學術界剛剛開始適應這一轉變,而其他領域早已開始大規模鼓勵和獎勵這種能力。不幸的是,這導致了很多有才的準研究者難 以在學術界立足,只能投入財大氣粗的工業界的懷抱。
數據的神奇效果
20世紀60年代,物理學家Eugene Wigner發表了他的著作:數學在自然科學界的神奇效果。它論述了抽象的數學概念在上下文中的有效性,遠遠超過產生這些概念的上下文,其差距到了驚人的 地步。畢竟,誰能想到Riiemannn在20世紀研究的非歐集合會是愛因斯坦重新思考萬有引力的基礎?誰又能想到,抽象固體的旋轉群的編纂幾乎最終導致 了物理學家成功地預測希格斯玻色子的存在?
谷歌研究者Alon Halevy, Peter Norving和Fernando Pereira于2009年以數據的神奇效果為題發表的文章響應了這一觀點。文章展現其驚人的洞察力:只要有足夠的數據,數學模型的斟酌選擇不再重要 尤其是對他們所研究的自動語言翻譯來說,比起很少的數據及其精確模型,簡單模型和大量的數據更有勝算。
如果我們大膽假設這個觀點可以延伸(至少是部分延伸)至自然語言處理之外,那么僅僅是數據挖掘這一項技能都會逐步打敗領域知識。我相信這一預言已被證實:眾多學術領域,有效地處理數據的能力正在取代其他更經典的研究模式。
我并不是說對某一領域的精通已經完全過時。如果不理解粒子相互作用理論,大型強子對撞機(LHC)產生的10Gb每秒的速度將一無用處,就像只有理 解物理過程驅動空間爆炸的理論,大型天文望遠鏡(LSST)產生的每晚15TB的原圖像數據才能幫助我們理解宇宙學。然而,LHC和LSST反映了越來越 普遍的現象:科學研究結果完全依賴對大量數據的精確分析。實際上,我們發現,即使數據量并不足夠大,能夠對它們處理、抽象、挖掘和從數據中學習的研究 者也在逐步促進科學進步。
新型科學家
從某種意義來說,數據驅動的研究是過去的研究趨勢的簡單延續。自16-17世紀科研分離出亞里士多德哲學,科學進步已基本依賴試驗和觀察。要知道, 是第谷16世紀開創性的對天空的研究,促動了17世紀開普勒的行星運動規律的研究,繼而為牛頓的萬有引力定律鋪平道路,最終形成愛因斯坦的廣義相對論???學家始終在努力處理數據,區別只在于這一努力如今正成為科學研究過程的核心。
不過,科學研究逐步以數據為中心已經產生了解決問題的新辦法:進入LHC、LSST時代,善于運用高性能并行數據統計算法探索大量的群體性數據集的 研究者,以及新的統計方法、機器學習算法、高速代碼,以前所未有的規模重復進行典型分析的應用,推動了振奮人心的研究。簡而言之,新型科學家一定是精通統 計、計算、構建算法、軟件設計、領域技能(可能作事后使用)的多棲專家。在粒子物理學、生物學、化學、神經科學、海洋科學、 大氣物理學等幾乎所有領域,研究越來越趨向于數據驅動,同時數據收集的速度絲毫沒有放緩的跡象。
科學軟件的基礎作用
科學軟件的共同點,是這些工作都離不開編寫代碼。高質量的、組織良好的公共代碼才能對科學過程極為重要的重現產生影響。諸多公共軟件都是關于當前的非再生性科學危機、新的出版形式的需要、新的研究、代碼和數據公開訪問。此處不再詳談更多。
此處我想詳細討論的是,優化的專業軟件對大型數據集分析和抽象的核心作用,以及它成為現代科學研究的核心的演繹過程。我的合作者Gael Varoquauz以及他的同事最近發表評論證實了這一觀點(見Gael的簡介),并就公共的,組織良好的健壯的科學代碼對于現代科學研究的重現性和研究 本身的進步都必不可少這一論點進行了實例研究。過去的研究結果,如果只是在論文中簡單提及,而產生這結果的實際過程的代碼未經組織,這樣的結果就不能作為 新的研究的基礎。就像是Buckheit和Donoho曾說的:
學術期刊上的計算科學的文章并不是學術,他們只是學術的幌子。真正的學術是完整的軟件開發環境,以及計算出數字的完整指令集。
公開代碼看起來像是馬后炮,但是一般來講,僅僅發布代碼是不夠的。像Brandon Rhodes在Rupy 2013 Talk中說的那樣,一個程序運行正常,總好過它勉強能正常運行。讓代碼對在科學研究之外的作者有用需要相當大的投入。這種項目具有難以估計的價值, 就像NumPy項目,Scikit-learn項目,等等。它們為研究者提供一個框架,在此框架下,代碼可以共享,在github上共同審閱和發布,以此 造福研究社區。
學術界的斷層
這是學術界的弊?。罕M管有層次的高質量軟件正成為現在的科學研究模式的核心,并且這些實踐將有助于學術研究的成功,學術界卻非常成功的阻止了這一實 踐。發表或者毀滅的模式中,論文制約著大多數研究型高校,相當于學術獎勵框架的貨幣,而花費在構建和編寫軟件工具上的時間統統不算是寫論文的時間。這 就導致,除非是某種特殊情況,專注于可復用的開放軟件的人很難在學術界獲得晉升的機會。這些可憐的人們,期待著在科學軟件的發展而不是研究論文中獲得成 就,往往會發現他們已置身于學術群體的邊緣。
某種程度上,這種斷層一直存在。學術界總獎勵某些技能,而損害其他技能:教學就是一個長期被邊緣化的技能。然而這其中的兩個主要的區別使得學術界的斷層更加令人擔憂:
前面提到的構建和編寫軟件工具的技能,正滑向學術獎勵框架邊緣,而它恰恰是現代的研究能否成功的關鍵
幾乎全世界都在使用密集數據挖掘工具的同時,學術界忽略的不以為然的技術正是工業界最看重最鼓勵的
這場風暴導致技術純熟的研究者漸漸滑離研究而偏向工業界。學術界盡管也存在專注于軟件的工作,但那些工作基本薪水很低,沒有地位,也沒有晉升及機 會。與之相比,工業界吸引力超高:它致力于解決有趣的緊迫的問題,提供優越的薪水和福利,幫助博士后從工作站之間的遷徙中解脫出來,甚至鼓勵基礎課題的研 究和發表。這種情況下還能留在學術界簡直是奇跡。
我所研究的天文學和天體物理領域尤其讓人擔心。LSST項目正在籌備這一個十年底的第一個目標:十年內能夠實時處理每晚30TB的數據,這一目標極 其激進。要處理這樣大量的數據,未來幾年,這個項目可能要招募數十名以數據為中心的天文學研究者??紤]到所需技術和當前的薪酬水平,以及學術界面向工程的 工作的發展前景,我很懷疑它能夠吸引到足夠的應聘者。
學術界該如何適應
不止我一人在考慮這些問題。我和國內外很多人們討論過文中提到的一些話題,了解到有些制定政策的人們和資助機構也正在思考這些嚴峻的問題。但是更現 實的問題是怎樣解決這些問題,阻止它惡化。抱怨學術界的文化是學者們的常事,Deidre McCloskey的學術威望法則印證了本文的一些觀點:越是實用的領域,越沒有地位。這話原是在哀嘆基本的論文像是新手的作品從而地位低下,卻很適 用于現在的主題。
我認為威望才是關鍵:學術界采取審慎的措施追趕工業界的腳步,對于數據驅動的研究必不可少的軟件,給予其開發者更多的聲望,才是解決這些問題的辦法。研究者,資助機構和制定政策的人們也可以采取行動來促進這一過程。以下是一些建議:
學術刊物持續強調可重現的重要性??芍噩F性是科研過程本身必不可少的要素,而它依賴于開源的高質量代碼。將這些代碼視作論文發表的重要組成部分,能夠提高軟件開發者在學術團體的地位。
推動建立終身制教授評價的新標準。新的標準同時考量公共軟件的開發和維護以及傳統的論文發表和教學,這樣投入到編寫整潔的公共代碼的時間就不會再被遏制。
創建并資助新的學術就業體制,幫助博士畢業生、博士后研究員、研究員和終身教授的就業。就業職位應特別看重和獎勵公共的,跨學科的科研軟件的開發,從而為愿意構建和維護通用的基礎軟件的研究者提供可行的學術職業發展道路。
提高博士后科研職位的薪酬。這個建議可能存在爭議,但現在的薪酬水平根本無法保持下去。NIH職位為應屆畢業的博士后提供的基本工資是每年四萬刀 以下。博士后工作七年漲到每年五萬刀。若精通構建和維護軟件工具的應屆博士后就職于工業界,薪水會多出好幾倍,并且工業界尊重他們的計算能力,他們也可以 運用這些能力研究自己感興趣的問題。我很擔心,學術界不及時作出這些調整的話,未來幾年的科學研究將遭遇嚴重的障礙。
我們生活在一個振奮人心的時代,加速增長的收集、存儲、處理和學習海量數據的能力,使得我們對世界的科學認識的寬度和廣度都在增加。要保持這探索新 事物的節奏,我們需要激勵研究人員安于研究團體。這不是輕而易舉能解決的問題,但是努力才能保證科研在未來可以健康和可持續的發展。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25