熱線電話:13121318867

登錄
首頁職業發展大數據人才流失: 科研為何陷入困境_數據分析師
大數據人才流失: 科研為何陷入困境_數據分析師
2014-12-16
收藏

大數據人才流失: 科研為何陷入困境_數據分析師


  然而近年來,科學研究領域加速轉變到以數據為核心,是有負面影響的??偨Y來說就是:稱職的科學研究者需要的能力,和稱職的工業界從業人員需要的能 力,越來越無法區分。具有典型惰性的學術界剛剛開始適應這一轉變,而其他領域早已開始大規模鼓勵和獎勵這種能力。不幸的是,這導致了很多有才的準研究者難 以在學術界立足,只能投入財大氣粗的工業界的懷抱。

  數據的神奇效果

  20世紀60年代,物理學家Eugene Wigner發表了他的著作:數學在自然科學界的神奇效果。它論述了抽象的數學概念在上下文中的有效性,遠遠超過產生這些概念的上下文,其差距到了驚人的 地步。畢竟,誰能想到Riiemannn在20世紀研究的非歐集合會是愛因斯坦重新思考萬有引力的基礎?誰又能想到,抽象固體的旋轉群的編纂幾乎最終導致 了物理學家成功地預測希格斯玻色子的存在?

  谷歌研究者Alon Halevy, Peter Norving和Fernando Pereira于2009年以數據的神奇效果為題發表的文章響應了這一觀點。文章展現其驚人的洞察力:只要有足夠的數據,數學模型的斟酌選擇不再重要 尤其是對他們所研究的自動語言翻譯來說,比起很少的數據及其精確模型,簡單模型和大量的數據更有勝算。

  如果我們大膽假設這個觀點可以延伸(至少是部分延伸)至自然語言處理之外,那么僅僅是數據挖掘這一項技能都會逐步打敗領域知識。我相信這一預言已被證實:眾多學術領域,有效地處理數據的能力正在取代其他更經典的研究模式。

  我并不是說對某一領域的精通已經完全過時。如果不理解粒子相互作用理論,大型強子對撞機(LHC)產生的10Gb每秒的速度將一無用處,就像只有理 解物理過程驅動空間爆炸的理論,大型天文望遠鏡(LSST)產生的每晚15TB的原圖像數據才能幫助我們理解宇宙學。然而,LHC和LSST反映了越來越 普遍的現象:科學研究結果完全依賴對大量數據的精確分析。實際上,我們發現,即使數據量并不足夠大,能夠對它們處理、抽象、挖掘和從數據中學習的研究 者也在逐步促進科學進步。

  新型科學家

  從某種意義來說,數據驅動的研究是過去的研究趨勢的簡單延續。自16-17世紀科研分離出亞里士多德哲學,科學進步已基本依賴試驗和觀察。要知道, 是第谷16世紀開創性的對天空的研究,促動了17世紀開普勒的行星運動規律的研究,繼而為牛頓的萬有引力定律鋪平道路,最終形成愛因斯坦的廣義相對論???學家始終在努力處理數據,區別只在于這一努力如今正成為科學研究過程的核心。

  不過,科學研究逐步以數據為中心已經產生了解決問題的新辦法:進入LHC、LSST時代,善于運用高性能并行數據統計算法探索大量的群體性數據集的 研究者,以及新的統計方法、機器學習算法、高速代碼,以前所未有的規模重復進行典型分析的應用,推動了振奮人心的研究。簡而言之,新型科學家一定是精通統 計、計算、構建算法、軟件設計、領域技能(可能作事后使用)的多棲專家。在粒子物理學、生物學、化學、神經科學、海洋科學、 大氣物理學等幾乎所有領域,研究越來越趨向于數據驅動,同時數據收集的速度絲毫沒有放緩的跡象。

  科學軟件的基礎作用

  科學軟件的共同點,是這些工作都離不開編寫代碼。高質量的、組織良好的公共代碼才能對科學過程極為重要的重現產生影響。諸多公共軟件都是關于當前的非再生性科學危機、新的出版形式的需要、新的研究、代碼和數據公開訪問。此處不再詳談更多。

  此處我想詳細討論的是,優化的專業軟件對大型數據集分析和抽象的核心作用,以及它成為現代科學研究的核心的演繹過程。我的合作者Gael Varoquauz以及他的同事最近發表評論證實了這一觀點(見Gael的簡介),并就公共的,組織良好的健壯的科學代碼對于現代科學研究的重現性和研究 本身的進步都必不可少這一論點進行了實例研究。過去的研究結果,如果只是在論文中簡單提及,而產生這結果的實際過程的代碼未經組織,這樣的結果就不能作為 新的研究的基礎。就像是Buckheit和Donoho曾說的:

  學術期刊上的計算科學的文章并不是學術,他們只是學術的幌子。真正的學術是完整的軟件開發環境,以及計算出數字的完整指令集。

  公開代碼看起來像是馬后炮,但是一般來講,僅僅發布代碼是不夠的。像Brandon Rhodes在Rupy 2013 Talk中說的那樣,一個程序運行正常,總好過它勉強能正常運行。讓代碼對在科學研究之外的作者有用需要相當大的投入。這種項目具有難以估計的價值, 就像NumPy項目,Scikit-learn項目,等等。它們為研究者提供一個框架,在此框架下,代碼可以共享,在github上共同審閱和發布,以此 造福研究社區。

  學術界的斷層

  這是學術界的弊?。罕M管有層次的高質量軟件正成為現在的科學研究模式的核心,并且這些實踐將有助于學術研究的成功,學術界卻非常成功的阻止了這一實 踐。發表或者毀滅的模式中,論文制約著大多數研究型高校,相當于學術獎勵框架的貨幣,而花費在構建和編寫軟件工具上的時間統統不算是寫論文的時間。這 就導致,除非是某種特殊情況,專注于可復用的開放軟件的人很難在學術界獲得晉升的機會。這些可憐的人們,期待著在科學軟件的發展而不是研究論文中獲得成 就,往往會發現他們已置身于學術群體的邊緣。

  某種程度上,這種斷層一直存在。學術界總獎勵某些技能,而損害其他技能:教學就是一個長期被邊緣化的技能。然而這其中的兩個主要的區別使得學術界的斷層更加令人擔憂:

  前面提到的構建和編寫軟件工具的技能,正滑向學術獎勵框架邊緣,而它恰恰是現代的研究能否成功的關鍵

  幾乎全世界都在使用密集數據挖掘工具的同時,學術界忽略的不以為然的技術正是工業界最看重最鼓勵的

  這場風暴導致技術純熟的研究者漸漸滑離研究而偏向工業界。學術界盡管也存在專注于軟件的工作,但那些工作基本薪水很低,沒有地位,也沒有晉升及機 會。與之相比,工業界吸引力超高:它致力于解決有趣的緊迫的問題,提供優越的薪水和福利,幫助博士后從工作站之間的遷徙中解脫出來,甚至鼓勵基礎課題的研 究和發表。這種情況下還能留在學術界簡直是奇跡。

  我所研究的天文學和天體物理領域尤其讓人擔心。LSST項目正在籌備這一個十年底的第一個目標:十年內能夠實時處理每晚30TB的數據,這一目標極 其激進。要處理這樣大量的數據,未來幾年,這個項目可能要招募數十名以數據為中心的天文學研究者??紤]到所需技術和當前的薪酬水平,以及學術界面向工程的 工作的發展前景,我很懷疑它能夠吸引到足夠的應聘者。

  學術界該如何適應

  不止我一人在考慮這些問題。我和國內外很多人們討論過文中提到的一些話題,了解到有些制定政策的人們和資助機構也正在思考這些嚴峻的問題。但是更現 實的問題是怎樣解決這些問題,阻止它惡化。抱怨學術界的文化是學者們的常事,Deidre McCloskey的學術威望法則印證了本文的一些觀點:越是實用的領域,越沒有地位。這話原是在哀嘆基本的論文像是新手的作品從而地位低下,卻很適 用于現在的主題。

  我認為威望才是關鍵:學術界采取審慎的措施追趕工業界的腳步,對于數據驅動的研究必不可少的軟件,給予其開發者更多的聲望,才是解決這些問題的辦法。研究者,資助機構和制定政策的人們也可以采取行動來促進這一過程。以下是一些建議:

  學術刊物持續強調可重現的重要性??芍噩F性是科研過程本身必不可少的要素,而它依賴于開源的高質量代碼。將這些代碼視作論文發表的重要組成部分,能夠提高軟件開發者在學術團體的地位。

  推動建立終身制教授評價的新標準。新的標準同時考量公共軟件的開發和維護以及傳統的論文發表和教學,這樣投入到編寫整潔的公共代碼的時間就不會再被遏制。

  創建并資助新的學術就業體制,幫助博士畢業生、博士后研究員、研究員和終身教授的就業。就業職位應特別看重和獎勵公共的,跨學科的科研軟件的開發,從而為愿意構建和維護通用的基礎軟件的研究者提供可行的學術職業發展道路。

  提高博士后科研職位的薪酬。這個建議可能存在爭議,但現在的薪酬水平根本無法保持下去。NIH職位為應屆畢業的博士后提供的基本工資是每年四萬刀 以下。博士后工作七年漲到每年五萬刀。若精通構建和維護軟件工具的應屆博士后就職于工業界,薪水會多出好幾倍,并且工業界尊重他們的計算能力,他們也可以 運用這些能力研究自己感興趣的問題。我很擔心,學術界不及時作出這些調整的話,未來幾年的科學研究將遭遇嚴重的障礙。

  我們生活在一個振奮人心的時代,加速增長的收集、存儲、處理和學習海量數據的能力,使得我們對世界的科學認識的寬度和廣度都在增加。要保持這探索新 事物的節奏,我們需要激勵研究人員安于研究團體。這不是輕而易舉能解決的問題,但是努力才能保證科研在未來可以健康和可持續的發展。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢