熱線電話:13121318867

登錄
首頁精彩閱讀如何成為一名合格的數據科學家
如何成為一名合格的數據科學家
2016-09-14
收藏

如何成為一名合格的數據科學家

本文獨家探討了IT行業發展最快、業內討論最多的角色之一--數據科學家。根據CNN報道,數據科學家是2012年度最佳的新工作之一,《哈佛商業評論》的評論文章甚至稱其為21世紀“最性感”的工作。數據科學家的工作是使用數據分析作為交易工具,在浩如煙海的數據容量中發掘有意義的關聯數據,并將其轉化為有利可圖的商業洞察力。

經過為期數月的高失業率和仍然搖擺不定的經濟態勢之后,從就業市場上得到的任何好消息都能迅速獲得關注,但即便是這樣,對于大家都關注著一個突然非?!癷n”的工作職務:數據科學家這樣的事情,似乎沒能完全解釋得清。

根據CNN報道,數據科學家是2012年度最佳的新工作之一,《哈佛商業評論》的評論文章甚至稱其為21世紀“最性感”的工作。

數據科學家的巨大誘惑力直接根源于市場對大數據與分析的強烈興趣。數據科學家的工作是使用數據分析作為交易工具,在浩如煙海的數據容量中發掘有意義的關聯數據,并將其轉化為有利可圖的商業洞察力。

此外,那些適應多維度工作崗位,糅合計算機科學,掌握先進的定量概念、業務領域知識和溝通技巧的人常常是鶴立雞群、鳳毛麟角。隨著數據科學家的供不應求,數據工作者的收入達到了6位數字,人力資源公司Modis高級副總裁Matthew Ripaldi表示。

招聘人員同樣表示數據科學家崗位飛速增長,即便工作職位的數量并不那么驚人?!爱斘覀儍赡昵伴_始尋找符合該職位要求的人時,僅僅只有8個工作崗位,但現在工作崗位有42個?!盩om Silver表示,他在工作搜索網站Dice.com擔任北美地區高級副總裁?!?3000個工作崗位中的42個,實在是不算龐大,但我決不會懷疑這個崗位在未來的快速發展”。

眾人矚目之外,有任何數據和計算機工作背景的人自然會心生懷疑,誰會成為數據科學家,我能不能成為數據科學家?筆者在此試著解答一些最基本的問題。

數據科學家是什么?

這個看似簡單的問題的答案,取決于你問的對象。網址縮短服務Bit.ly公司首席科學家Hilary Manson對數據科學家的定義獲得了廣泛接受與認可: 數據科學家指能獲取、清洗、探索、建模與解釋數據的人。

位于新墨西哥州圣達菲的咨詢機構Hired Brains公司首席執行官兼首席分析師 Neil Raden則更為深入,他將數據科學家分成兩種類型。

第一種類型--他們是真正的科學家,研究創造算法和方法,發表論文,并積極參與這些規則的溝通。這些單個的人物常見于以算法和方法為核心的研究機構和學術機構(想想谷歌、亞馬遜和華爾街),Raden表示。

第二種類型--這個類型的人群更接近于我們今天提到的雇傭市場上的人--他們不是科學家而是數據從業者,Raden補充道。他們都是統計學與數學建模及開發領域的專家,掌握并采用定量分析方法,設計、測試和部署模型。

預測分析服務提供商Opera解決方案研發中心全球負責人Jacob Spoelstra,也把在Opera工作的人大致歸類為數據科學家,以及由他本人與同事負責的其他工作。

Opera公司的“數據科學家”--與Raden分類的第一種類型人群十分符合--在機器學習(能力)的水平上工作,開發統計模型和模式識別算法,從海量數據流中發現和提取智能預測。他們將分析發現轉化為直接行動,通過減少財務欺詐或檢測高風險抵押貸款等類似措施,幫助提升業務。Spoelstra估計,類似谷歌這樣的公司雇傭了數百位這種類型的數據科學家,而Opera公司近700位雇員中,有三分之一是機器學習(能力)領域的專家。

同時,天才分析(Talent Analytics)公司CEO Greta Roberts堅信當前對數據科學家工作的理解實際上包含四大功能角色。一項針對數據科學家的調查詢問了他們如何分配11項分析功能的時間,出現了四個集群:數據準備人員(他們花費絕大部分時間,進行數據的采集、制備和分析);程序員(他們創建程序并做相應的一些分析);管理人員(他們專注于數據管理、管控、展示、詮釋與設計);最后一種為通才(什么都干,什么都只會一點點)。

“當我最開始聽說這些的時候,我認為’沒有人符合該定義--他們怎么可能?’”Robert說,“因為這是一個新角色,我覺得人們把什么職責都扔給了他。當你過度指定,最終只能得到一個空集”。許多商業人士視作數據科學家的,實際上是一個團體的人表現出的各種各樣的功能。盡管現在依然缺乏符合這些角色的人,實際情況也與“鳳毛麟角”相去甚遠,有太多的人擁有這樣的天賦,成長為一個或多個所需的角色。



必要的技能與憑據是什么?

正如Robert表明的那樣,詳細的數據科學技能如雨后春筍般在網絡上列出,列表令人生畏。絕大多數指定經驗要求先進的數學和統計分析(包括對類似R、SAS和Stata工具等的掌握)、創建程序(包括C、C++、Python和Java語言)、SQL數據庫、平臺如Hadoop/MapReduce、數據挖掘和建模、數據虛擬化、創造性和溝通能力與商務理解力。

當然,數據科學家的確需要與先前的數據分析人員決然不同的能力與技巧,這是事實。Raden承認,例如,他們需要有能力處理當前各種各樣的有效數據,并且最終分析數組可以采用,Raden表示。

他們需要掌握編程技巧,也要有定量方法和調查與建模方向的背景;在涉及到數據的時候,他們必須能夠辨別什么數據是有意義的,什么數據是無意義的,Raden補充道。高效的數據科學家還需要足夠的業務領域知識,在復雜學科上與缺乏相應背景工具和方法的人順暢溝通的能力,他說。

到底是什么導致數據科學家優于其他分析人士呢?Ripaldi解釋,是溝通能力--通常的C系列--數據告訴他們結果,以及針對此結果應該如何采取行動?!澳憧梢苑治鏊心阆胍臄祿?,但如果你不能清晰的表達出數據告訴你的東西,你就不能算作是數據科學家”,他說。畢竟,我們的目標是推進經營戰略,如減少客戶流失,提供跨渠道,化解金融風險。

然后再一次,Robert看到了這些需求本身存在的固有的沖突,她坦陳,“他們不得不能夠坐在那里,在一段時間內尋找數據,然后翻轉開關,化身為能引人入勝的主持人?這完全是兩個不同的人?!?/span>

Opera--也雇傭了各種各樣機器學習(能力)的數據科學家--在尋找這樣的人,他們擁有定量領域背景,有數學和統計概念資質,能夠將這些概念以計算機程序進行實例化,接受大容量數據流并對解決實際商業問題有一定興趣。

“我們對那些需要學習機器學習算法的人感到自在,如果他們對數學和解決問題的能力表現出色?!監pera分析部門全球負責人Joseph Milanna表示,“他們可能不是一名合格的數學家或已經建立了神經網絡,但他們應該表現出激情與興趣,這樣我們才會選擇他”。

擁有怎樣的背景,才能成為一名數據科學家?

在Opera,大多數成功的申請者都擁有更高水平的學術培訓甚至擁有PhD?!拌b于在機器學習科學和其他新出現的新型技術的進步,科學家的確需要更高水平的訓練,浸淫最新思想成果”,Milanna說。即便是在求職搜索網站Dice,半數的數據科學家都指定要求必須具備PhD學位,Silver表示,“這不是絕對必要的,但卻是主要的獎勵”,他補充。

Opera雇員跨越了各種各樣的數據驅動型學科,包括計算機科學、電子工程、統計學、機械工程和心理學。這樣跨學科的知識大有裨益,Milanna強調。例如,他已經看到了來自水文學的分子式應用于股票市場交易信號。

對于更大的數據科學家池,Raden堅信PhD學位不是必要的。如果一個人現在的工作室商業智能和定量分析,并且在那之前表現出了先進的數學和統計建模能力,就可以成長為企業的數據科學家,為企業提供如預測建模和大數據等類似關鍵領域的指導與培訓。

Roberts表示同意,專注于特定技能和學歷。某些時候可能會成為潛在求職者思考的代理人?!八麄冋緢D衡量的是‘你喜歡學習嗎?’但一堆方法可以用來獲取該結論”,她表示。在天才分析(Talent Analytics)公司的調查中,數據科學家的先天特性包括好奇心、創造力、客觀、有條理地思考能力與對細節的專注力,她強調。Milanna和Spoelstra也同意該觀點,他們尋找候選人的最重要的天然特質也包括好奇心、邏輯思維、常識力、毅力、實用性和良好的判斷力。

毫無疑問對數據科學家的需求只會不斷增長,但由于該角色相對新潮,隨著時間的推移,數據科學家的定義只會變化更多,不管是這些專業人士的工作范圍,還是企業組織、實現并發展所需人才的方法。

“對于處在IT行業、項目管理和產品管理的人士來說,這是一個巨大的發展機遇,他們不再害怕學習他們行業相關的知識,也不用擔心開夜車來整理頭緒、解決問題?!?/span>



數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢