熱線電話:13121318867

登錄
首頁精彩閱讀2016年數據科學家將扮演什么角色?
2016年數據科學家將扮演什么角色?
2016-07-04
收藏

2016年數據科學家將扮演什么角色?

數據科學家已被譽為2016年美國最好的工作,但是這一崗位的定義和所要求的技能卻一直在變化。技術進步與商業需求不斷驅動數據科學崗位的演化,其所處的行業也是日新月異。在本文中,我們將更加仔細地審視2016年數據科學家將扮演的角色。

Dave Holtz寫道,“數據科學家”常用作“一攬子頭銜”(blanket title)的統稱,描述一組截然不同的工作崗位。他將這個現象的原因,歸結為數據科學領域仍處在早期發展階段,對其定義不夠準確。如果接受數據科學是一個“跨學科領域”這種大而全的說法,那么數據科學家的工作就是從不同形式的大量數據中提取知識或洞察。我們已經處在大數據時代,這是無法改變的事實。隨著數據量與日俱增,從這些數據中提取出價值的工作只會慢慢變得更加復雜和困難。

大數據經濟背后的邏輯,正在以無法想象或預測的方式重塑我們的生活;我們做出的每一個電子操作都將產生數據,并留下與自己生活相關的蛛絲馬跡。作為消費者經濟的參與者,我們訪問任何網站或電子服務時,所產生的數據都會被挖掘,而數據科學家就要通過計算機科學、數據分析和復雜的商業知識,來收集、清洗、分析我們提供的數據,并據此進行預測。下面的圖表列出了一名數據科學家所需要的技能集。我們可以發現,與一般意義上的大數據開發者或商業分析師不同,這個崗位的職責要求掌握多種技能集。

圖1:數據科學家的技能集

是什么讓數據科學家不同于類似的數據崗位?

Rivera 和 Haverson認為,之前的數據專業人員關注的是數據的流動過程和解釋,而數據科學家更注重數學視角 —— 聚焦于從歷史數據和當前數據中洞察出未來的模式。如果僅從字面上理解這兩個詞,“科學”意味著通過系統研究獲得的知識;“數據”則是由定性化或定量化變量組成的信息集合。因此,數據科學家的字面定義應該是:一個系統性地研究信息的組織與性質的人。盡管統計人員和其他研究數據分析的人也扮演著重要的角色,但是Anjul Bhambari所描述的數據科學家既是分析師,又是藝術家,其角色注定是變革傳統數據的分析和使用方法。

數據科學家的需求不斷上升

商業社交網站LinkedIn的成功,很好地證明了數據科學家為商業智能所帶來的重大利好。作為一家幾乎純粹依賴其3.8億名用戶相互聯系所產生數據的企業,LinkedIn正在利用受過正規培訓、有著強烈好奇心的數據科學家們不斷探索大數據的世界。LinkedIn與Facebook、Google等其他大型知識型企業都在利用數據科學家對大量的雜亂數據進行結構化,確定數據的價值大小,以及變量之間的系統性關系。

KPMG近期對企業高管的一項調查顯示,99%的受訪者認為大數據分析對于制定次年的戰略非常重要。預計到2020年,每天產生的企業數據將超過240EB,在這一時代背景下,對于掌握了從數據中提取價值洞見能力的數據科學家的需求比以往更加重要…但是,Venture Beat公司的Travis Wright在一篇文章中提到,對數據科學家的需求遠遠超過了供給,如果想跟上新型數據經濟的步伐,僅美國的公司就需要雇傭14-19萬名數據科學家。

令人諷刺的是,關于數據科學家的平均收入的數據卻存在許多相互沖突的地方。不過,比較明顯的是平均收入與對數據科學家的高需求是正相關的。如果雇主要求員工能夠熟練使用數據挖掘算法、精通像R和Python這樣的語言、又具備處理大型數據庫(SQL或類似數據庫)的經驗,還得開發Java應用、處理NoSQL數據庫(引用自某個職位要求,上述要求只占十分之一)——此外,還要能夠將以上這些清楚地傳達給非技術同事,那么平均12萬美元的薪資看上去也就不那么過分了。

數據科學家的角色

盡管數據科學家的角色與傳統意義上的數據分析崗位有重合之處,但是區別也尤其明顯。一名數據分析師或數據架構師能夠從大規模數據集中提取信息。但是他們只掌握SQL查詢命令和對數據進行切片的分析包。借助對機器學習的深刻了解和編程開發等方面的知識,數據科學家可以隨心所欲地處理數據,挖掘出更深的洞見。他們擺脫了這些程序的束縛。普通的數據分析師會觀察過去發生的事情,但是數據科學家必須具備長遠的眼光,展望未來。通過應用先進的統計知識和復雜的數據建模,他們必須挖掘出數據中隱藏的模式,對未來做出預測。數據科學家所需要的技能成功的數據分析需要做到能夠清洗、集成和轉變數據 —— 這些都是數據科學家必須掌握的重要技能。將科學背景與計算分析技能結合在一起之后,你就能夠“勝人一籌”。下面的圖2列出了數據科學通常關注的幾個領域。

圖2.數據科學關注的領域

不過我們還是要更細致地探討一下成為數據科學家所需要的實際技能。Mark van Rijmenam是Data Floq公司的CEO,為了能夠開發出提出正確的問題并尋找正確答案的算法,他建議數據科學家掌握以下技能:統計技能、數學和倫理學技能,并且具備構建預測性模型的豐富經驗。

來自LinkedIn的Ferris Jumah更是將所要求的技能進行了歸類,盡管數據科學家可能需要的技能和擔任的崗位角色紛繁復雜。

數據科學家必須做到:

以數學思維看待數據。學習諸如機器學習、數據挖掘、數據分析和統計學等技能十分重要。數據科學家需要從數學的角度對數據進行解釋和分析。

使用一門常用語言,進行數據訪問、探索和建模。掌握一門統計編程語言將是關鍵。R、Python或MATLAB等語言,以及類似SQL等數據庫查詢語言是最受追捧的技能。數據提取、探索和假設檢驗是數據科學實踐的核心。

具備很強的計算機科學和軟件工程背景。這需要掌握包括Java、C++或算法知識和Hadoop。這些技能將用于利用數據來設計系統架構。

數據科學家使用的工具

與使用標準工具的普通程序員不同,數據科學家一般會使用各種各樣的工具,而且工具時刻在更新。這是因為數據科學領域正在快速發展,許多新工具還遠未成熟。盡管如此,下面我們還是精選了一些數據科學家常用的工具:

數據分析

在這方面,使用的工具其實就是數據科學家用于提取和分析數據的編程語言。一般來說是Python、R和SQL。

數據倉庫

數據科學家可以選擇自己用于提取和分析數據的數據庫。處理合理大小的數據集時,最流行的選擇是MySQL。進入大數據領域之后,他們通常會轉向使用Hive或Redshift。

數據可視化

數據可視化方面最常提及的工具,是D3.js和Tableau。只要是你能想象出來的數據可視化方式,數據科學家都可以利用D3.js實現。Tableau是目前市面上最流行的數據可視化工具,支持從數百個輸入源匯集數據,并輕松地將這些數據轉換成可視圖表。

機器學習

這或許是每天新增工具最多的一個領域了。知名度最高、使用最廣泛的工具可能是Scikit-learn,它利用Python進行機器學習。然后當然還有Spark MLlib,這是Apache推出的針對Spark和Hadoop機器學習庫。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢