熱線電話:13121318867

登錄
首頁精彩閱讀數據科學家VS數據工程師,真的是一山不容二虎?
數據科學家VS數據工程師,真的是一山不容二虎?
2017-03-13
收藏
數據科學是一個蓬勃發展的產業,相關大數據的職業也成為熱門,給人才發展帶來帶來了很多機會。數據科學家、數據工程師等已經成為大數據行業最熱門的職位。今天讓我們先來看一下這兩種職業之間的區別,具體的工作,使用的語言、技能,發展前景等等問題。
【職責】

數據工程師的職責

數據工程師的職責主要是開發,構建,測試和維護架構,如數據庫和大型處理系統。而數據科學家主要負責清潔,“按摩”和組織數據。
 
你會發現這里使用“按摩”這個動詞的很奇特,這是因為這明顯反映了數據工程師和數據科學家之間的差異。
 
一般來說,兩者為獲得可用的數據所付出的努力是截然不同的。
 
數據工程師處理包括人,機器或儀器錯誤的原始數據。數據可能未經驗證并包含可疑記錄;它是未格式化的,且包含系統特定的代碼。
 
數據工程師需要采取措施提高數據的可靠性、效率和質量。為此,他們需要使用各種語言和工具來將系統結合在一起,或者嘗試從其他系統獲取新數據,從而這些系統特定的代碼可以被數據科學家進一步處理。
 
與這兩者密切相關的是,數據工程師需要確保,現有的架構支持數據科學家和利益相關者的業務需求。
 
最后,為了將數據提供給數據科學團隊,數據工程團隊將需要開發數據集過程,從而實現數據建模、挖掘和生產。

數據科學家的職責

數據科學家得到的數據通常已經過了第一輪的清理和操作。這些被處理過的數據可用被進一步運用于復雜的分析程序、機器學習和統計方法,從而預測和規范建模。當然,要構建模型,他們需要做研究行業和業務現狀,他們需要利用來自內部和外部的大量數據來應答業務需求。有時這也涉及探索和檢查數據以找到隱藏模式。
 
一旦數據科學家完成了分析,他們需要向相關業務人員提供一個清晰的方案。一旦方案通過時,他們需要確保此分析工作能夠自動完成,以便能夠向企業提供每日、每月甚至每年的數據。
 
很明顯,雙方都需要共同努力,爭取數據并提供關鍵商務決策的見解。兩者在技能上存在明顯的重疊,但兩者在行業中的區別日益明顯:數據工程師需要與數據庫系統,數據API和用于ETL的工具打交道,并將參與數據建模和設置數據庫的解決方案。而數據科學家需要利用統計,數學和機器學習從而構建預測模型。
 
數據科學家需掌握分布式計算,因為他需要獲取被數據工程師處理過的數據,同時數據科學家還需向企業溝通,這就意味著語言表達和數據可視化的技能也是必不可少的。

【語言、工具和軟件】
當然,兩者在技能的差異還體現在所使用的語言,工具和軟件。
 
盡管兩者使用的工具很大程度上取決于所處的公司環境,但通常數據工程師使用 SAP ,Oracle , Cassandra , MySQL , Redis , Riak , PostgreSQL , MongoDB , neo4j , Hive , Sqoop 等工具。
 
數據科學家則使用如 SPSS , R , Python , SAS , Stata 和 Julia 等語言來構建模型。當中最流行的毫無疑問是 Python 和 R 。 當你使用 Python 和 R 進行數據科學工作時,你通常會使用 ggplot2 等軟件包,來實現數據可視化。同時還有如 Scikit-Learn , NumPy , Matplotlib , Statsmodels 等軟件包都會派上用場。
 
在行業中,你還會發現, SAS 和 SPSS 很實用。但是使用其他工具,如 Tableau , Rapidminer , Matlab , Excel , Gephi 也將在數據科學家必不可少的技能。
 
可以再次清楚的看到,數據工程師和數據科學家之間關于數據可視化和語言表達能力的偏重,明顯反映在使用工具的不同。
 
兩者都使用的工具、語言和軟件,包括 Scala , Java 和 C# 。

當然,這些語言不一定都受到數據科學家和工程師的歡迎:也有人認為 Scala 更受數據工程師的青睞,因為與 Spark 的集成十分利于在設置大型 ETL 。
 
對于 Java 語言來說也是一樣:目前,它在數據科學家中間的流行度越來越高,但總的來說,它并沒有被專業人士廣泛使用??傊?,你會看到這些語言突然出現在數據科學家與數據工程師招聘的技能要求中。同理試用與雙方都需要使用的語言,如 Hadoop , Storm 和 Spark 等。

當然,雙方在工具,語言和軟件的區別需要具體看所處的工作環境。在某些特定情況下,數據科學和數據工程嘗嘗緊密相連,有時兩者的區別特別小,有時兩者甚至可以合并。



【教育背景】

數據科學家和數據工程師在教育背景上有一些共同點——計算機科學。這個專業對兩者都是十分熱門的選擇。當然,你也會看到數據科學家經常研究計量經濟學,數學,統計和運營研究。他們通常比數據工程師多一點商業頭腦。同時你也經??吹綌祿こ處熞矒碛泄こ瘫尘?,而且他們計算機工程方面也受過一些超前教育。
 
然而,所有這一切并不意味著你不能找到同時具備操作知識和商業頭腦的數據工程師。
一般來說,數據科學行業是由來自不同類型背景的專業人員組成的:物理學家,生物學家或氣象學家從事數據科學工作也并不罕見。同時有些從事 Web 開發,數據庫管理等職業的人才也已經轉行從事數據科學工作。


【工資與招聘】

在薪酬方面,數據科學家的中等薪資水平為每年 135,000 美元。最低為 43,000 美元,最高為 364,000 美元。對于數據工程師來說,稍微有點低:他們的平均收入是 124,000 美元,他們的最低和最高工資也相對較低:最低為 34,000 美元,最高為 341,000 美元。

為何會造成這樣的薪酬差異原因不明,但是這可能與市場需求的職位數量有關:根據 Indeed.com 的數據,市場招聘需求中約有 8 萬 5 千個數據工程師的工作崗位,而約有 11 萬個數據科學家的工作崗位。

目前招聘數據工程師的公司是 PlayStation , The New York Times ,  Bloomberg  和 Verizon ,但在過去, Spotify , Facebook 和亞馬遜等公司都聘用了數據工程師。另一方面,需要數據科學家的公司有 Dropbox ,微軟,德勤和沃爾瑪等。

【工作前景】
如上所述,數據科學相關不同職業的產生需要反映不斷變化的需求。

除了對數據管理問題的興趣增加之外,公司正在尋找更便宜,靈活和可擴展的解決方案來存儲和管理他們的數據。他們想將其數據移動到云中,為此,他們需要構建“數據湖”來代替已經存在的數據倉或作為操作數據存儲( ODS )的替代。

數據流在未來幾年內將被重定向和替換,因此,數據工程師的雇用數量逐年增加。

數據科學家一直以來都被大力追捧,但如今,公司正在構建其數據科學家的團隊,而不是雇用具有溝通技巧、創造力、聰明、好奇心、技術專長等的獨角獸數據科學家。對與企業來說,很難找到具有以上所有特質的人才,而且對這類人才明顯供不應求。

市場對與數據科學方面人才的熱情依舊不變。根據 McKinsey 的數據,在 2018 年,美國可能面臨 14 萬到 19 萬具有深度分析技能的人才缺口,以及 150 萬能使用專業知識進行大數據分析并做出有效決定的經理和分析師。



原作者 Karlijn Willems
編譯 CDA 編譯團隊
本文為 CDA 數據分析師原創作品,轉載需授權


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢