cda

數字化人才認證

您的位置:首頁 > 活動列表 > 業界深訪 | 研發總裁眼中的數據科學家

業界深訪 | 研發總裁眼中的數據科學家

2018-10-31


在大數據和機器學習的時代,有一種職業脫穎而出——數據科學家。數據科學家在近年來備受追捧,也有越來越多的人想投身入數據科學領域。

最近,CDA 采訪了幾位來自不同行業的數據科學團隊負責人,聊聊他們眼中的數據科學家是什么樣的,以及對于初入數據科學行業的人群有些什么建議。

今天請到的是來自TalkingData的研發副總裁——閻志濤,讓我們看看研發總裁眼中的數據科學家是什么樣的吧。

點擊播放采訪視頻,建議wifi下播放。
http://edu.cda.cn/course/946/task/16002/show

以下是采訪的文字整理部分。


閻志濤 TalkingData,研發副總裁

大家好,我叫閻志濤,是TalkingData的研發副總裁。我在TalkingData于2011年成立,我是2012年加入的,到現在已經過了六年時間。

Q1:請介紹下您目前從事的數據科學相關的工作內容。

我們公司是既有數據也有業務,因此數據科學相關的工作,首先是數據本身。這部分包含了數據治理、數據準備,到最后把數據應用到不同的業務場景里。比方說將數據建模提供給不同的客戶,以及通過我們的線上平臺,給企業客戶提供從數據到模型的能力。

另外我們也在構建一個開放的平臺。實際上就是賦能給其他數據科學家,利用我們的數據和平臺讓他們建模。

如今對于國內企業而言,數據科學家是現在稀缺的職業。因此我們公司在教育方面也做投入,比如TDU騰云大學,而且還跟一些國外高校合作了“梧桐計劃”,讓優秀院校的畢業生能夠在我們這邊接受培訓,用我們的數據結合業務場景進行實踐。

對于數據科學而言,算法方面如果有較好的數學基礎,掌握起來并不是特別難。但如果想落地,一定需要場景和數據。這是很多大學現在所欠缺的,沒有數據也沒有場景,只能拿像Kaggle里的一些開源數據集去做嘗試。

但是我們這兒有真正生產中可以用的數據,有具體的問題讓他們去解決問題,去真正去鍛煉自己的能力。

從我自己目前來講,我現在側重幾個方面。一個就是數據科學賦能,因為我們在打造我們自己的數據科學平臺。這個平臺實際上是一個開放的平臺,我們希望把自己的數據做一些處理,然后把它變成能讓大家用來建模的數據集。結合業務場景,讓不同公司的數據科學家能夠支持他們的業務,這是我們想做的事情。

這當中涉及到血多工作,我們需要做很多數據工程的工作,比方說清洗。然后平臺構建方面,需要很多這種數據整理工作。

我們現在做一個很有意思事情,關于數據現在都在講GDPR,也就是數據隱私,如果做到數據脫敏。我們現在做叫embedding的事情,把我們的數據能夠打平脫敏,變成機器能夠理解,但人不能理解的內容。

Q2:請分享下您工作中所做的具體案例…

因為現在大家都知道大數據,或者數據應用的典型場景是廣告或者營銷。這里邊實際上就有一個非常常見的算法,叫做look alike,就是找相似人群,這是一個典型的數據科學在營銷領域,結合大數據去做的場景。

我們是實際上約從14年開始就在嘗試用Look alike,利用我們的數據幫助一些廣告主,或者是比方廣告的DSP(需求方平臺),提供更好的營銷效果。我們在不同的場景里邊都做過使用,而且都取得不錯的效果,而且現在已經將代碼部署在我們的數據智能市場上,已經把它變成了標準化服務。也就是說用戶有自己的樣本種子數據上傳上來,利用我們的數據,它就可以做種子人群放大,去可以找到相似的人群去做精準營銷和投放,這是一個比較具體的案例了。

Q3:您覺得當下企業需要的數據科學家應該具備哪些技能?

對于數據科學家來講,我覺得首先硬技能是基礎。首先,你要有比較好的數據工程的基礎能力。因為現在的數據科學家并不像原來的數據分析師,并不是有人幫你清洗數據,幫你去做各種數據的持,你只需要做簡單的算法模型就行了。

第一,你要有數據整理和數據工程的能力。因為現在大數據的場景里,很多數據一開始并不那么干凈,你要能自己去整理這些數據。

第二,你需要有對數據的理解能力。因為你要做工程的話,如果不理解數據是很難的。雖然現在說深度學習可以不做特征工程,但是對于大部分業務場景,對數據進行理解,然后去做特征仍然是很關鍵的。

第三,數據科學能力,熟練掌握各種算法。這也是數據科學家區別于數據工程師的關鍵能力。

算法對于數據科學家來說,是你的安身立命的工具,是用來解決問題的重要工具。你必須了解在什么場景下,面向什么樣的數據,采用什么算法,去解決什么樣的業務問題,這是核心技能。

第四,對業務的理解能力。因為所有的數據科學它不是空中樓閣,數據科學家并不是只做科學,而是需要解決具體的業務問題。這時掌握業務領域知識,對業務理解就變得非常的關鍵。

第五,溝通能力。這個軟技能對數據科學家也是非常關鍵的。

因為數據科學家不是獨立工作,你要面向業務去解決問題。數據科學家跟工程師不太一樣,工程師的問題一般是確定性的,有時只要問題定義清楚就能去做了;但是科學家需要很多次迭代,這樣你跟業務團隊、跟不同的人溝通就變得非常關鍵。

第六,項目管理和時間管理都很關鍵。數據科學工作經常需要多次迭代。如何管理整個不同的資源,如何控制時間,一步步=接近到你的目標也是至關重要的。

硬技能和軟技能一樣,對于數據科學家確實都是非常重要的,所以說這是一個非常綜合的職業。

Q4:您覺得數據科學家最核心的一個能力是什么?

對數學科學家而言,數據科學是核心能力。

這里可以去其他的幾個職業進行區分。數據工程師需要數據科學能力,但工程能力就更關鍵,而分析師業務理解更關鍵。數據科學家的核心素質,一定是算法等相關能力。

你一定要緊跟時代的發展。目前,雖然人工智能很熱,但整個數據科學還是在爬坡階段,各種新的算法層出不窮。我覺得在掌握常見基礎算法的情況下,一定要多去看國外的先進文獻和論文,去了解更新的算法。因為當中有很多算法,并不是大家能在大學里學到的。

Q5:請您給正在職場打拼的數據分析師、數據工程師們一些職業發展建議!

實際上我是工程師出身的,這兩個角色確實不太相同。對于數據工程師來講,想轉成數據科學家需要思維方式的轉變。

工程師解決的問題經常是具象的、確定性的,工程師一般是根據確定性的問題,找到解決方案。解決方案出來后,它就能出現確定性的結果。

但是對于數據科學家而言,面向的結果是不確定性的。你要要做好思想準備,在工作中逐步嘗試,接近更完美更好的效果。

在有思想準備之后,你還需要之前所提的硬技能。數據工程師的強項是工程能力,寫代碼的能力。但數據科學需要掌握很多算法,可以通過培訓、線上課程等資料補齊這些知識。大學里學過的概率論、統計、線性代數等知識也需要復習。

然后還需要再實際動手。面向問題找到對應問題的數據,去動手一步一步的梳理。

以上是我的一些建議和想法。

Q6:您對CDA LEVEL 3 數據科學家人才標準有何建議和期待?

就國內目前來說,數據科學家人才是比較缺乏的。CDA LEVEL 3的課程設置很好,能夠讓更多的人加入到數據科學隊伍里來,為市場輸送了很多優秀的數據分析人才,從而進一步強大數據科學團隊,這是非常有價值的。

如何進階為數據科學家

CDA LEVEL 3數據科學家精英培訓已正式發布,旨在面向從業多年的、有技術基礎的大數據及數據分析專業人士、數據工程師等,為他們提供一個成為數據領袖的跳板。了解更多詳情:http://www.ruiqisteel.com/kecheng/53.html



完 謝謝觀看

分享
收藏

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码