
如何成為一名合格的數據科學家
本文獨家探討了IT行業發展最快、業內討論最多的角色之一--數據科學家。根據CNN報道,數據科學家是2012年度最佳的新工作之一,《哈佛商業評論》的評論文章甚至稱其為21世紀“最性感”的工作。數據科學家的工作是使用數據分析作為交易工具,在浩如煙海的數據容量中發掘有意義的關聯數據,并將其轉化為有利可圖的商業洞察力。
經過為期數月的高失業率和仍然搖擺不定的經濟態勢之后,從就業市場上得到的任何好消息都能迅速獲得關注,但即便是這樣,對于大家都關注著一個突然非?!癷n”的工作職務:數據科學家這樣的事情,似乎沒能完全解釋得清。
根據CNN報道,數據科學家是2012年度最佳的新工作之一,《哈佛商業評論》的評論文章甚至稱其為21世紀“最性感”的工作。
數據科學家的巨大誘惑力直接根源于市場對大數據與分析的強烈興趣。數據科學家的工作是使用數據分析作為交易工具,在浩如煙海的數據容量中發掘有意義的關聯數據,并將其轉化為有利可圖的商業洞察力。
此外,那些適應多維度工作崗位,糅合計算機科學,掌握先進的定量概念、業務領域知識和溝通技巧的人常常是鶴立雞群、鳳毛麟角。隨著數據科學家的供不應求,數據工作者的收入達到了6位數字,人力資源公司Modis高級副總裁Matthew Ripaldi表示。
招聘人員同樣表示數據科學家崗位飛速增長,即便工作職位的數量并不那么驚人?!爱斘覀儍赡昵伴_始尋找符合該職位要求的人時,僅僅只有8個工作崗位,但現在工作崗位有42個?!盩om Silver表示,他在工作搜索網站Dice.com擔任北美地區高級副總裁?!?3000個工作崗位中的42個,實在是不算龐大,但我決不會懷疑這個崗位在未來的快速發展”。
眾人矚目之外,有任何數據和計算機工作背景的人自然會心生懷疑,誰會成為數據科學家,我能不能成為數據科學家?筆者在此試著解答一些最基本的問題。
數據科學家是什么?
這個看似簡單的問題的答案,取決于你問的對象。網址縮短服務Bit.ly公司首席科學家Hilary Manson對數據科學家的定義獲得了廣泛接受與認可: 數據科學家指能獲取、清洗、探索、建模與解釋數據的人。
位于新墨西哥州圣達菲的咨詢機構Hired Brains公司首席執行官兼首席分析師 Neil Raden則更為深入,他將數據科學家分成兩種類型。
第一種類型--他們是真正的科學家,研究創造算法和方法,發表論文,并積極參與這些規則的溝通。這些單個的人物常見于以算法和方法為核心的研究機構和學術機構(想想谷歌、亞馬遜和華爾街),Raden表示。
第二種類型--這個類型的人群更接近于我們今天提到的雇傭市場上的人--他們不是科學家而是數據從業者,Raden補充道。他們都是統計學與數學建模及開發領域的專家,掌握并采用定量分析方法,設計、測試和部署模型。
預測分析服務提供商Opera解決方案研發中心全球負責人Jacob Spoelstra,也把在Opera工作的人大致歸類為數據科學家,以及由他本人與同事負責的其他工作。
Opera公司的“數據科學家”--與Raden分類的第一種類型人群十分符合--在機器學習(能力)的水平上工作,開發統計模型和模式識別算法,從海量數據流中發現和提取智能預測。他們將分析發現轉化為直接行動,通過減少財務欺詐或檢測高風險抵押貸款等類似措施,幫助提升業務。Spoelstra估計,類似谷歌這樣的公司雇傭了數百位這種類型的數據科學家,而Opera公司近700位雇員中,有三分之一是機器學習(能力)領域的專家。
同時,天才分析(Talent Analytics)公司CEO Greta Roberts堅信當前對數據科學家工作的理解實際上包含四大功能角色。一項針對數據科學家的調查詢問了他們如何分配11項分析功能的時間,出現了四個集群:數據準備人員(他們花費絕大部分時間,進行數據的采集、制備和分析);程序員(他們創建程序并做相應的一些分析);管理人員(他們專注于數據管理、管控、展示、詮釋與設計);最后一種為通才(什么都干,什么都只會一點點)。
“當我最開始聽說這些的時候,我認為’沒有人符合該定義--他們怎么可能?’”Robert說,“因為這是一個新角色,我覺得人們把什么職責都扔給了他。當你過度指定,最終只能得到一個空集”。許多商業人士視作數據科學家的,實際上是一個團體的人表現出的各種各樣的功能。盡管現在依然缺乏符合這些角色的人,實際情況也與“鳳毛麟角”相去甚遠,有太多的人擁有這樣的天賦,成長為一個或多個所需的角色。
必要的技能與憑據是什么?
正如Robert表明的那樣,詳細的數據科學技能如雨后春筍般在網絡上列出,列表令人生畏。絕大多數指定經驗要求先進的數學和統計分析(包括對類似R、SAS和Stata工具等的掌握)、創建程序(包括C、C++、Python和Java語言)、SQL數據庫、平臺如Hadoop/MapReduce、數據挖掘和建模、數據虛擬化、創造性和溝通能力與商務理解力。
當然,數據科學家的確需要與先前的數據分析人員決然不同的能力與技巧,這是事實。Raden承認,例如,他們需要有能力處理當前各種各樣的有效數據,并且最終分析數組可以采用,Raden表示。
他們需要掌握編程技巧,也要有定量方法和調查與建模方向的背景;在涉及到數據的時候,他們必須能夠辨別什么數據是有意義的,什么數據是無意義的,Raden補充道。高效的數據科學家還需要足夠的業務領域知識,在復雜學科上與缺乏相應背景工具和方法的人順暢溝通的能力,他說。
到底是什么導致數據科學家優于其他分析人士呢?Ripaldi解釋,是溝通能力--通常的C系列--數據告訴他們結果,以及針對此結果應該如何采取行動?!澳憧梢苑治鏊心阆胍臄祿?,但如果你不能清晰的表達出數據告訴你的東西,你就不能算作是數據科學家”,他說。畢竟,我們的目標是推進經營戰略,如減少客戶流失,提供跨渠道,化解金融風險。
然后再一次,Robert看到了這些需求本身存在的固有的沖突,她坦陳,“他們不得不能夠坐在那里,在一段時間內尋找數據,然后翻轉開關,化身為能引人入勝的主持人?這完全是兩個不同的人?!?/span>
Opera--也雇傭了各種各樣機器學習(能力)的數據科學家--在尋找這樣的人,他們擁有定量領域背景,有數學和統計概念資質,能夠將這些概念以計算機程序進行實例化,接受大容量數據流并對解決實際商業問題有一定興趣。
“我們對那些需要學習機器學習算法的人感到自在,如果他們對數學和解決問題的能力表現出色?!監pera分析部門全球負責人Joseph Milanna表示,“他們可能不是一名合格的數學家或已經建立了神經網絡,但他們應該表現出激情與興趣,這樣我們才會選擇他”。
擁有怎樣的背景,才能成為一名數據科學家?
在Opera,大多數成功的申請者都擁有更高水平的學術培訓甚至擁有PhD?!拌b于在機器學習科學和其他新出現的新型技術的進步,科學家的確需要更高水平的訓練,浸淫最新思想成果”,Milanna說。即便是在求職搜索網站Dice,半數的數據科學家都指定要求必須具備PhD學位,Silver表示,“這不是絕對必要的,但卻是主要的獎勵”,他補充。
Opera雇員跨越了各種各樣的數據驅動型學科,包括計算機科學、電子工程、統計學、機械工程和心理學。這樣跨學科的知識大有裨益,Milanna強調。例如,他已經看到了來自水文學的分子式應用于股票市場交易信號。
對于更大的數據科學家池,Raden堅信PhD學位不是必要的。如果一個人現在的工作室商業智能和定量分析,并且在那之前表現出了先進的數學和統計建模能力,就可以成長為企業的數據科學家,為企業提供如預測建模和大數據等類似關鍵領域的指導與培訓。
Roberts表示同意,專注于特定技能和學歷。某些時候可能會成為潛在求職者思考的代理人?!八麄冋緢D衡量的是‘你喜歡學習嗎?’但一堆方法可以用來獲取該結論”,她表示。在天才分析(Talent Analytics)公司的調查中,數據科學家的先天特性包括好奇心、創造力、客觀、有條理地思考能力與對細節的專注力,她強調。Milanna和Spoelstra也同意該觀點,他們尋找候選人的最重要的天然特質也包括好奇心、邏輯思維、常識力、毅力、實用性和良好的判斷力。
毫無疑問對數據科學家的需求只會不斷增長,但由于該角色相對新潮,隨著時間的推移,數據科學家的定義只會變化更多,不管是這些專業人士的工作范圍,還是企業組織、實現并發展所需人才的方法。
“對于處在IT行業、項目管理和產品管理的人士來說,這是一個巨大的發展機遇,他們不再害怕學習他們行業相關的知識,也不用擔心開夜車來整理頭緒、解決問題?!?/span>
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
2025 年,數據如同數字時代的 DNA,編碼著人類社會的未來圖景,驅動著商業時代的運轉。從全球互聯網用戶每天產生的2.5億TB數據, ...
2025-05-27CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25