熱線電話:13121318867

登錄
首頁精彩閱讀20道問題識別假的數據科學家
20道問題識別假的數據科學家
2016-02-29
收藏

20道問題識別假的數據科學家

雇用數據科學家是不容易的工作,特別是當有一群假的數據科學家在里面裝腔作勢。這兒有現成的一些問題能夠幫助區分真假的數據科學家。

21道必須懂得的關于數據科學的面試問題和答案

如今數據科學家是公認的21世紀最性感的工作,每個人都想分一杯羹。

這就意味著里面會混著一些對大數據裝著很懂的人。這些人稱自己為數據科學家,但是不具備關于數據方面的能力。

當然他們不是有意去欺騙大家:他們是數據科學家。數據科學本身的嶄新性和人們對相關工作內容的不夠理解會讓他們自己認為因為他們在處理數據,所以他們是數據科學家。

假的數據科學家經常是很擅長某一特定學科的,然后會堅持他們所在的學科是唯一的真正的數據科學。這個信念沒有領會到數據的真正含義,即數據科學是根據科學工具和技術(如:數學方面的,計算機方面的,可視化方面的,分析方面的,統計方面的,經驗方面的,還有問題定義,模型建立和驗證)完全的應用,然后從數據收集里面獲得發現,見識和價值?!?

–Kirk Borne ,Booz Allen Hamilton首席數據科學家和Rocket Data Science.org的創辦人。

發現假的數據科學家第一個方法是了解你要尋找的人應該具備哪些能力。

明白數據科學家,數據分析師,數據工程師之間的不同是很重要的,特別是在如果你計劃雇用他們中的一種的時候。

為了幫助大家從假(或誤以為)的數據科學家中找出真的,我們已經準備了20道面試問題,你可以在面試他們的時候采用。

1.解釋什么是規則化,為什么它是有用的。

2.你最欣賞哪個數據科學家,是哪個創業企業的。

3.你如何通過多次回歸,驗證你所創建的模型生成的關于數量結果的預測模型是可變的。

4.解釋什么是查全率,它們和ROC 曲線的關系。

5.你如何證實你帶到算法里面的一個改進是有意義的,但是沒有起到作用。

6.造成分析的根源是什么?

7.你熟悉定價優化,價格彈性,存貨管理和競爭智能嗎?請舉例。

8.什么是檢驗效能?

9.解釋什么是重抽樣方法,為什么有用?它們的局限性在哪里。

10.存在很多的假陽性是不是更好,或者許多假陰性呢。請解釋。

11.什么是選擇誤差,為什么它很重要以及你如何避免。

12.請舉例,你如何使用試驗設計回答關于用戶行為的問題。

13.數據格式的“長”和“寬”有什么不同。

14.關于某特定領域的全面的真實信息,你通過什么方式決定相關統計數據無論是否發表于文章都是錯的,或者被提出用以支持作者的觀點也是不對的。

15.解釋Edward Tufte關于圖表垃圾的概念。

16.你如何檢查極端值,如果你發現了一個你將怎么辦?

17.極值理論,蒙特卡洛模擬,數理統計,任意使用其中一種理論,你如何正確預測一件罕見事件的發生概率。

18.推薦引擎是什么?它是如何工作的。

19.解釋什么是假陽性和假陰性。為什么區分兩者很重要。

20.你在使用什么工作進行可視化。你怎么看待Tableau?R?SAS?(關于圖表的)。如何在一個表格或者視頻里高效的描繪第五維?

數據科學家

“一個真正的數據科學家懂得如何運用數學和統計學,懂得通過合適的試驗性設計創建和驗證模型。如果擁有了IT技能,卻不會統計技能,你就像只懂得舉著手術刀的外科醫生一樣,只懂得如何拿手術刀(卻不會做手術)?!?

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢