熱線電話:13121318867

登錄
首頁精彩閱讀 發現假數據科學家的20個問題
發現假數據科學家的20個問題
2016-01-05
收藏

 發現假數據科學家的20個問題

現在,數據科學家是21世紀最性感的職業,每個人都希望分一塊蛋糕。

這表示會有一些裝腔作勢的數據人士。這些人稱自己為數據科學家,但他們并不掌握對應的技能。

這個問題的出現不一定是因為欺騙的目的。數據科學是全新的,且缺乏具有廣泛共識的職位描述,意味著很多人只因為處理數據就認為自己是數據科學家。

假的數據科學家往往是某個特定學科的專家,并且堅持他們的學科是唯一真正的數據科學。這種信念沒有抓住數據科學的要點,數據科學涉及到應用全部科學工具和技術(數學、計算機、可視化、分析、統計、實驗、問題定義、模型構建和驗證等等)以得到來自數據的發現、洞察和價值。

——Kirk Borne,Booz Allen Hamilton的首席數據科學家和RocketDataScience.org的創始人

第一種發現假數據科學家的方法是了解你應該尋找的技能。知道數據科學家、數據分析師和數據工程師之間的不同之處很重要,尤其是如果你打算雇傭這些不常見的人時。

為了幫助對數據科學家由真到假(或者被誤導的)排序,我們提出了一個20道題的列表,你可以在面試數據科學家時問問他們。

解釋什么是正則化,以及它為什么有用。

你最欣賞哪些數據科學家?哪些相關的創業公司?

如何驗證一個用多元回歸生成的對定量結果變量的預測模型。

解釋準確率和召回率。它們和ROC曲線有什么關系?

如何證明你對一個算法的改進確實比什么都不做更好?

什么是根本原因分析?

你是否熟悉價格優化、價格彈性、庫存管理、競爭情報?舉例說明。

什么是統計檢定力?

解釋什么是重抽樣方法和它們為什么有用。并說明它們的局限。

有太多假陽性或太多假陰性哪個相比之下更好?說明原因。

什么是選擇偏倚,為什么它很重要以及如何避免它。

舉例說明如何使用實驗設計回答有關用戶行為的問題。

數據和數據有什么不同之處?

你用什么方法確定一篇文章(比如報紙上的)中公布的統計數字是錯誤的或者是為了支持作者觀點,而不是關于某主題正確全面的事實信息?

解釋Edward Tufte“圖表垃圾的概念。

你會如何篩查異常值?如果發現它會怎樣處理?

如何使用極值理論、蒙特卡洛模擬或其他數學統計(或別的什么)正確估計非常罕見事件的可能性?

推薦引擎是什么?它如何工作?

解釋什么是假陽性和假陰性。為什么區分它們非常重要?

你使用什么工具進行可視化?你對Tableau/R/SAS(用來作圖)有何看法?如何有效地在一幅圖表(或一個視頻)中表示五個維度?

一名真正的數據科學家了解如何應用數學和統計,如何使用合理的實驗設計構建和驗證模型。掌握IT技能但沒有統計技能只會讓你成為一個造手術刀的外科醫生那樣的數據科學家

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢