熱線電話:13121318867

登錄
首頁精彩閱讀成為靠譜的數據科學家——從提出正確的問題開始
成為靠譜的數據科學家——從提出正確的問題開始
2019-01-16
收藏



作者 | Admond Lee

翻譯 | Mika

CDA 數據分析研究院原創作品,轉載需授權


作為一名數據科學家,在我們討論如何通過正確的提問對問題進行定義前,讓我們首先看到為什么提出正確的問題是如此重要。


在我的第一份數據科學實習中,我對這個項目非常興奮,只是想盡快動手,而沒有弄清楚全局情況。


我首先試著弄清楚我要解決的問題,但卻沒有深入細節確定具體的目標。更糟糕的是,我沒有質疑所要分析和預測的數據集。最終經過兩周的數據清理和分析,我才意識到我對數據做出了錯誤的假設。所有這些都是因為我對問題和數據缺乏了解。


這就是我的故事。


我認為提出正確的問題和定義問題陳述是許多數據科學初學者(包括我)面臨的一項挑戰。


提問很容易,每個人都會提問。但是提出正確的問題就不容易了,因為我們不知道哪些問題才是正確的。


在本文中,我將與你分享作為數據科學家,該如何提出正確問題并定義問題陳述。希望能夠幫助你應對數據科學生涯中的這些挑戰。


讓我們開始吧!


如何通過提出正確的問題來定義問題陳述?


不管你是否承認,定義問題陳述(或數據科學問題)是數據科學管道中最重要的步驟之一。


在下面的部分中,我們將通過四個步驟來定義問題陳述。



1.理解需要解決的問題


需要確定的機會是什么?你的受眾所面臨的痛點是什么?

通常情況下,Kaggle競賽中的問題陳述都是明確定義的。我們可以放心使用給出的數據集,而不必擔心問題陳述給其他人帶來的問題,或如何獲取數據等。

但是,實際工作環境中的問題并沒有被定義,有些問題很曖昧,很模糊。

大多數時候,公司領導層只會給我們一個問題:我有這個“問題”,你能幫我解決這個問題嗎?僅此而已。

我們的任務是幫助他們將問題構建成數據科學問題,從他們的角度看問題。

換句話說,我們需要有同理心。

這時我們需要從領導層的角度,將我們的技術知識與數據結合起來,提出一個促進商業價值的解決方案。


2.根據問題評估情況


在構建了數據科學問題之后,接下來就需要根據問題對形勢進行評估。

這意味著我們需要謹慎分析風險、成本、收益、突發事項、法規、資源和需求。

為了進一步說明,這里可以大致分為以下幾個問題:

這個問題有什么要求?

有哪些假設和約束條件?

有哪些資源?這里指的是人員和資金,計算機系統(GPU,可用的CPU),儀器等。



3.了解項目的潛在風險和收益


這個步驟是可選的,具體取決于項目的大小和規模。

有些項目可能只處于探索階段,因此如果項目投入生產,潛在風險可能會降低,且未來收益會更大。

這個項目相關的主要成本是多少?

有哪些潛在的收益?

有哪些潛在的風險?

潛在風險中會有哪些突發情況?

回答這些問題有助于更好地了解情況,并了解項目涉及的內容。對項目有深入的了解有助于評估之前定義問題陳述的有效性。


4.定義評估項目成功的指標


這個很重要。你不能只有需要解決的問題,而沒有任何指標來評估項目是否成功。

這歸結為一個簡單的問題:你希望在項目結束時實現什么目標?

成果應該是可衡量的,而不是無法量化的。某些指標可能無法立即使用,因此還需要進行數據收集和預處理。

你必須與領導層討論要使用的指標,并且在提出正確問題的早期就應該進行討論。

定義成功標準非常重要,因為這有助于你在項目整個生命周期內對其進行評估。


結語


我們的最終目標是提出更好的問題和定義明確的問題陳述,從而用數據科學方法進行解決,并生成業務見解和可操作的計劃。

謝謝你的閱讀。希望本文能夠讓你理解提出正確問題以及如何構建問題陳述的重要性。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢