熱線電話:13121318867

登錄
首頁精彩閱讀如何像數據科學家一樣思考
如何像數據科學家一樣思考
2017-05-22
收藏
作為一名數據科學家需要很挑剔,并且善于發現他人會遺漏的東西。那么我們應該如何做到像數據科學家一樣思考呢?

1. 注意干凈數據

在著手處理數據前,你需要問自己,這個數據有意義嗎? 若錯誤地認為數據是干凈的,那么很可能會導致錯誤的結論。除此之外,你還可以通過查看數據的差異來辨別一些模式。例如,當注意到某列數據有超過 50% 的值丟失,那么你可能會考慮不使用該列?;蛘吣銜此际欠衲承祿占ぞ叱隽藛栴}。

或者從女性化妝品市場中得到的男女用戶人數比為 9:1 。此時你可以認為數據沒問題,從而就此得出結論;或者根據常識,反思標簽是否被交換了。

2. 理智地處理離群值

離群值可以幫助你更好地了解那些時時刻刻使用你的網站或產品的人。但是,在構建模型時包含這些離群值會對數據造成很大的干擾。

3. 留意異常的情況


數據科學家需要在尋常中發現不尋常。如果你有幸發現些什么的話,可能你就中獎了。

例如,Flickr 最初是一個多人游戲。當創始人注意到,人們大多情況下而是將其作為照片上傳工具使用時,他們才開始轉型。

另一個例子,Fab.com 的前身是 Fabulis.com,它本是男同性戀交友的網站。該網站最受歡迎的功能之一是“每日秒殺活動”。某天的秒殺商品是漢堡包,而其中一半的買家都是女性。這使團隊意識到存在著給女性銷售商品的市場。所以 Fabulis 便轉型成了 Fab,一個針對設計師品牌商品的限時搶購網站。

4. 關注正確的指標


? 謹防虛榮指標。
首先,活躍用戶本身并沒有帶來多大信息。我寧愿說“活躍用戶中增加了 5% 的媽媽用戶”而不是說“活躍用戶增加了 10000 人”。這就是虛榮指標,因為活躍用戶總是會增加的。我更愿意關注那些活躍的用戶百分比,從而了解產品的情況。

? 試著找出與商業目標相關的衡量標準。
例如,一個月的平均銷售量或用戶數量。

5. 統計數據也可能說謊


對每件事都要持懷疑態度。過去,統計數據在廣告、工作和其他許多營銷場合時常常會作假。有時為了獲得業績、升職,人們愿意做任何事情。

比如,你真的相信高露潔聲稱的有 80% 的牙醫推薦他們的牙膏嗎?

這些數據一開始看起來還不錯。事實證明,在采訪牙醫的時,他們會推薦好幾個,而不僅僅是一個品牌。因此,其他品牌也可能像高露潔一樣受歡迎。

另一個例子,99% 的正確率并沒什么用。如果讓我構建一個癌癥預測模型,我可以在一行代碼中給你一個 99% 準確的模型。怎么做?只要每一個都預測“沒有癌癥”即可。因為癌癥還是一種較為罕見的疾病,這么看來我的正確率可能會高于 99% 。即便如此我也一無所獲。

6. 理解概率的原理


1913 年夏天的某天,在摩納哥的一家賭場,賭客們驚訝地目睹了賭盤的篩子連續 26 次都落在黑色區域。因為落在紅色和黑色區域的概率正好對半,所以他們就確信總要輪到紅色了。賭場在這天賺翻了。這就是一個賭徒謬論的完美例子,也就是蒙特卡羅謬論。

這同樣也發生在現實生活中。人們傾向于避免連續相同的答案。有時為了得到看似更公平或更有可能的決策而犧牲判斷的準確性。

例如,如果一個招生負責人已經通過了三份簡歷,那么下一份簡歷很可能被拒絕,即使該生能力出眾。

7. 相關性不等于因果關系


數據科學家需要看清事物的本質。僅僅因為兩個變量相繼發生改變并不一定意味著兩者是因果關系。

過去有過這樣的例子,比如:通過消防局的數據,你似乎可以就此推斷,隨著更多的消防員到達火災現場,造成的損失就越大。

當調查紐約市 80 年代的犯罪原因時,一位學者發現:重大犯罪發生的數量和街頭小販出售冰淇淋的數量有很強的相關性。顯然,這當中存在一個未發現的變量促使了兩者的發生。夏天是犯罪最嚴重的時候,同時也是冰淇淋熱銷的時候。所以銷售冰淇淋不會導致犯罪。犯罪的產生也沒有增加冰淇淋銷售。

8. 數據越多越好


有時額外的數據可能會產生奇跡。通過從不同角度看問題,才能夠將問題看得越透徹。獲得更多的數據源至關重要。

例如,通過一個城市的犯罪數據,這可能會幫助銀行為居住在貧困地區的人提供更好的信用額度,并反過來提高改善這一情況。


原作者 Rahul Agarwal
編譯 CDA 編譯團隊
本文為  CDA 數據分析師原創作品,轉載需授權



數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢