熱線電話:13121318867

登錄
首頁精彩閱讀Google首席決策師告訴你數據科學究竟是什么?
Google首席決策師告訴你數據科學究竟是什么?
2018-11-07
收藏


作者: Cassie Kozyrkov
編譯: Mika
本文為 CDA 數據分析師原創作品,轉載需授權

> 關于作者:
Cassie Kozyrkov,Google首席決策師。致力于統計學, 機器學習 /人工智能、數據、決策科學。


數據科學是讓數據變得有用的學科。在本文中我將對數據科學中的三個概念進行解讀。

* 統計
* 機器學習
* 數據挖掘/分析


1. 定義數據科學

看到數據科學這個術語的早期歷史,你會發現當時有兩個概念是密不可分的。

· 大數據意味著要更多地利用計算機
· 統計學很難把紙上的算法通過計算機實現

因此,數據科學誕生了。最開始數據科學家的的定義是“能夠編程的統計學家”。如今看來,這個說法并不準確,但首先讓我們看到數據科學本身。

2003年的數據科學期刊中曾提出:"'數據科學'意味著任何與數據有關的內容。"我很同意這個觀點,現在一切都離不開數據。

之后,我們看到了很多不同的觀點,比如Conway的維恩圖(下圖),以及Mason和Wiggins的經典觀點。

Drew Conway對數據科學的定義

我個人更喜歡維基百科上的定義:

數據科學一種"結合了統計、數據分析、機器學習及其相關方法的概念",以便用數據"理解和分析實際現象"。

這有些復雜了,讓我們精簡一下,即:

"數據科學是讓數據有用的學科。"

你現在可能會想,但這也太精簡了,“有用”這個詞怎么能囊括所有這些術語呢?

那么讓我們先看到下面的圖。

統計學家和機器學習工程師之間的區別,并不是前者使用R語言而后者使用Python。由于許多原因,用SQL、R、Python進行分類是不明智的,如今你甚至可以用SQL進行機器學習。

新手還喜歡通過算法進行區分,許多大學課程也是這么安排的,這也是不明智的。最好不要用直方圖、t檢驗以及神經網絡進行分類。坦率地說,如果你很聰明,其實你可以用相同的算法解決任何數據科學問題。

我建議可以這樣進行區分:

這指的是什么呢?當然是決定。你可以根據所需的事實,通過描述性分析得出決策。

我們的行動和決定會影響周圍的世界。我們之前談到要讓數據變得有用,而這與現實世界的行動是緊密相關的。

以下是決策導向圖,完成這三點能夠讓數據變得有用。


2. 數據挖掘

如果你不知道想做出什么樣的決定,那么最好的做法就是去尋找靈感。這就稱為數據挖掘、數據分析、描述性分析、探索性數據分析或(EDA)或知識發現(KD)。

分析的黃金法則:只對你所看到的做出結論。

你可以將數據集想象為在暗室中發現的一堆底片。數據挖掘就是讓設備盡快曝光這些照片,看是否能從中得出啟發。數據挖掘的黃金法則是:只能對你能看到的做出結論,不要對你看不到的內容做出判斷,因為你需要統計數據等更多的專業知識。

數據挖掘的專業知識取決于檢查數據的速度。一開始暗房會令人生畏,但其實也沒什么大不了的,只是學會使用設備就行了。當你開始樂在其中時,你就可以稱為數據分析師了;當你能夠飛速地曝光照片時,你就可以稱為分析師專家了。

3. 統計推斷

靈感很容易獲得,但嚴謹來之不易。如果你想重復利用數據,那么則需要專業的培訓。作為本科和碩士都學統計學專業的人,我認為統計推斷(簡稱統計)是三個領域中最難且最具哲學內涵的。想學好統計需要花費大量時間。

如果你打算做出高質量、風險可控的重要決策,那么你需要在分析團隊中加入統計技能。在不確定的情況下,統計學是能改變你想法的學科。

4. 機器學習

機器學習實質上是使用例子而不是指令來實現操作。關于機器學習我曾寫過一些文章,如關于機器學習與AI 的區別;如何入門機器學習等,如果感興趣的話可以看看。

* The simplest explanation of machine learning you’ll ever read
https://hackernoon.com/the-simplest-explanation-of-machine-learning-youll-ever-read-bebc0700047c

* Are you using the term ‘AI’ incorrectly?
https://medium.com/@kozyrkov/are-you-using-the-term-ai-incorrectly-911ac23ab4f5

* Why businesses fail at machine learning
https://hackernoon.com/why-businesses-fail-at-machine-learning-fbff41c4d5db


5. 數據工程

那么數據工程是什么呢?數據工程指的是為數據科學團隊提供數據的工作。數據工程本身就是一個復雜的領域,它更接近軟件工程,而不是統計學。

數據工程和數據科學之間的差異是前后的區別。獲取數據前的大部分技術工作都可以簡單地稱為“數據工程”,而得到數據后我們所做的一切都是“數據科學”。

6. 決策智能

決策智能是關于決策的,包括對根據大量數據進行決策,因此這也使其成為一個工程學科。它利用社會和管理科學的理念,增強數據科學的應用。

決策智能是社會和管理科學的組成部分。換而言之,它是數據科學的超集,而不涉及為通用用途創建基本方法之類的研究工作。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢