熱線電話:13121318867

登錄
首頁精彩閱讀數據科學中隱藏的數據智慧
數據科學中隱藏的數據智慧
2017-12-19
收藏

數據科學中隱藏的數據智慧

在大數據時代,學術界和業界的大量研究都是關于如何以一種可擴展和高效率的方式來對數據進行儲存,交換和計算(通過統計方法和算法)。這些研究領域無疑非常重要,然而,只有當我們對數據智慧(Data Wisdom)也給予同等程度的重視時,大數據(或者小型數據)才能被轉換為真正的知識和有用的,可被采納的信息。換而言之,我們要認識到必須擁有足夠數量的數據才有可能對復雜度較高的問題給出較可靠的答案?!皵祿腔邸睂τ谖覀儚臄祿刑崛∮行畔⒑痛_保沒有誤用或夸大原始數據是至關重要的。

要讓統計圈以外的人了解,“數據智慧”是非常必要的重命名,因為它比“應用統計學”這個術語能更好概括其核心成分。 這樣一個有信息量的名稱可以使人們意識到應用統計作為數據科學一部分的重要性。
引用維基百科中對“智慧“這一詞條解釋的第一句話,我想說:
“數據智慧“是將領域知識、數學和方法論與經驗、理解、常識、洞察力以及良好的判斷力相結合,思辨性地理解數據和依據數據做決策的一種能力。
“數據智慧“是數學、自然科學和人文主義這三方面能力的融合,是科學和藝術的結合。在缺乏有實踐經驗者的指導下,個人很難僅僅靠從讀書中獲得“數據智慧”, 想要學習它的最好方法就是和擁有它的人一起共事。當然,我們也可以通過問答方式來幫助形成和培養“數據智慧”的能力。我這里有10個基本問題,我鼓勵人們在開始從事數據分析項目或者在其過程中可以經常問問自己。這些問題剛開始時是按照一定順序排列的,但是在不斷重復的數據分析過程中,這個順序完全可以被打亂。
這些問題也許無法詳盡徹底的解釋“數據智慧”,但是它們體現了“數據智慧”的一些特點:
1.要回答的問題
數據科學的問題最開始往往來自于統計學或者數據科學以外的學科。例如,神經科學中的一個問題:大腦是如何工作的?或銀行業中的一個問題:該對哪組顧客推廣新服務?要解決這些問題,統計學家必須要與該領域的專家進行合作。這些專家會提供有助于解決問題的領域知識,早期研究成果,更廣闊的視角,甚至可能是對該問題的重新定義。與這些(往往可能很忙)專家建立聯系需要很強的人際交流技巧。
而這種交流對于數據科學項目的成功是必不可少的。在有充足數據來源的情況下,經常發生情況的是在數據收集前要回答的問題還沒有被精確定義。正如 Tukey 所說的那樣:“我們在 ‘探索性數據分析(Exploratory Data Analysis)’的游戲中?!蔽覀儗ふ倚枰卮鸬膯栴},然后不斷重復統計調查過程(就像上文提到的 George Box 的文章中所述)。由于誤差的存在,我們謹慎的避免對于數據中出現的模式進行過度擬合。例如,當同一份數據既被用于問題的建模又被用于問題的驗證時,過度擬合就會發生。一條黃金準則就是將數據分割,在分割時考慮到數據潛在的結構(如相關性,聚類性,異質性)使分割后的每部分數據都對原始數據具有代表性。用其中一部分來探索問題,而另一部分用來通過預測或者建模來回答問題。
2.數據收集
實驗設計(統計學的一個分支)和主動學習(機器學習的一個分支)中的方法對解決這個問題有所幫助。即使是在數據已經收集好了以后,考慮這個問題也是很有必要的。因為對理想的數據收集機制的理解可以暴露出實際數據收集過程的缺陷,能夠指導下一步分析的方向。
下面的問題會有所幫助:
數據是如何收集的? 在哪些地點?在什么時間段?誰收集的?用什么設備收集的?中途操作人員和設備被更換過嗎?
總之,試著想象自己親身在數據收集現場。
3.數據含義
數據中的某個數值代表了什么含義?它測量了什么?它是否測量要測量的?哪些環節可能會出差錯?在哪些統計假設下可以認為數據收集沒有問題?(對數據收集過程的詳細了解在這會很有幫助。)
4.相關性
收集來的數據能完全或部分地回答要研究的問題嗎?如果不能,還需要收集什么其他數據?第2個問題中提到的要點在此處同樣受用。
5.問題轉化
如何將(1)中的問題轉化成一個數據相關的統計問題,使之能夠很好回答與原始問題呢?有多種轉換方式嗎?比如,我們可以把問題轉換成一個與統計模型有關的預測問題或者統計推斷問題嗎?在選擇模型前,列出將每一種能解決與實質性問題的轉化方式的優點和缺點。
6.可比性
各數據單元是否是可比的,或經過標準化處理而可視為可交換的?蘋果和橘子是否被組合在一起了?數據單元是否相互獨立?兩列數據是不是同一個變量的副本?
7.可視化
觀察數據(或其子集),制作一維或二維圖表,并檢驗這些的數據的統計量。詢問數據范圍是什么?數據正常嗎?是否有缺失值?多使用顏色和動態圖,注意有意料之外的情況記住,我們大腦皮層的30%都是用來處理圖像的,所以可視化在挖掘數據模式和特殊情況時非常有效。通常情況,為了找到大數據的模式,可視化在建立某些模型之后使用最有用,比如,計算殘差并進行可視化展示。
8.隨機性
統計推斷的概念,比如p值和置信區間,都依賴于隨機性。那數據中的隨機性是什么含義呢?我們要對統計模型的隨機性盡量明確地定義。哪些所研究的領域中知識支持所用統計模型中的隨機性的描述?一個表現統計模型中隨機性的最好例子,就是因果關系分析中 Neyman-Rubin 的隨機分組原理(在AB檢驗中也有使用)。
9.穩定性
你會使用哪些現有的方法?不同的方法會得出同一個定性的結論嗎?對數據進行隨機擾動,例如,可以通過添加噪聲或二次抽樣實現(一般來說,應確定二層樣本有原樣本的結構,如相關性,聚類特性和異質性,這樣二層樣本能較好地代表原始數據)。結論依然成立嗎?我們應該只相信那些能通過穩定性檢驗的方法,穩定性檢驗簡單易行,能夠抗過度擬合和過多假陽性發現,具有可重復性(要了解關于穩定性重要程度的更多信息,請參看文章)。
可重復性研究最近在科學界中吸引了很多注意,請參照《Nature》特刊?!禨cience》的主編 Marcia McNutt 指出“實驗再現是科學家用以增加結論信度的一種重要方法”。同樣,商業和政府實體也應該要求從數據分析中得出的結論,當用新的同質數據檢驗時是可再重復的。
10.結果驗證
人們怎樣能知道數據分析是不是做的好呢?衡量標準是什么?可以考慮用其他類型的數據或者先驗知識來衡量有效性,不過可能需要收集新的數據以確認結果的有效程度。
在數據分析時還有許多其他問題要考慮,但我希望上面的這些問題能使你對如何獲取“數據智慧”產生一點感覺。作為一個統計學家,這些問題的答案需要在統計學之外獲取。要找到可靠的答案,有效的信息源包括“死的”(如科學文獻、報告和書籍)和“活的”(如人)。出色的人際交流技能使得尋找正確信息源的過程簡單了許多,即使是在尋求“死的”信息源的過程中也是這樣。因此,為了獲取充足的信息,人際交流技能將更加重要,因為在我的經驗中,知識淵博的人通常是你最好的指路。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢