
說說什么是探索式數據分析、驗證性數據分析
在大數據時代,混亂的、無結構的、多媒體的海量數據,通過各種渠道源源不斷地積累和記載著人類活動的各種痕跡。探索性數據分析可以成為了一個有效的工具。
美國約翰?懷爾德杜克(John Wilder Tukey)1977年在《探索性數據分析》(Exploratory Data Analysis)一書中第一次系統地論述了探索性數據分析。他的主要觀點是:探索性數據分析(EDA)與驗證性數據分析(Confirmatory Data Analysis )有所不同:前者注重于對數據進行概括性的描述,不受數據模型和科研假設的限制,而后者只注重對數據模型和研究假設的驗證。他認為統計分析不應該只重視模型和假設的驗證,而應該充分發揮探索性數據分析的長處,在描述中發現新的理論假設和數據模型。
探索性數據分析有別于初始性數據分析(initial data analysis – IDA)。初始性數據分析的聚焦點是分析鑒別統計模型和科研假設測試所需的條件是否達到,以保證驗證性分析的可靠性。在這個分析過程中對不符合條件的數據進行缺值填補、數據轉換、異常值舍棄等處理以增強分析的準確性。探索性數據分析包含初始性數據分析,但它的出發點不僅是確定數據質量,而且更重視從數據中發現數據分布的模式(Patten)和提出新的假設。
在以抽樣統計為主導的傳統統計學中,探索性數據分析對驗證性數據分析有著支持和輔助的作用。但由于抽樣和問卷都是事先設計好的,對數據的探索性分析是有限的。到了大數據時代,海量的無結構、半結構數據從多種渠道源源不斷地積累,不受分析模型和研究假設的限制,如何從中找出規律并產生分析模型和研究假設成為新挑戰。
探索性數據分析在對數據進行概括性描述,發現變量之間的相關性以及引導出新的假設方面均大顯身手。從邏輯推理上講,探索性數據分析屬于歸納法(Induction)有別于從理論出發的演繹法(Deduction)。因此,探索性數據分析成為大數據分析中不可缺少的一步并且走向前臺。高速處理海量數據的新技術加上數據可視化工具的日益成熟更推動了探索性數據分析的快速普及。
美國2014年出版的《數據科學實戰》(Rachel Schutt, Cathy O’Neil著,馮凌秉、王群峰譯)一書中,探索性數據分析被列為數據科學工作流程中的一個能影響多個環節的關鍵步驟。(見下圖)
可以通過建立垃圾電子郵件過濾器的過程考察一下探索性數據分析的作用。
由于電子郵件是自動積累的,各種商業廣告常常充斥郵箱,每天都給用戶帶來很多不便。我們憑直覺和經驗可以判斷哪個是垃圾郵件,但人工清理這些垃圾很浪費時間。建立垃圾郵件過濾器的第一步是從大量郵件中隨機抽樣出100條(或更多),人工地將它們分成有用郵件和垃圾郵件。第二步是用探索性數據分析對篩選出的垃圾郵件進行分析統計出哪類詞匯出現的機率最高。比如各類促銷和誘惑語言等,根據該類語言出現的頻度,可選出最常出現的5 到10個詞。第四步,以選出的詞為基礎建立初始郵件過濾模型并開發郵件過濾軟件程序,然后用它對一個大樣本(1000或更大)進行垃圾郵件的過濾試驗。第五步,對過濾器篩選出的垃圾郵件進行人工驗證,用探索性數據分析計算過濾的總成功率和每個詞的出現率。第六步,用成功率和出現率的結果進一步改進過濾模型,并在郵件處理過程中增加過濾器,根據事先定好的臨界點(Threshold),增加或減少過濾詞匯的功能(機器學習)。這樣,該垃圾郵件過濾器將不斷地自我改進以提高過濾的成功率。最后,應用數據可視化技術,各個階段的探索性數據分析結果都可以實時地用動態圖表展示。
從這個過程中我們可以看到:
1. 探索性數據分析能幫助我們從看似混亂無章的原始數據中篩選出可用的數據。
2. 探索性數據分析在數據清理中發揮重要作用。
3. 探索性數據分析是建立算法和過濾模型的第一步。
4. 探索性數據分析能通過數據碰撞發現新假設,通過機器學習不斷的改進和提高算法的精準度。
5. 探索性數據分析的結果,通過數據可視化展示,可以為郵件過濾器的開發隨時提供指導和修正信息。
按照傳統統計的“垃圾進,垃圾出”(Garbage in, garbage out)的金科玉律,混亂和不規則的數據是無用的垃圾。在抽樣統計中,每一個樣品數據都必須經過嚴格的檢測確保其準確性和可靠性。在大數據時代,混亂的、無結構的、多媒體的海量數據通過各種渠道(Internet of Things, IoT)源源不斷地積累和記載著人類活動的各種痕跡。探索性數據分析這個統計課程里一帶而過的分析方法在處理大數據的過程中卻成為了一個有效的工具。正如美國探索性數據分析創始人約翰?懷爾德杜克所說:“面對那些我們堅信存在或不存在的事物時,‘探索性數據分析’代表了一種態度,一種方法手段的靈活性,更代表了人們尋求真相的強烈愿望?!?
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25