
描述性數據匯總
對于成功的數據預處理,獲得數據的總體印象是至關重要的。描述性數據匯總技術可以用來識別數據的典型性質,突顯哪些數據值應當視為噪聲或離群點。因此,在討論具體的數據預處理之前,我們首先介紹描述性數據匯總的基本概念。
對于許多數據預處理任務,用戶希望知道關于數據的中心趨勢和離中趨勢特征。中心趨勢度量包括均值(mean)、中位數(median)、眾數(mode)和中列數(midrange),而數據離中趨勢度量包括四分位數(quartiles)、四分位數極差(interquartile range, IQR)和方差(variance)。這些描述性統計量有助于理解數據的分布。這些度量在統計學界已經廣泛研究。
從數據挖掘的角度,我們需要考察如何在大型數據庫中有效地計算它們。特殊地,我們需要引進分布式度量、代數度量和整體度量的概念。知道我們處理的度量類型可能有助于我們選擇它的有效實現。
2.2.1 度量數據的中心趨勢
我們考察度量數據中心趨勢的各種方法。數據集的“中心”最常用、最有效的數值度量是(算術)均值。設x1, x2,., xN是(如某個像salary這樣的屬性)N個值或觀測的集合。
該值集的均值是
這對應于關系數據庫系統提供的內部聚集函數average(SQL中為avg())。
分布式度量(distributive measure)是一種可以通過如下方法計算度量(即函數):將數據集劃分成較小的子集,計算每個子集的度量,然后合并計算結果,得到原(整個)數據集的度量值。sum()和count()都是分布式度量,因為它們都可以用這種方法計算。其他例子包括max()和min()。代數度量(algebraic measure)是可以通過應用一個代數函數于一個或多個分布度量計算的度量。因此,average(或mean())是代數度量,因為它可以通過sum()/count() 計算。當我們計算數據立方體時,sum()和count()可以在預計算時保留。這樣,導出數據立方體的average是直截了當的。
有時,集合中每個值xi與一個權值wi相關聯,i = 1, ., N。權值反映對應值的顯著性、重要性或出現頻率。在這種情況下,我們可以計算
這稱為加權算術均值(weighted arithmetic mean)或加權平均(weighted average)。注意,加權平均是代數度量的又一個例子。
盡管均值是描述數據集的最有用的單個量,但不總是度量數據中心的最好方法。均值的主要問題是對于極端值(如離群值)很敏感。即使少量極端值也可能影響均值。例如,公司的平均工資可能被少數高報酬的經理的工資顯著抬高。類似地,班級的考試平均成績可能因為少數幾個非常低的成績而降低相當多。為了抵銷少數極端值的影響,我們可以使用截斷均值(trimmed mean)。截斷均值是去掉高、低極端值得到的均值。例如,我們可以將工資的觀
測值排序,并在計算均值前去掉上下各2%的值。我們應當避免在兩端截斷的比例太大(如20%),因為這可能導致損失有價值的信息。
對于傾斜的(非對稱的)數據,數據中心的一個較好度量是中位數。設給定的N個不同值的數據集按數值序排序。如果N是奇數,則中位數是有序集的中間值;否則(即,如果N是偶數),中位數是中間兩個值的平均值。
整體度量(holistic measure)是必須對整個數據集計算的度量。整體度量不能通過將給定數據劃分成子集并合并每個子集上度量得到的值來計算。中位數是整體度量的一個例子。計算整體度量的開銷比計算上述分布度量的開銷大得多。
然而,我們可以容易地計算數據集中位數的近似值。假定數據根據它們的xi值劃分成區間,并且已知每個區間的頻率(即數據值的個數)。例如,可以根據年薪將人劃分到諸如10~20K, 20~30K等區間。令包含中位數頻率的區間為中位數區間。我們可以使用如下公式插值計算整個數據集的中位數的近似值:
數據立方體的計算在第3、4章詳細介紹。
其中,L1是中位數區間的下界,N是整個數據集的值的個數,(Σfreq)l是低于中位數區間的所有區間的頻率和,freqmedian是中位數區間的頻率,而width是中位數區間的寬度。
另一種中心趨勢度量是眾數。數據集的眾數是集合中出現頻率最高的值??赡茏罡哳l率對應多個不同值,導致多個眾數。具有一個、兩個或三個眾數的數據集合分別稱為單峰的(unimodal)、雙峰的(bimodal)和三峰的(trimodal)。一般,具有兩個或更多眾數的數據集是多峰的(multimodal)。在另一種極端情況下,如果每個數據值僅出現一次,則它沒有眾數。
對于適度傾斜(非對稱的)的單峰頻率曲線,我們有下面的經驗關系
mean-mode = 3×(mean-median) (2-4)
這意味如果均值和中位數已知,適度傾斜的單峰頻率曲線的眾數容易計算。
在完全對稱的數據分布單峰頻率曲線中,均值、中位數和眾數都是相同的中心值,如圖2-2a 所示。然而,在大部分實際應用中數據不是對稱的。它們可能是正傾斜的,其中眾數出現在小于中位數的值上(圖2-2b);或者是負傾斜的,其中眾數出現在大于中位數的值上(圖2-2c)。
中列數也可以用來評估數據集的中心趨勢。中列數是數據集的最大和最小值的平均值。中列數是代數度量,因為它容易使用SQL的聚集函數max()和min()計算。
2.2.2 度量數據的離散程度
數值數據趨向于分散的程度稱為數據的離差或方差。數據離中趨勢的最常用度量是極差、五數概括(基于四分位數)、中間四分位數極差和標準差。盒圖根據五數概括繪制,是一種識別離群點的有用工具。
1. 極差、四分位數、離群點和盒圖
設x1, x2,., xN是某屬性的觀測值集合。該集合的極差(range)是最大值(max())與最小值(min())之差。本節的其余部分假定數據以數值遞增序排列。
在數值序下,數據集合的第k個百分位數(percentile)是具有如下性質的值xi:百分之k的數據項位于或低于xi。中位數(上一節討論過)是第50個百分位數。除中位數外,最常用的百分位數是四分位數(quartile)。第一個四分位數記作Q1,是第25個百分位數;第三個四分位數記作Q3,是第75個百分位數。四分位數(包括中位數)給出分布的中心、離散和形狀的某種指示。第一個和第三個四分位數之間的距離是分布的一種簡單度量,它給出被數據的中間一半所覆蓋的范圍。該距離稱為中間四分位數極差(IQR),定義為
IQR = Q3 -Q1 (2-5)
根據類似于2.2.1節中位數分析的推理,可以斷言Q1和Q3是整體度量,IQR也是。
描述傾斜分布,單個分布數值度量(如IQR)不是非常有用的。傾斜分布兩邊的分布是不等的(圖2-2)。因此,提供兩個四分位數Q1和Q3以及中位數信息更豐富。一個識別可疑的離群點的常用經驗是:挑出落在至少高于第三個四分位數或低于第一個四分位數1.5×IQR處的值。
因為Q1、中位數和Q3不包含數據端點(例如尾)信息,分布形狀的更完整概括可以通過提供最高和最低數據值得到。這稱作五數概括。分布的五數概括(five-number summary)由中位數,四分位數Q1和Q3,最小和最大觀測值組成,按以下次序寫為Minimum, Q1, Median, Q3, Maximum。
分布的一種流行的可視化表示是盒圖(boxplot)。盒圖體現了五數概括:
. 在典型情況下,盒的端點在四分位數上使得盒的長度是中間四分位數極差IQR。
. 中位數用盒內的線標記。
. 盒外的兩條線(稱作胡須)延伸到最?。∕inimum)和最大(Maximum)觀測值。
當處理數量適中的觀測值時,值得個別地繪出潛在的離群點。在盒圖中這樣做:僅當這些值超過四分位數不到1.5×IQR時,胡須擴展到最高和最低觀測值。否則,胡須出現在四分位數的1.5×IQR之內的最極端的觀測值處終止。剩下的情況個別地繪出。盒圖可以用來比較若干個可比數據集。圖2-3給出在給定的時間段,AllElectronics的4個分店銷售的商品單價數據的盒圖。對于分店1,我們看到銷售商品單價的中位數是80美元,Q1是60美元,Q3是100美元。注意,該分店的兩個邊遠的觀測值個別地繪制,因為它們的值175和202超過IQR的1.5倍,這里IQR = 40。
對于大型數據集的挖掘,盒圖的有效計算,甚至是近似的盒圖(基于五數概括的近似)仍然是一個具有挑戰性的問題。
圖2-3 在給定的時間段,AllElectronics的4個分店銷售的商品單價的盒圖
2. 方差和標準差
N個觀測值x1, x2, ., xN的方差是
其中, 是觀測值的均值,由式(2-1)定義。觀測值的標準差σ是方差x σ2的平方根。
作為發散性的度量,標準差σ的基本性質是
. σ度量關于均值的發散,僅當選擇均值作為中心度量時使用。
. 僅當不存在發散時,即當所有的觀測值都具有相同值時,σ = 0;否則,σ > 0。方差和標準差是代數度量,因為它們可以由分布度量計算。即,N(SQL的count())、Σxi (xi的sum())和Σxi 2(xi 2的sum())可以按任意劃分進行計算,然后合并提供給式(2-6)。這樣,方差和標準差的計算在大型數據庫都是可伸縮的。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
2025 年,數據如同數字時代的 DNA,編碼著人類社會的未來圖景,驅動著商業時代的運轉。從全球互聯網用戶每天產生的2.5億TB數據, ...
2025-05-27CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25