熱線電話:13121318867

登錄
首頁精彩閱讀描述性數據匯總
描述性數據匯總
2016-09-25
收藏

描述性數據匯總

對于成功的數據預處理,獲得數據的總體印象是至關重要的。描述性數據匯總技術可以用來識別數據的典型性質,突顯哪些數據值應當視為噪聲或離群點。因此,在討論具體的數據預處理之前,我們首先介紹描述性數據匯總的基本概念。

對于許多數據預處理任務,用戶希望知道關于數據的中心趨勢和離中趨勢特征。中心趨勢度量包括均值(mean)、中位數(median)、眾數(mode)和中列數(midrange),而數據離中趨勢度量包括四分位數(quartiles)、四分位數極差(interquartile range, IQR)和方差(variance)。這些描述性統計量有助于理解數據的分布。這些度量在統計學界已經廣泛研究。

數據挖掘的角度,我們需要考察如何在大型數據庫中有效地計算它們。特殊地,我們需要引進分布式度量、代數度量和整體度量的概念。知道我們處理的度量類型可能有助于我們選擇它的有效實現。

2.2.1 度量數據的中心趨勢

我們考察度量數據中心趨勢的各種方法。數據集的“中心”最常用、最有效的數值度量是(算術)均值。設x1, x2,., xN是(如某個像salary這樣的屬性)N個值或觀測的集合。

該值集的均值是
 

這對應于關系數據庫系統提供的內部聚集函數average(SQL中為avg())。

分布式度量(distributive measure)是一種可以通過如下方法計算度量(即函數):將數據集劃分成較小的子集,計算每個子集的度量,然后合并計算結果,得到原(整個)數據集的度量值。sum()和count()都是分布式度量,因為它們都可以用這種方法計算。其他例子包括max()和min()。代數度量(algebraic measure)是可以通過應用一個代數函數于一個或多個分布度量計算的度量。因此,average(或mean())是代數度量,因為它可以通過sum()/count() 計算。當我們計算數據立方體時,sum()和count()可以在預計算時保留。這樣,導出數據立方體的average是直截了當的。

有時,集合中每個值xi與一個權值wi相關聯,i = 1, ., N。權值反映對應值的顯著性、重要性或出現頻率。在這種情況下,我們可以計算

這稱為加權算術均值(weighted arithmetic mean)或加權平均(weighted average)。注意,加權平均是代數度量的又一個例子。

盡管均值是描述數據集的最有用的單個量,但不總是度量數據中心的最好方法。均值的主要問題是對于極端值(如離群值)很敏感。即使少量極端值也可能影響均值。例如,公司的平均工資可能被少數高報酬的經理的工資顯著抬高。類似地,班級的考試平均成績可能因為少數幾個非常低的成績而降低相當多。為了抵銷少數極端值的影響,我們可以使用截斷均值(trimmed mean)。截斷均值是去掉高、低極端值得到的均值。例如,我們可以將工資的觀
測值排序,并在計算均值前去掉上下各2%的值。我們應當避免在兩端截斷的比例太大(如20%),因為這可能導致損失有價值的信息。

對于傾斜的(非對稱的)數據,數據中心的一個較好度量是中位數。設給定的N個不同值的數據集按數值序排序。如果N是奇數,則中位數是有序集的中間值;否則(即,如果N是偶數),中位數是中間兩個值的平均值。

整體度量(holistic measure)是必須對整個數據集計算的度量。整體度量不能通過將給定數據劃分成子集并合并每個子集上度量得到的值來計算。中位數是整體度量的一個例子。計算整體度量的開銷比計算上述分布度量的開銷大得多。

然而,我們可以容易地計算數據集中位數的近似值。假定數據根據它們的xi值劃分成區間,并且已知每個區間的頻率(即數據值的個數)。例如,可以根據年薪將人劃分到諸如10~20K, 20~30K等區間。令包含中位數頻率的區間為中位數區間。我們可以使用如下公式插值計算整個數據集的中位數的近似值:


數據立方體的計算在第3、4章詳細介紹。

其中,L1是中位數區間的下界,N是整個數據集的值的個數,(Σfreq)l是低于中位數區間的所有區間的頻率和,freqmedian是中位數區間的頻率,而width是中位數區間的寬度。

另一種中心趨勢度量是眾數。數據集的眾數是集合中出現頻率最高的值??赡茏罡哳l率對應多個不同值,導致多個眾數。具有一個、兩個或三個眾數的數據集合分別稱為單峰的(unimodal)、雙峰的(bimodal)和三峰的(trimodal)。一般,具有兩個或更多眾數的數據集是多峰的(multimodal)。在另一種極端情況下,如果每個數據值僅出現一次,則它沒有眾數。

對于適度傾斜(非對稱的)的單峰頻率曲線,我們有下面的經驗關系
mean-mode = 3×(mean-median) (2-4)

這意味如果均值和中位數已知,適度傾斜的單峰頻率曲線的眾數容易計算。

在完全對稱的數據分布單峰頻率曲線中,均值、中位數和眾數都是相同的中心值,如圖2-2a 所示。然而,在大部分實際應用中數據不是對稱的。它們可能是正傾斜的,其中眾數出現在小于中位數的值上(圖2-2b);或者是負傾斜的,其中眾數出現在大于中位數的值上(圖2-2c)。

中列數也可以用來評估數據集的中心趨勢。中列數是數據集的最大和最小值的平均值。中列數是代數度量,因為它容易使用SQL的聚集函數max()和min()計算。

2.2.2 度量數據的離散程度

數值數據趨向于分散的程度稱為數據的離差或方差。數據離中趨勢的最常用度量是極差、五數概括(基于四分位數)、中間四分位數極差和標準差。盒圖根據五數概括繪制,是一種識別離群點的有用工具。

1. 極差、四分位數、離群點和盒圖

設x1, x2,., xN是某屬性的觀測值集合。該集合的極差(range)是最大值(max())與最小值(min())之差。本節的其余部分假定數據以數值遞增序排列。

在數值序下,數據集合的第k個百分位數(percentile)是具有如下性質的值xi:百分之k的數據項位于或低于xi。中位數(上一節討論過)是第50個百分位數。除中位數外,最常用的百分位數是四分位數(quartile)。第一個四分位數記作Q1,是第25個百分位數;第三個四分位數記作Q3,是第75個百分位數。四分位數(包括中位數)給出分布的中心、離散和形狀的某種指示。第一個和第三個四分位數之間的距離是分布的一種簡單度量,它給出被數據的中間一半所覆蓋的范圍。該距離稱為中間四分位數極差(IQR),定義為

IQR = Q3 -Q1 (2-5)

根據類似于2.2.1節中位數分析的推理,可以斷言Q1和Q3是整體度量,IQR也是。

描述傾斜分布,單個分布數值度量(如IQR)不是非常有用的。傾斜分布兩邊的分布是不等的(圖2-2)。因此,提供兩個四分位數Q1和Q3以及中位數信息更豐富。一個識別可疑的離群點的常用經驗是:挑出落在至少高于第三個四分位數或低于第一個四分位數1.5×IQR處的值。

因為Q1、中位數和Q3不包含數據端點(例如尾)信息,分布形狀的更完整概括可以通過提供最高和最低數據值得到。這稱作五數概括。分布的五數概括(five-number summary)由中位數,四分位數Q1和Q3,最小和最大觀測值組成,按以下次序寫為Minimum, Q1, Median, Q3, Maximum。

分布的一種流行的可視化表示是盒圖(boxplot)。盒圖體現了五數概括:

. 在典型情況下,盒的端點在四分位數上使得盒的長度是中間四分位數極差IQR。

. 中位數用盒內的線標記。

. 盒外的兩條線(稱作胡須)延伸到最?。∕inimum)和最大(Maximum)觀測值。

當處理數量適中的觀測值時,值得個別地繪出潛在的離群點。在盒圖中這樣做:僅當這些值超過四分位數不到1.5×IQR時,胡須擴展到最高和最低觀測值。否則,胡須出現在四分位數的1.5×IQR之內的最極端的觀測值處終止。剩下的情況個別地繪出。盒圖可以用來比較若干個可比數據集。圖2-3給出在給定的時間段,AllElectronics的4個分店銷售的商品單價數據的盒圖。對于分店1,我們看到銷售商品單價的中位數是80美元,Q1是60美元,Q3是100美元。注意,該分店的兩個邊遠的觀測值個別地繪制,因為它們的值175和202超過IQR的1.5倍,這里IQR = 40。

對于大型數據集的挖掘,盒圖的有效計算,甚至是近似的盒圖(基于五數概括的近似)仍然是一個具有挑戰性的問題。

圖2-3 在給定的時間段,AllElectronics的4個分店銷售的商品單價的盒圖

2. 方差和標準差

N個觀測值x1, x2, ., xN的方差是


其中, 是觀測值的均值,由式(2-1)定義。觀測值的標準差σ是方差x σ2的平方根。

作為發散性的度量,標準差σ的基本性質是

. σ度量關于均值的發散,僅當選擇均值作為中心度量時使用。

. 僅當不存在發散時,即當所有的觀測值都具有相同值時,σ = 0;否則,σ > 0。方差和標準差是代數度量,因為它們可以由分布度量計算。即,N(SQL的count())、Σxi (xi的sum())和Σxi 2(xi 2的sum())可以按任意劃分進行計算,然后合并提供給式(2-6)。這樣,方差和標準差的計算在大型數據庫都是可伸縮的。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢