熱線電話:13121318867

登錄
首頁大數據時代你想知道的箱型圖的基礎知識,都在這里了
你想知道的箱型圖的基礎知識,都在這里了
2020-07-17
收藏

箱型圖,又叫做箱線圖(Boxplot),或者箱須圖(Box-whisker Plot),另外,盒式圖指的也是它。箱型圖通常是被用作觀察數據整體的分布情況,是通過數據中的五個統計量:最小值(上邊界)、上四分位數(75/%分位數)、中位數、下四分位數(25/%分位數)與最大值(下邊界)來描述數據的一種統計圖。通過計算這些統計量,生成一個箱型圖,可以直觀地顯示出數據的異常值,分布的離散程度以及數據的對稱性。箱型圖包含了大部分的正常數據,但是如果是位于箱體上邊界和下邊界之外的,就是異常數據。

一、箱型圖5要素

中位數:二分之一分位數。計算的方法為:將一組數據按從小到大順序排列后的處于中間位置的值。

注意:

如果原始序列長度n是奇數,那么中位數所在位置是(n+1)/2;

如果原始序列長度n是偶數,那么中位數所在位置是n/2.n/2+1.中位數的值等于這兩個位置的數的算數平均數。

下四分位數Q1:位于數據序列25%位置處的數

四分位數的求法,是將序列平均分成四份。具體的計算目前有(n+1)/4與(n-1)/4兩種,一般使用(n+1)/4.簡單來說,也就是四分之一分位數即第(n+1)/4個數

上四分位數Q3:位于數據序列75%位置處的數。與下四分位數所在位置計算方法類似,為(1+n)/4*3=6.75.也就是介于第六與第七個位置之間的地方,對應的具體的值為0.75*6+0.25*7=6.25.

四分位間距IQR:IQR表示上下四分位差,系數1.5是一種經過大量分析和經驗積累起來的標準,一般情況下不做調整。計算方法為: IQR = Q3-Q1

下限:非異常范圍內的最大值= Q1 – 1.5 *IQR

上限:非異常范圍內的最小值= Q3 + 1.5 *IQR

二、箱型圖特性

1.能夠直觀的顯示出異常值,如果數據有離群點,也就是位于上下邊界之外,并以圓點來表示

2.如果箱型圖很短,那么就代表著大部分數據都集中分布在很小的范圍之內

3.如果箱型圖很長,就代表著數據分布比較離散,數據間的差異較大

4.中位數所處的高低位置,可以反映數據的偏斜程度,如果中位數接近頂部,代表大部分的數據值比較大,反之,如果中位數接近底部,代表大部分的數據值比較小

5.上下虛線比較長時,代表著上下四分位數之外的數據變化較大,整體數據的方差和標準偏差也比較大

6.箱型圖的上下邊界代表著非異常范圍內的最大值或最小值

另外,雖然通過箱型圖可以清晰看出數據的分布偏態,但是箱型圖并不能顯示出關于數據分布偏態和尾重程度的精確度量。而且當數據量很大時,箱型圖反映出來的數據信息會更加模糊。因此,建議結合均值、標準差、偏度、分布函數等工具一起使用。

推薦學習書籍

《CDA一級教材》適合CDA一級考生備考,也適合業務及數據分析崗位的從業者提升自我。完整電子版已上線CDA網校,累計已有10萬+在讀~

免費加入閱讀:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢