
利用SPSS箱線圖與Z分數法判別異常值的比較
箱線圖(Boxplot)也稱箱須圖(Box-whisker Plot),是利用數據中的五個統計量:最小值、第一四分位數、中位數、第三四分位數與最大值來描述數據的一種方法,它也可以粗略地看出數據是否具有有對稱性,分布的分散程度等信息,特別可以用于對幾個樣本的比較。
簡單箱線圖由五部分組成,分別是最小值、中位數、最大值和兩個四分位數。
第一四分位數Q1:又稱“下四分位數”,等于該樣本中所有數值由小到大排列后第25%的數字。
中位數F:又稱第二四分位數(Q2),又稱“中位數”,等于該樣本中所有數值由小到大排列后第50%的數字。
第三四分位數:又稱“上四分位數”,等于該樣本中所有數值由小到大排列后第75%的數字。
箱線圖判斷異常值的標準以四分位數和四分位距為基礎。
四分位距(QR, Quartile range):上四分位數與下四分位數之間的間距,即上四分位數減去下四分位數。
F代表中位數,QR代表四分位距。
在Q3+1.5QR(四分位距)和Q1-1.5QR處畫兩條與中位線一樣的線段,這兩條線段為異常值截斷點,稱其為內限。
在F(中位數)+3QR和F-3QR處畫兩條線段,稱其為外限。
箱線圖功能:
1.直觀明了地識別數據批中的異常值
箱線圖為我們提供了識別異常值的一個標準:異常值被定義為小于Q1-1.5IQR或大于Q3+1.5IQR的值。雖然這種標準有點任意性,但它來源于經驗判斷,經驗表明它在處理需要特別注意的數據方面表現不錯。這與識別異常值的經典方法有些不同。眾所周知,基于正態分布的3σ法則或z分數方法是以假定數據服從正態分布為前提的,但實際數據往往并不嚴格服從正態分布。它們判斷異常值的標準是以計算數據批的均值和標準差為基礎的,而均值和標準差的耐抗性極小,異常值本身會對它們產生較大影響,這樣產生的異常值個數不會多于總數0.7%。顯然,應用這種方法于非正態分布數據中判斷異常值,其有效性是有限的。箱線圖的繪制依靠實際數據,不需要事先假定數據服從特定的分布形式,沒有對數據作任何限制性要求,它只是真實直觀地表現數據形狀的本來面貌;另一方面,箱線圖判斷異常值的標準以四分位數和四分位距為基礎,四分位數具有一定的耐抗性,多達25%的數據可以變得任意遠而不會很大地擾動四分位數,所以異常值不能對這個標準施加影響,箱線圖識別異常值的結果比較客觀。由此可見,箱線圖在識別異常值方面有一定的優越性。
2.利用箱線圖判斷數據批的偏態和尾重
比較標準正態分布、不同自由度的t分布和非對稱分布數據的箱線圖的特征,可以發現:對于標準正態分布的大樣本,只有 0.7%的值是異常值,中位數位于上下四分位數的中央,箱線圖的方盒關于中位線對稱。選取不同自由度的t分布的大樣本,代表對稱重尾分布,當t分布的自由度越小,尾部越重,就有越大的概率觀察到異常值。以卡方分布作為非對稱分布的例子進行分析,發現當卡方分布的自由度越小,異常值出現于一側的概率越大,中位數也越偏離上下四分位數的中心位置,分布偏態性越強。異常值集中在較小值一側,則分布呈現左偏態;;異常值集中在較大值一側,則分布呈現右偏態。下表列出了幾種分布的樣本數據箱線圖的特征(樣本數據由SAS的隨機數生成函數自動生成),驗證了上述規律。這個規律揭示了數據批分布偏態和尾重的部分信息,盡管它們不能給出偏態和尾重程度的精確度量,但可作為我們粗略估計的依據。
3.利用箱線圖比較幾批數據的形狀
同一數軸上,幾批數據的箱線圖并行排列,幾批數據的中位數、尾長、異常值、分布區間等形狀信息便昭然若揭。在一批數據中,哪幾個數據點出類拔萃,哪些數據點表現不及一般,這些數據點放在同類其它群體中處于什么位置,可以通過比較各箱線圖的異常值看出。各批數據的四分位距大小,正常值的分布是集中還是分散,觀察各方盒和線段的長短便可明了。每批數據分布的偏態如何,分析中位線和異常值的位置也可估計出來。還有一些箱線圖的變種,使數據批間的比較更加直觀明白。例如有一種可變寬度的箱線圖,使箱的寬度正比于批量的平方根,從而使批量大的數據批有面積大的箱,面積大的箱有適當的視覺效果。如果對同類群體的幾批數據的箱線圖進行比較,分析評價,便是常模參照解釋方法的可視圖示;如果把受測者數據批的箱線圖與外在效標數據批的箱線圖比較分析,便是效標參照解釋的可視圖示。箱線圖結合這些分析方法用于質量管理、人事測評、探索性數據分析等統計分析活動中去,有助于分析過程的簡便快捷,其作用顯而易見。
箱線圖應用舉例:
現有某直銷中心30名員工的工資測算數據兩批,第一批為工資調整前的數據,第二批為工資調整后的數據,繪出它們的箱線圖(如下圖),進行比較,可以很容易地得出:工資調整前,總體水平在 752元左右,四分位距為307.5,沒有異常值。經過調整后,箱線圖顯示,第2、29、10、24、27號為溫和的異常值,第26、30、28號為極端的異常值。為什么會出現異常值呢?經過進一步分析知道,第2、29、10、24號員工由于技能強、工齡長、積累貢獻大、表現較好,勞苦功高,理應得到較高的報酬;第27、26、30、28號職工則因為技能偏低、工齡短、積累貢獻小且表現較差,得到的工資較低,甚至連一般水平也難以達到。這體現了工資調整的獎優罰劣原則。另外,調整后工資總體水平比調整前高出270元,四分位距為106,工資分布比調整前更加集中,在合適的范圍內既拉開了差距,又不至于差距太懸殊,還針對特殊情況進行了特殊處理。這種工資分布具有激勵作用,可以說工資調整達到預期目的。
箱線圖美中不足之處在于它不能提供關于數據分布偏態和尾重程度的精確度量;對于批量較大的數據批,箱線圖反映的形狀信息更加模糊;用中位數代表總體平均水平有一定的局限性等等。所以,應用箱線圖最好結合其它描述統計工具如均值、標準差、偏度、分布函數等來描述數據批的分布形狀。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
2025 年,數據如同數字時代的 DNA,編碼著人類社會的未來圖景,驅動著商業時代的運轉。從全球互聯網用戶每天產生的2.5億TB數據, ...
2025-05-27CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25