
海量數據對比分析,技術面試里的那些門道
最近有很多用戶說到了年終需要回顧這一年的工作,根據這一年的數據看看有沒有異常的情況,那么哪種圖能夠清晰直觀地展現出這一信息呢?
答案只有一個,那就是…
箱形圖
箱形圖(英文:Box plot),又稱為盒須圖、盒式圖、盒狀圖或箱線圖,是一種用作顯示一組數據分散情況資料的統計圖。因型狀如箱子而得名。在各種領域也經常被使用,常見于品質管理,快速識別異常值。
箱形圖最大的優點就是不受異常值的影響,能夠準確穩定地描繪出數據的離散分布情況,同時也利于數據的清洗。
想要搞懂箱形圖,那么一定要了解…
五大因“數”
我們一組序列數為例:12,15,17,19,20,23,25,28,30,33,34,35,36,37講解這五大因“數”
1、下四分位數Q1
(1)確定四分位數的位置。Qi所在位置=i(n+1)/4,其中i=1,2,3。n表示序列中包含的項數。
(2)根據位置,計算相應的四分位數。
例中:
Q1所在的位置=(14+1)/4=3.75,
Q1=0.25×第三項+0.75×第四項=0.25×17+0.75×19=18.5;
2、中位數(第二個四分位數)Q2
中位數,即一組數由小到大排列處于中間位置的數。若序列數為偶數個,該組的中位數為中間兩個數的平均數。
例中:
Q2所在的位置=2(14+1)/4=7.5,
Q2=0.5×第七項+0.5×第八項=0.5×25+0.5×28=26.5
3、上四分位數Q3
計算方法同下四分位數。
例中:
Q3所在的位置=3(14+1)/4=11.25,
Q3=0.75×第十一項+0.25×第十二項=0.75×34+0.25×35=34.25。
4、上限
上限是非異常范圍內的最大值。
首先要知道什么是四分位距如何計算的?
四分位距IQR=Q3-Q1,那么上限=Q3+1.5IQR
5、下限
下限是非異常范圍內的最小值。
下限=Q1-1.5IQR
講了這么多的“數學知識”,那么箱形圖到底如何通過BDP應用到實際的工作呢?我們還是用一個實例來幫助大家理解。
現在有“2017年各季度各地區分公司銷售業績”工作表,我們想要找出各季度哪些分公司業績屬于不正常范圍內。
數據示例如下圖:
BDP箱形圖結果:
從上圖可以清晰的找出異常點,例如第二季度北京分公司的銷售額為22147元,該值比上限10759元還要大,所以定義為異常值。
箱形圖的價值
1.直觀明了地識別數據批中的異常值
上文講了很久的識別異常值,其實箱線圖判斷異常值的標準以四分位數和四分位距為基礎,四分位數具有一定的耐抗性,多達25%的數據可以變得任意遠而不會很大地擾動四分位數,所以異常值不會影響箱形圖的數據形狀,箱線圖識別異常值的結果比較客觀。由此可見,箱線圖在識別異常值方面有一定的優越性。
2.利用箱線圖判斷數據批的偏態和尾重
對于標準正態分布的樣本,只有極少值為異常值。異常值越多說明尾部越重,自由度越?。醋杂勺儎拥牧康膫€數);
而偏態表示偏離程度,異常值集中在較小值一側,則分布呈左偏態;異常值集中在較大值一側,則分布呈右偏態。
3.利用箱線圖比較幾批數據的形狀
同一數軸上,幾批數據的箱線圖并行排列,幾批數據的中位數、尾長、異常值、分布區間等形狀信息便昭然若揭。如上圖,可直觀得看出第三季度各分公司的銷售額大體都在下降。
但箱形圖也有他的局限性,比如:不能精確地衡量數據分布的偏態和尾重程度;對于批量比較大的數據,反映的信息更加模糊以及用中位數代表總體評價水平有一定的局限性。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25