
文 | Keith Collins
翻譯 | 周煒樂
數據圖也有陷阱?即使數據準確、完整,其展現方式如果不易于讀者理解,或是產生誤導,也就喪失了它配合故事敘述的意義。美國媒體Quartz的記者Keith Collins在《2015最具誤導性的圖表》一文中總結出了我們經常會出錯的幾種類型,幫你煉就火眼金睛,做出更優質的圖表。
這一年來,Quartz制作了眾多圖表,也花了不少時間思考、討論相關問題,發布了長達6000字的數據處理指南(深度君將會奉上中文版精華)以及一篇講解如何正確使用y軸的文章??吹胶芏鄨D表要么使用模糊或錯誤的數據、畫出有偏差的軸線,要么在其他方面誤導讀者,我們覺得很可惜。我們會想,“世界到處都是優質的數據呀!為什么每個人不能合理引用數據、使之標準化,直接把它展現出來呢?”因此,Quartz今年總結出錯誤最突出的例子,加以糾正。
1. y軸不出現,大小難以辨
——以Planned Parenthood數據中y軸的偏差為例
在2015年9月29日舉行的一場聽證會上,美國參議院中的共和黨議員不斷追問非營利組織Planned Parenthood(該組織是一個提供計劃生育相關服務的非營利組織,大約每年接待 270萬女性進行各種身體檢查,避孕與墮胎等。來源:知乎)的主席Cecile Richards,指責她濫用了該組織的年度聯邦資助中的500萬美元。為了闡明問題,猶他州的參議員Jason Chaffetz以下圖佐證:
他解釋道:“粉色軸線告訴我們該組織所做的乳房檢查次數在不斷減少,紅色軸線則顯示墮胎手術實施次數逐漸上升。這反映了該組織的現狀?!?/span>
乍一看,這張圖的確顯示Planned Parenthood實施的墮胎手術數量猛增,同時癌癥檢查的次數卻急劇下降。讀者還可能被誤導,認為從2010年起該組織實施的墮胎次數遠遠多于預防檢查次數。但這并非實情。這張圖最大的錯誤在于沒有明顯的y軸,因而兩條數據線隨意交叉,讓人誤以為327000比935573還要大呢。
美國事實核查型新聞網站Politifact 核對了以上數據,從Planned Parenthood年度報告中選取了墮胎手術和預防性措施的數據。數據范圍調整合理后,信息展現如下:
如圖所示,癌癥檢查和預防服務的數量的確呈下降趨勢,這和原圖表相一致。但這些檢查的次數仍遠遠大于墮胎手術次數。下圖采用了另一種展現方式,用的是這兩項服務逐年的百分比變化:
(注意:本圖并未收錄2008年的數據;Politifact和Quartz均未找到該年的報告)
2.圖形元素不可用,雙重標準有漏洞
——以美國白宮錯誤計算高中畢業率為例
在12月中旬,美國白宮的官方賬號發了一條推特:“好消息:美國高中畢業率已升至歷史最高水平
?!蓖铺嘏鋱D如下:
此圖有好幾個問題值得商榷。首先,在數據圖里用圖形元素作單位從來都不是個好主意。用五本書代表75%、或者用16本書代表82%是幾個意思?這到底是個柱狀圖,y軸就應該以零作為起始值。同樣的數據,采用合適的比例后呈現如下:
其實畢業率的逐年變化沒有原圖那么大,對吧?但問題不止于此。仔細看看白宮這張圖右下角“數據來源”一行:畢業率數據來自“美國教育部(DOE)下屬的國家教育統計中心(NCES)”。問題在于,無論是統計中心還是教育部都無法提供一張囊括2008年至2014年逐年畢業率的單一數據表。不同的數據集合可能采用不同方法計算畢業率,把這些數據放在一起討論是有潛在問題的。這也說明政府的數據分類做的太糟糕,即使是畢業率這樣簡單的指標他們也需要好幾張數據表才拼湊得出。
現在,我們暫且假定白宮的核算方法沒問題,選取的數據表都采用了同樣的方法計算畢業生組別,但有一個問題我們不能忽視:即使y軸固定,柱狀圖也可能是一種糟糕的呈現方式。要知道,制圖時最重要的是選擇合適的方式呈現數據。若要顯示一段時間內畢業率的細微差別,最好用折線圖。以下數據圖便采用了單一數據源,囊括了1975年以來每年的畢業率:
若縱觀全局,我們能得出幾個結論。一是畢業率在奧巴馬甫任總統時就已經呈現上揚趨勢。另一個是,截至2012年,奧巴馬任期內畢業率的增長百分比已經超過了以往任何一屆總統。如果像白宮圖表顯示的那樣,2014年的畢業率為82%,該增長幅度實際接近于7%。 (*更新:我們之前將統計中心和教育部分為“兩個單獨的數據來源”。一些讀者指出統計中心是教育內部機構,因此應該被視為同一數據來源。我們表示贊同,對以上內容做了相應修改。)
3. y軸起始都是零,細微變化看不清
以National Review雜志全球變暖的報道為例 下面這張圖可謂是2015全球(圖片界)最差圖表:
當有人說所有折線圖的y軸都應該以0為起始點時,我們都應該想想這張圖。全球平均氣溫即使僅僅變化了1度,也會影響巨大,但這張圖從零開始計數,氣溫的變化就顯得微乎其微了。正如記者David Yanofsky在他的文章《y軸不以零起始也完全可以》里所說,當你畫出口腔溫度變化圖,y軸從零開始計,就會變成下圖這樣:
下面這份同樣看不出變化的逐年對比圖則是由彭博商業周刊圖片部發布的:
實際上,要想準確呈現1880年以來全球平均氣溫的變化,我們得把y軸的起始數據調高:
4.背景不了解,制圖出偏頗
——以美國政府開支分布圖為例
以下是2015年初瘋傳的政府開支餅圖:
Politifact發現,這是一個對于政府開支實際運作方式根本上的誤讀。該圖展現的僅僅是政府可以自由決定的部分,完全忽略了硬性開支。實際上,醫療保健、醫療補助、社會保障等法定項目占去了政府總開支的60%。該圖顯示政府給低收入者發放的“食品券”一項已被歸入食品和農村預算一項(可由政府自由決定),實際上是硬性項目的一部分,并沒有在圖中體現出來。以下則是包括硬性開支后的2015年政府開支圖:
據Politifact稱,圖中的“其余開支”一項包括“司法部門、立法部門、獨立機構和商務部、內政部、財政部除去抵消性收入后的開支”。
5.數據來源不統一,標準混亂失公允
——以美國總統任期內大規模槍擊案數量圖為例
加州圣伯納迪諾市發生槍擊后,對于如何計算劃分大規模槍擊的討論在數據界展開。相關的數據收集有好幾種,定義的方法也各不相同。有些只計算了造成四人及以上死亡的槍擊案例,其他的則將四人及以上中槍(無論死傷)的案例都算在內。問題在于,根據不同標準,每年大規模槍擊的數量范圍可從幾十跨到上百。
在12月2日,一家名為Truthstream Media的網站發布了一篇文章,題目為“為什么奧巴馬任內發生的大規模槍擊超過了他前四任的總和?”報道插入下圖作為證明,據稱參考多個數據源。一是Mother Jones數據庫計算的大規模槍擊數量,使用的就是四人及以上死亡的標準。其他兩個數據源來自維基百科。
經過檢查,我們發現這些數據都是有意篩選過的,奧巴馬任期的數字被歪曲了。
TruthStreamMedia.com對于“大規模槍擊案”的定義范圍限定寬松,捏造了不失數據。奧巴馬任期內的槍擊案還算上了家庭謀殺案,而計算前四任時卻把這一項省去了。例如,奧巴馬任期內的統計中出現了“Ervin Lupoe槍擊案”的記錄。Lupoe在2009年殺死了自己的妻子和五個孩子,但是維基百科或Mother Jones數據庫并沒有收錄該案件,因為它不屬于“大規模槍擊”一類。 以下為以總統任期為單位的大規模槍擊案數量統計圖,使用的是Mother Jones的數據:
原文題目:The most misleading charts of 2015, fixed
本文鏈接:http://qz.com/580859/the-most-misleading-charts-of-2015-fixed/
end
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25