
數據分析師眼中的數據真相
隨著大數據概念的普及和人們對數據價值認識的不斷深入,數據分析越來越受到人們的重視,尤其是在企業中,現在很多做銷售、市場的企業人員已經開始用數據說話,很多企業也已經開始借助數據進行決策和管理,量化經營的理念正逐步深入人心。與此同時,專業的數據分析師也逐漸進入人們的視野,被評為未來十年最有前途的十大職業之一。
作為一名數據分析師,保持對數據的敏感性是最基本的要求之一,這里所說的數據敏感性不僅是指能夠發現隱藏在數據之間的關系和規律,還包括能夠辨別數據的真偽。因為隨著數據產生量的爆炸式增長,一些假的、有問題的數據也不斷出現,這些數據有些是由抽樣誤差或采集過程引起的,有的則是出于某種目的人為造成的,而且有些錯誤的數據還非常隱蔽,往往容易被人忽視,從而造成錯誤的判斷甚至因此蒙受巨大的經濟損失。作為一名數據分析師,對待這類數據不能人云亦云,需要有自己的認識和理解,要透過數據的表面看背后的真相和存在的問題,下面舉幾個日常生活中常見的數據案例來說明如何看清數據的真相。
1、失業率
失業率是我們大家都非常熟悉的一個指標,也是政府制定相關政策的一個重要依據。這些年,中國政府一直將失業率控制在4%以下作為一項重要的執政目標,每年也都基本實現了這一目標,然而,以大多數人的感受來說,實際的失業率似乎比4%要大,而且有時候感覺會差很多。那么,到底是什么原因造成了實際統計數據與民眾自身感受之間的這種差距呢?要弄清這一問題,我們首先應該看一下失業率的概念和統計方法。
失業率是失業人口占勞動力人口的百分比。世界上大多數國家都采用兩種失業統計方法。一種是行政登記失業率,另一種是勞動力抽樣調查失業率。兩種失業率都是政府決策的重要依據。中國之前一直采用城鎮登記失業率來衡量失業情況。城鎮登記失業率是指在報告期末城鎮登記失業人數占期末城鎮從業人員總數與期末實有城鎮登記失業人數之和的比重。分子是登記的失業人數,分母是從業的人數與登記失業人數之和。在城鎮單位從業人員中,不包括使用的農村勞動力、聘用的離退休人員、港澳臺及外方人員。城鎮登記失業人員是指有非農業戶口,在一定的勞動年齡內(16歲以上及男50歲以下、女45歲以下),有勞動能力,無業而要求就業,并在當地就業服務機構進行求職登記的人員。
由城鎮登記失業率的計算方法我們不難看出,一系列限制使得這一指標的代表性大為降低。由于很多真正失業的人不一定去登記,加上農村的農民就業沒有包括在里面,而最近幾年2.5億農民工群體已成為一支不容忽視的就業群體,而且隨著人們壽命的延長,45到60歲之間的人仍工作在第一線,然而他們卻都沒有被納入到城鎮登記失業率的統計范圍之內,因此實際每年公布的登記失業率數字,比調查失業率要低。這也成為城鎮登記失業率飽受詬病的原因,也是造成實際每年公布的失業率與我們每個人的切身感受相差較大的最根本原因。
正是基于城鎮登記失業率這些明顯的缺陷,中國政府決定,從2011年開始,不再使用“城鎮登記失業率”這一指標,而采用“調查失業率”。 2013年9月9日,中國首次向外公開了調查失業率的有關數據。國務院總理李克強在英國《金融時報》發表署名文章《中國將給世界傳遞持續發展的訊息》透露,“今年以來,中國經濟運行穩中有進,上半年GDP同比增長7.6%;5%的調查失業率和2.4%的通脹率,均處于合理、可控范圍?!?%的調查失業率,高于此前人社部公布的一二季度均為4.1%的登記失業率,可以說更具有說服力。但這一數據到底是否準確、代表性如何,需要對調查失業率的計算方法、抽樣方式、方法、調查范圍等深入研究之后才能判斷其最終的代表性。
二、死亡率
死亡率的概念大家都不陌生,而且一般也不會產生歧義。但是如果死亡率被用在不恰當的場合,那么同樣會出現問題。
以一個經常被引用的故事為例。在美國和西班牙交戰期間,美國海軍的死亡率是千分之九,而同時期紐約居民的死亡率是千分之十六。后來,海軍征兵人員就用這兩個死亡率來證明參軍更安全。那么,這個結論正確嗎?顯然是不正確,因為這兩個數字根本就是不匹配的,當兵的一般都是身強力壯的年輕人,而居民的死亡率是包括老弱病殘等各類人群的一個綜合數據,而老弱病殘者又是主要的死亡人群構成者,這些人拉抬了整個居民的死亡率。所以正常應該是用同年齡段的海軍和紐約居民的死亡率來作對比,從而判斷參軍是否安全。一般情況下,相同年齡段的海軍死亡率應該是高于居民死亡率的。
這一案例說明數據之間要具有匹配性才能進行對比。不具有可比性的數據有時候會很隱蔽。不容易發現,這就需要分析師有更敏銳的觀察能力。比如某個零售企業想計算2013年11月前十天的銷售比去年同期增長了多少,表面上來看這兩個數據是可以直接對比的,有匹配性。實際上對以規律性非常強的零售企業來說,周末對銷售的影響是非常大的。翻開日歷會發現,2013年11月的1~10日比2012年11月同期多一個“星期天”,這就容易使對比結果出現誤差。 因此,對零售企業來說,最好以周來進行對比。
三、離婚率
中國離婚率連年遞增,婚外情成婚姻最大殺手,從年齡結構看22~35歲人群是離婚主力軍,36~50歲年齡段是婚姻平穩期,50歲以上人群離婚率上揚,從教育背景看,學歷高低與離婚率高低成反比,學歷越低,離婚率越高,學歷越高,離婚率越低。這些結論似乎與我們的日常感受比較吻合,但需要注意的是離婚率的計算公式是否科學合理?,F行的離婚率公式是這樣的:離婚率=離婚數/結婚總數,乍一看,沒有任何問題。以2012年為例,2012年的離婚率就是2012年離婚數除以2012年結婚數?但仔細研究會發現,2012年離婚的人和結婚的人根本就不是一個概念。這樣計算的結果容易廣大人民群眾造成誤解!
實際的離婚率計算公式應該是:2002年結婚人群在2012年的離婚率=2002年結婚且2012年離婚總數/2002年的結婚總數。此外,如果我們對2002年結婚人群從2002年開始到2012年為止,每年都計算一個離婚率的話,還可以分析每年的離婚率變化情況,是否真在第七年的時候達到最高值,即通常所說的七年之癢是否真的存在。
與離婚率的概念類似,很多零售企業每個月都會計算的退貨率,也需要分門別類才能正確的計算出來的。
以上僅僅列舉了幾個日常生活中常見指標的數據陷阱問題,實際生活中這樣的例子還有很多。有時候是數據的確有錯誤,有時候數據雖然正確,但計算方法或者使用場合不正確,或者對比不匹配,同樣會誤導我們。因此,雖然我們不能每個人都成為數據分析師,但多嘗試從數據背后看問題,多培養數據敏感性,仍然會使我們獲益匪淺。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25