熱線電話:13121318867

登錄
首頁精彩閱讀數據分析師眼中的數據真相
數據分析師眼中的數據真相
2017-01-31
收藏

數據分析師眼中的數據真相

隨著大數據概念的普及和人們對數據價值認識的不斷深入,數據分析越來越受到人們的重視,尤其是在企業中,現在很多做銷售、市場的企業人員已經開始用數據說話,很多企業也已經開始借助數據進行決策和管理,量化經營的理念正逐步深入人心。與此同時,專業的數據分析師也逐漸進入人們的視野,被評為未來十年最有前途的十大職業之一。

作為一名數據分析師,保持對數據的敏感性是最基本的要求之一,這里所說的數據敏感性不僅是指能夠發現隱藏在數據之間的關系和規律,還包括能夠辨別數據的真偽。因為隨著數據產生量的爆炸式增長,一些假的、有問題的數據也不斷出現,這些數據有些是由抽樣誤差或采集過程引起的,有的則是出于某種目的人為造成的,而且有些錯誤的數據還非常隱蔽,往往容易被人忽視,從而造成錯誤的判斷甚至因此蒙受巨大的經濟損失。作為一名數據分析師,對待這類數據不能人云亦云,需要有自己的認識和理解,要透過數據的表面看背后的真相和存在的問題,下面舉幾個日常生活中常見的數據案例來說明如何看清數據的真相。

1、失業率

失業率是我們大家都非常熟悉的一個指標,也是政府制定相關政策的一個重要依據。這些年,中國政府一直將失業率控制在4%以下作為一項重要的執政目標,每年也都基本實現了這一目標,然而,以大多數人的感受來說,實際的失業率似乎比4%要大,而且有時候感覺會差很多。那么,到底是什么原因造成了實際統計數據與民眾自身感受之間的這種差距呢?要弄清這一問題,我們首先應該看一下失業率的概念和統計方法。

失業率是失業人口占勞動力人口的百分比。世界上大多數國家都采用兩種失業統計方法。一種是行政登記失業率,另一種是勞動力抽樣調查失業率。兩種失業率都是政府決策的重要依據。中國之前一直采用城鎮登記失業率來衡量失業情況。城鎮登記失業率是指在報告期末城鎮登記失業人數占期末城鎮從業人員總數與期末實有城鎮登記失業人數之和的比重。分子是登記的失業人數,分母是從業的人數與登記失業人數之和。在城鎮單位從業人員中,不包括使用的農村勞動力、聘用的離退休人員、港澳臺及外方人員。城鎮登記失業人員是指有非農業戶口,在一定的勞動年齡內(16歲以上及男50歲以下、女45歲以下),有勞動能力,無業而要求就業,并在當地就業服務機構進行求職登記的人員。

由城鎮登記失業率的計算方法我們不難看出,一系列限制使得這一指標的代表性大為降低。由于很多真正失業的人不一定去登記,加上農村的農民就業沒有包括在里面,而最近幾年2.5億農民工群體已成為一支不容忽視的就業群體,而且隨著人們壽命的延長,45到60歲之間的人仍工作在第一線,然而他們卻都沒有被納入到城鎮登記失業率的統計范圍之內,因此實際每年公布的登記失業率數字,比調查失業率要低。這也成為城鎮登記失業率飽受詬病的原因,也是造成實際每年公布的失業率與我們每個人的切身感受相差較大的最根本原因。

正是基于城鎮登記失業率這些明顯的缺陷,中國政府決定,從2011年開始,不再使用“城鎮登記失業率”這一指標,而采用“調查失業率”。 2013年9月9日,中國首次向外公開了調查失業率的有關數據。國務院總理李克強在英國《金融時報》發表署名文章《中國將給世界傳遞持續發展的訊息》透露,“今年以來,中國經濟運行穩中有進,上半年GDP同比增長7.6%;5%的調查失業率和2.4%的通脹率,均處于合理、可控范圍?!?%的調查失業率,高于此前人社部公布的一二季度均為4.1%的登記失業率,可以說更具有說服力。但這一數據到底是否準確、代表性如何,需要對調查失業率的計算方法、抽樣方式、方法、調查范圍等深入研究之后才能判斷其最終的代表性。

二、死亡率

死亡率的概念大家都不陌生,而且一般也不會產生歧義。但是如果死亡率被用在不恰當的場合,那么同樣會出現問題。

以一個經常被引用的故事為例。在美國和西班牙交戰期間,美國海軍的死亡率是千分之九,而同時期紐約居民的死亡率是千分之十六。后來,海軍征兵人員就用這兩個死亡率來證明參軍更安全。那么,這個結論正確嗎?顯然是不正確,因為這兩個數字根本就是不匹配的,當兵的一般都是身強力壯的年輕人,而居民的死亡率是包括老弱病殘等各類人群的一個綜合數據,而老弱病殘者又是主要的死亡人群構成者,這些人拉抬了整個居民的死亡率。所以正常應該是用同年齡段的海軍和紐約居民的死亡率來作對比,從而判斷參軍是否安全。一般情況下,相同年齡段的海軍死亡率應該是高于居民死亡率的。

這一案例說明數據之間要具有匹配性才能進行對比。不具有可比性的數據有時候會很隱蔽。不容易發現,這就需要分析師有更敏銳的觀察能力。比如某個零售企業想計算2013年11月前十天的銷售比去年同期增長了多少,表面上來看這兩個數據是可以直接對比的,有匹配性。實際上對以規律性非常強的零售企業來說,周末對銷售的影響是非常大的。翻開日歷會發現,2013年11月的1~10日比2012年11月同期多一個“星期天”,這就容易使對比結果出現誤差。 因此,對零售企業來說,最好以周來進行對比。     

三、離婚率

中國離婚率連年遞增,婚外情成婚姻最大殺手,從年齡結構看22~35歲人群是離婚主力軍,36~50歲年齡段是婚姻平穩期,50歲以上人群離婚率上揚,從教育背景看,學歷高低與離婚率高低成反比,學歷越低,離婚率越高,學歷越高,離婚率越低。這些結論似乎與我們的日常感受比較吻合,但需要注意的是離婚率的計算公式是否科學合理?,F行的離婚率公式是這樣的:離婚率=離婚數/結婚總數,乍一看,沒有任何問題。以2012年為例,2012年的離婚率就是2012年離婚數除以2012年結婚數?但仔細研究會發現,2012年離婚的人和結婚的人根本就不是一個概念。這樣計算的結果容易廣大人民群眾造成誤解!

實際的離婚率計算公式應該是:2002年結婚人群在2012年的離婚率=2002年結婚且2012年離婚總數/2002年的結婚總數。此外,如果我們對2002年結婚人群從2002年開始到2012年為止,每年都計算一個離婚率的話,還可以分析每年的離婚率變化情況,是否真在第七年的時候達到最高值,即通常所說的七年之癢是否真的存在。

與離婚率的概念類似,很多零售企業每個月都會計算的退貨率,也需要分門別類才能正確的計算出來的。

以上僅僅列舉了幾個日常生活中常見指標的數據陷阱問題,實際生活中這樣的例子還有很多。有時候是數據的確有錯誤,有時候數據雖然正確,但計算方法或者使用場合不正確,或者對比不匹配,同樣會誤導我們。因此,雖然我們不能每個人都成為數據分析師,但多嘗試從數據背后看問題,多培養數據敏感性,仍然會使我們獲益匪淺。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢