熱線電話:13121318867

登錄
首頁大數據時代【干貨】7類常見的統計分析錯誤
【干貨】7類常見的統計分析錯誤
2025-02-02
收藏

作者:CDA持證人 余治國

一般各平臺出薪資報告,都會哀嚎遍野。舉個例子,去年某招聘平臺發布《中國女性職場現狀調查報告》,報告中說,從薪酬來看,女性的平均薪酬為8689元/月,與男性的9942元/月相差1253元,報告發布后,立馬引起網友熱議。

大部分民眾對平均工資、平均年終獎、人均GDP是不買賬的,為什么?這就是犯了統計上濫用平均值的錯誤。

01濫用平均值

問題

  • 對于偏態數據大多數樣本達不到/或遠超過平均值水平;

  • 平均值沒有代表意義;只看平均值會忽略波動。

原因

  • 平均值的信息量有限;不能告訴你分布形態和波動;

  • 平均值容易被極端值拉偏;

  • 不同性質的數據被放一起機械的被平均了(需要分層進行分析)。

應對策略

  • 明確平均值使用的前提條件;正確的應用平均值;

  • 除了關注平均值外,還要搞清楚數據的分布形態;

  • 結合其它指標一起分析(如中位數,極差,標準差等)

濫用平均值的其他案例

    1. 專家說,今年全國平均降雨量和去年同期相同,氣候正常。(但專家不告訴你北方大旱南方大澇);
    1. 武漢常年平均溫度17.2°C,昆明常年平均溫度17°C,所以武漢和昆明一樣氣候宜人;
    1. A產品不良率為2%,B產品的不良率為0%;AB兩個產品的平均不良率是1%?
    1. 去年我們一共有50個客訴,平均結案時間是58天,公司規定的目標是60天內要結案;所以我們的結案很準時。

對于偏態分布,平均值不等于中位數

某產品壽命服從正態分布,平均值為10000小時,有50%的產品壽命會大于10000小時。

某產品壽命服從指數分布,平均值為10000小時,只有36.79%的產品壽命會大于10000小時。

計算平均值不要忽略權重

例:已知某產品每個季度的不良率,求全年度平均不良率。

錯誤答案1:(1.25%+1.14%+1.15%+1.05)/4

錯誤答案2:(1.25%*1.14%*1.15%*1.05%)^1/4

正確答案1: (250+240+300+199)/(20000+21000+26000+19000)

正確答案2: (1.25%*20000+1.14%*21000+1.15%*2 6000+1.05%*19000)/ (20000+210000+26000+19000)

02直接拿樣本統計量代替總體參數

問題

  • 直接拿樣本統計量代替總體參數可能會得出錯誤結論。

分析

  • 由于抽樣誤差存在,樣本統計量和總體參數之間通常會存在差異;

  • 樣本均值通常不會剛好等于總體均值,樣本不良率通常不會剛好等于總體不良率

  • 樣本標準差通常不會剛好等于總體標準差……

應對策略

  • 根據樣本來推斷總體時通常需要用到置信區間或假設檢驗。

案例一

案例二

03樣本量不足

樣本量較小時樣本均值或比率波動較大

QE:你看,7號這天原材料不良率太高了,達到停線標準了!你必須把庫存都退給供應商!

SQE:這幾天使用的原材料都是同一供應商同一批次的,平均不良率為0.13%,質量沒問題!

案例

現象

  • 在美國,腎癌發生率最低的縣往往位于中西部、南部和西部的農村地區;但腎癌發生率最高的縣也往往位于中西部、南部和西部的農村地區。

真實原因

  • 美國中西部、南部、西部的區域的縣的人數很少,以縣為單位統計腎癌發生率時樣本量較小,發生率波動很大。

04p>0.05就接受原假設

案例

20世紀70年代,美國為減少紅燈時汽車在路口等待造成的汽油浪費,決定評估是否允許紅燈時右轉。弗吉尼亞公路與運輸局研究后報告聲稱,允許紅燈右轉后事故發生率沒有顯著增加(p>0.05)。若干年后研究發現,允許紅燈右轉后汽車撞毀的頻率比以前提高了20%,行人被撞的頻率比以前提高了60%。

05盲目套用正態分布

場景

  • 我在進行正態性檢驗時發現我的數據不服從正態分布,怎么辦?

  • 我的數據不服從正態分布,我用BOX-COX轉換或用Johonson變換后還是不服從正態分布,怎么辦?

  • 拿到數據就用正態分布來進行過程能力分析。

問題

原因

  • 有很多原因導致數據不服從正態分布;

  • 數據不正態不等于過程不受控;

  • 數據不正態不等于數據造假。

應對對策

數據不正態的常見原因

正態分布數據過程能力分析

06錯把相關當因果

相關不等于因果,但因果必相關;因果關系是相關關系的子集;相關關系可以為尋找因果關系提供指引和線索;采取改善措施要針對真正的原因來改善,而不是針對相關關系采取措施。

07回歸分析過度外推

錯誤案例

  • 剛出生的嬰兒一個月可以長5cm;如果按這個速度預測,他30歲時可以長到多高?

  • 某公司前年銷量增長了10%;去年增長了10%,今年也增長了10%;你能用這個增長速度去預測它20年后的銷量嗎?

抓住機遇,狠狠提升自己

隨著各行各業進行數字化轉型,數據分析能力已經成了職場的剛需能力,這也是這兩年CDA數據分析師大火的原因。和領導提建議再說“我感覺”“我覺得”,自己都覺得心虛,如果說“數據分析發現……”,肯定更有說服力。想在職場精進一步還是要學習數據分析的,統計學、概率論、商業模型、SQL,Python還是要會一些,能讓你工作效率提升不少。備考CDA數據分析師的過程就是個自我提升的過程。

CDA 考試官方報名入口:https://www.cdaglobal.com/pinggu.html

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢