熱線電話:13121318867

登錄
首頁大數據時代【干貨】7類常見的統計分析錯誤
【干貨】7類常見的統計分析錯誤
2024-09-11
收藏
前段時間,一招聘平臺發布《2023中國女性職場現狀調查報告》,從薪酬來看,2023年,女性的平均薪酬為8689元/月,與男性的9942元/月相差1253元,報告發布后,立馬引起網友熱議。
裁剪旋轉 (44).png
裁剪旋轉 (45).png
大部分民眾對平均工資、平均年終獎、人均GDP是不買賬的,為什么?這就是犯了統計上濫用平均值的錯誤。

01濫用平均值

問題:對于偏態數據大多數樣本達不到/或遠超過平均值水平;平均值沒有代表意義;只看平均值會忽略波動。

原因:平均值的信息量有限;不能告訴你分布形態和波動;平均值容易被極端值拉偏;不同性質的數據被放一起機械的被平均了(需要分層進行分析)。

應對策略:明確平均值使用的前提條件;正確的應用平均值;除了關注平均值外,還要搞清楚數據的分布形態;結合其它指標一起分析(如中位數,極差,標準差等)

濫用平均值的其他案例

1. 專家說,今年全國平均降雨量和去年同期相同,氣候正常。(但專家不告訴你北方大旱南方大澇);
2. 武漢常年平均溫度17.2°C,昆明常年平均溫度17°C,所以武漢和昆明一樣氣候宜人;
3. A產品不良率為2%,B產品的不良率為0%;AB兩個產品的平均不良率是1%?
4. 去年我們一共有50個客訴,平均結案時間是58天,公司規定的目標是60天內要結案;所以我們的結案很準時。

對于偏態分布,平均值不等于中位數

裁剪旋轉 (46).png
某產品壽命服從正態分布,平均值為10000小時,有50%的產品壽命會大于10000小時。
裁剪旋轉 (47).png
某產品壽命服從指數分布,平均值為10000小時,只有36.79%的產品壽命會大于10000小時。

計算平均值不要忽略權重

例:已知某產品每個季度的不良率,求全年度平均不良率。

裁剪旋轉 (48).png

錯誤答案1:(1.25%+1.14%+1.15%+1.05)/4
錯誤答案2:(1.25%*1.14%*1.15%*1.05%)^1/4
正確答案1:
(250+240+300+199)/(20000+21000+26000+19000)
正確答案2:
(1.25%*20000+1.14%*21000+1.15%*2
6000+1.05%*19000)/ (20000+210000+26000+19000)

直接拿樣本統計量代替總體參數

問題:直接拿樣本統計量代替總體參數可能會得出錯誤結論。

分析:由于抽樣誤差存在,樣本統計量和總體參數之間通常會存在差異;樣本均值通常不會剛好等于總體均值,樣本不良率通常不會剛好等于總體不良率;樣本標準差通常不會剛好等于總體標準差……

應對策略:根據樣本來推斷總體時通常需要用到置信區間或假設檢驗。

案例一
裁剪旋轉 (49).png

案例二

裁剪旋轉 (50).png

03樣本量不足

樣本量較小時樣本均值或比率波動較大
裁剪旋轉 (51).png
QE:你看,7號這天原材料不良率太高了,達到停線標準了!你必須把庫存都退給供應商!

SQE:這幾天使用的原材料都是同一供應商同一批次的,平均不良率為0.13%,質量沒問題!

案例

現象:在美國,腎癌發生率最低的縣往往位于中西部、南部和西部的農村地區;但腎癌發生率最高的縣也往往位于中西部、南部和西部的農村地區。

真實原因:美國中西部、南部、西部的區域的縣的人數很少,以縣為單位統計腎癌發生率時樣本量較小,發生率波動很大。

裁剪旋轉 (52).png

04 p>0.05就接受原假設

案例

20世紀70年代,美國為減少紅燈時汽車在路口等待造成的汽油浪費,決定評估是否允許紅燈時右轉。弗吉尼亞公路與運輸局研究后報告聲稱,允許紅燈右轉后事故發生率沒有顯著增加(p>0.05)。若干年后研究發現,允許紅燈右轉后汽車撞毀的頻率比以前提高了20%,行人被撞的頻率比以前提高了60%。


05 盲目套用正態分布

場景:我在進行正態性檢驗時發現我的數據不服從正態分布,怎么辦?我的數據不服從正態分布,我用BOX-COX轉換或用Johonson變換后還是不服從正態分布,怎么辦?拿到數據就用正態分布來進行過程能力分析。

問題:并非所有數據都服從正態分布。

原因:有很多原因導致數據不服從正態分布;數據不正態不等于過程不受控;數據不正態不等于數據造假。

應對對策

數據不服從正態分布時先要分析清楚不服從正態分布的原因,再采取合適對策;認識到除正態分布外,還有很多可能的分布。


數據不正態的常見原因

裁剪旋轉 (53).png

正態分布數據過程能力分析


裁剪旋轉 (54).png

06 錯把相關當因果


相關不等于因果,但因果必相關;因果關系是相關關系的子集;相關關系可以為尋找因果關系提供指引和線索;采取改善措施要針對真正的原因來改善,而不是針對相關關系采取措施。

裁剪旋轉 (55).png

07 回歸分析過度外推

錯誤案例

剛出生的嬰兒一個月可以長5cm;如果按這個速度預測,他30歲時可以長到多高?某公司前年銷量增長了10%;去年增長了10%,今年也增長了10%;你能用這個增長速度去預測它20年后的銷量嗎?

裁剪旋轉 (57).png

掃碼關注CDA認證小程序,了解更多數據分析干貨




開學季福利來了?。?!
為了激勵更多有志于數據分析領域的學子勇攀高峰,CDA 認證考試中心攜手各授權合作伙伴,隆重推出“開學季獎學金活動”,為您的數據夢想插上翅膀!

活動鏈接:https://www.cdaglobal.com/article/466.html

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢