熱線電話:13121318867

登錄
首頁大數據時代python數據清洗中,是如何識別和處理異常值的?
python數據清洗中,是如何識別和處理異常值的?
2020-07-17
收藏

異常值處理python數據清洗中重要的步驟,雖然異常值出現頻率比較低,但是如果置之不理的話,還是會對實際項目的分析造成偏差,所以今天小編就跟大家分享python數據清洗中應該如何識別和處理異常值,希望對大家有所幫助。

一、異常值概念

異常值,又稱離群點,就是那些遠離絕大多數樣本點的特殊群體,通常這樣的數據點在數據集中都表現出不合理的特性,需要注意的是,異常值正常范圍的值,不是錯誤值。

二、python數據清洗中異常值的識別

通常python數據清洗中,可以借助箱線圖、正態分布圖這些圖形法來進行異常值識別。

1.箱線圖法

采用箱線圖識別異常值的判斷標準為:當變量的數據值超出箱線圖上須和下須的范圍之外,也就是大于箱線圖的上須或者小于箱線圖的下須時,就可以認為這樣的數據點為異常點。

2.正態分布圖法

如果數據點落在偏離均值正負2倍標準差之外的概率就不足5%,它屬于小概率事件,即認為這樣的數據點為異常點。同理,如果數據點落在偏離均值正負3倍標準差之外的概率將會更小,可以認為這些數據點為極端異常點。

三、python數據清洗中異常值的處理

(1)直接將異常值刪除

(2)暫且保留異常值,結合整體模型進行綜合分析

(3)在樣本量很小的情況下,可以使用均值或其他統計量取代

(4)將異常值視為缺失值,利用處理缺失值的方法進行處理

(5)不處理,根據該缺失值的性質特點,使用穩健模型加以修飾

(6)利用抽樣技術或者模擬技術,接受更合理的標準誤等信息

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢