熱線電話:13121318867

登錄
首頁精彩閱讀數據清洗中異常值如何處理(上)
數據清洗中異常值如何處理(上)
2019-03-25
收藏


在數據分析工作中,我們面對的原始數據都是存在一些骯臟數據的,其中異常值就是骯臟數據中的一種。所以說,我們在進行數據分析工作的時候一定要對數據中的異常值進行處理,那么大家是否知道數據清洗中的異常值是如何清洗的嗎?下面我們就給大家介紹一下如何處理數據清洗中的異常值。


首先我們需要對異常值有個理解,一般來說,異常值通常被稱為“離群點”,對于異常值的處理,通常使用的方法有很多種,第一就是簡單的統計分析,第二就是使用3?原則處理,第三就是箱型圖分析,第四就是基于模型檢測,第五就是基于距離檢測,第六就是基于密度檢測,第七就是基于聚類。下面我們就分別為大家介紹一下這些方法。


首先給大家介紹一下簡單的統計分析,當我們拿到數據后可以對數據進行一個簡單的描述性統計分析,譬如最大最小值可以用來判斷這個變量的取值是否超過了合理的范圍,不合常理的為異常值。


第二就是3?原則,如果數據服從正態分布,在3?原則下,異常值為一組測定值中與平均值的偏差超過3倍標準差的值。如果數據服從正態分布,距離平均值3?之外的值出現的概率為P(|x-u| > 3?) <= 0.003,屬于極個別的小概率事件。如果數據不服從正態分布,也可以用遠離平均值的多少倍標準差來描述。


第三就是箱型圖分析,一般來說,箱型圖提供了識別異常值的一個標準:如果一個值小于QL01.5IQR或大于OU-1.5IQR的值,則被稱為異常值。QL為下四分位數,表示全部觀察值中有四分之一的數據取值比它??;QU為上四分位數,表示全部觀察值中有四分之一的數據取值比它大;IQR為四分位數間距,是上四分位數QU與下四分位數QL的差值,包含了全部觀察值的一半。一般來說,箱型圖判斷異常值的方法以四分位數和四分位距為基礎,四分位數具有魯棒性:25%的數據可以變得任意遠并且不會干擾四分位數,所以異常值不能對這個標準施加影響。因此箱型圖識別異常值比較客觀,在識別異常值時有一定的優越性。


在這篇文章中我們給大家介紹了關于數據清洗的相關方法,通過對這些方法的介紹我們不難發現這些方法都是十分經典的,由于篇幅原因我們就給大家介紹到這里了,在后面的文章中我們會繼續為大家介紹數據清洗的方法。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢