熱線電話:13121318867

登錄
首頁大數據時代異常值處理常用的幾種方法
異常值處理常用的幾種方法
2020-07-01
收藏

異常值,又稱離群點,是指那些在數據集中存在的不合理的值,需要注意的是,不合理的值是偏離正常范圍的值,不是錯誤值。比如人的身高為-1m,人的體重為1噸等,都屬于異常值的范圍。雖然異常值不常出現,但是又會對實際項目分析有影響,造成結果的偏差,所以大家不能不重視。前面文章分享了幾種異常值檢測的方法,下面小編給大家帶來常用的異常值處理方法,希望對大家有所幫助。

·刪除

直接將含有異常值的記錄刪除,通常有兩種策略:整條刪除和成對刪除。這種方法最簡單簡單易行,但缺點也不容忽視,一是在觀測值很少的情況下,這種刪除操作會造成樣本量不足;二是,直接刪除、可能會對變量的原有分布造成影響,從而導致統計模型不穩定。

·視為缺失值

視為缺失值,利用處理缺失值的方法來處理。這一方法的好處是能夠利用現有變量的信息,來填補異常值。需要注意的是,將該異常值作為缺失值處理,需要根據該異常值(缺失值)的特點來進行,針對該異常值(缺失值)是完全隨機缺失、隨機缺失還是非隨機缺失的不同情況進行不同處理。

·平均值修正

如果數據的樣本量很小的話,也可用前后兩個觀測值的平均值來修正該異常值。這其實是一種比較折中的方法,大部分的參數方法是針對均值來建模的,用平均值來修正,優點是能克服了丟失樣本的缺陷,缺點是丟失了樣本“特色”。

·不處理

根據該異常值的性質特點,使用更加穩健模型來修飾,然后直接在該數據集上進行數據挖掘。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢