熱線電話:13121318867

登錄
首頁精彩閱讀數據分析中數據清洗對象有哪些?
數據分析中數據清洗對象有哪些?
2018-12-07
收藏


在數據分析中數據分析獲取是一個非常重要的事情,為了保證數據分析出一個很好的結果,需要一個干凈的數據,干凈的數據能夠提高數據分析的效率,所以,數據清洗是一個很重要的工作,通過數據的清洗,就能夠統一數據的格式,這樣才能夠減少數據分析中存在的眾多問題,從而提高數據的分析的效率。一般來說,清洗數據的對象就是缺失值、重復值、異常值等。


首先給大家說明一下什么是缺失值,所謂缺失值就是數據中由于缺少信息導致數據的分組、缺失被稱為缺失值,存在缺失值的數據中由于某個或者某些數據不是完整的,對數據分析有一定的影響。所以,我們需要對缺失值進行清理,那么缺失值怎么清理呢?對于樣本較大的缺失值,我們可以直接刪除,如果樣本較小,我們不能夠直接刪除,因為小的樣本可能會影響到最終的分析結果。對于小的樣本,我們只能通過估算進行清理。



其次給大家說一下什么是異常值,這里說的異常值就是指一組測試值中宇平均數的偏差超過了兩倍標準差的測定值。而與平均值的偏差超過三倍標準差的測定值則被稱為高度異常值。對于異常值來說,我們一般不作處理,當然,這前提條件就是算法對異常值不夠敏感。如果算法對異常值敏感了怎么處理異常值呢?那么我們就需要用平均值進行替代,或者視為異常值去處理,這樣可以降低數據異常值的出現。


然后給大家說一下什么是重復值,所謂重復值,顧名思義,就是重復的數據,數據中存在相同的數據就是重復數據,重復數據一般有兩種情況,第一種就是數據值完全相同的多條數據記錄。另一種就是數據主體相同但匹配到的唯一屬性值不同。這兩種情況復合其中的一種就是重復數據。那么怎么去除重復數據呢?一般來說,重復數據的處理方式只有去重和去除兩種方式,去重就是第一種情況的解決方法,去除就是第二種情況的解決方法。


上面就是關于數據清洗工作要去除的對象有哪些的內容了。一般來說,數據清理的工作就是去除數據中的異常值、缺失值以及重復值,這些無用的數據大家在清理數據的時候一定要注意,只有這樣才能夠做好數據分析。最后提醒大家的是,大家在清理數據之前一定要保存好自己的原始數據,希望這篇文章能夠給大家帶來幫助。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢