熱線電話:13121318867

登錄
首頁大數據時代常用的python缺失值處理方法有哪幾種?
常用的python缺失值處理方法有哪幾種?
2020-07-06
收藏

缺失值是指粗糙數據中由于缺少信息而造成的數據的聚類、分組、刪失或截斷。它指的是現有數據集中某個或某些屬性的值是不完全的。

python缺失的處理一般情況下有三種方法:

(1)刪掉缺失值數據

刪除法是對缺失值進行處理的最原始方法。它將存在缺失值的個案刪除。如果數據缺失問題可以通過簡單的刪除小部分樣本來達到目標,那么這個方法是最有效的。

(2)不對其進行處理

在實際應用中,一些模型無法應對具有缺失值的數據,因此要對缺失值進行處理。然而還有一些模型本身就可以應對具有缺失值的數據,此時無需對數據進行處理,比如Xgboost,rfr等高級模型。

(3)利用插補法對數據進行補充

A.均值插補

屬于單值插補。數據的屬性分為定距型和非定距型。如果缺失值是定距型的,就以該屬性存在值的平均值來插補缺失的值;如果缺失值是非定距型的,就用該屬性的眾數來補齊缺失的值。

B.利用同類均值插補

屬于單值插補。用層次聚類模型預測缺失變量的類型,再以該類型的均值插補。

C.熱卡填補

熱卡填充法是在完整數據中找到一個與它最相似的對象,然后用這個相似對象的值來進行填充。通常會找到超出一個的相似對象,在所有匹配對象中沒有最好的,而是從中隨機的挑選一個作為填充值。這個問題關鍵是不同的問題可能會選用不同的標準來對相似進行判定,以及如何制定這個判定標準。該方法概念上很簡單,且利用了數據間的關系來進行空值估計,但缺點在于難以定義相似標準,主觀因素較多。

D.多重插補

多值插補的思想來源于貝葉斯估計,認為待插補的值是隨機的,它的值來自于已觀測到的值。具體實踐上通常是估計出待插補的值,然后再加上不同的噪聲,形成多組可選插補值。根據某種選擇依據,選取最合適的插補值。

E.極大似然估計(Max Likelihood ,ML)

在缺失類型為隨機缺失的條件下,假設模型對于完整的樣本是正確的,那么通過觀測數據的邊際分布可以對未知參數進行極大似然估計(Little and Rubin)。這種方法也被稱為忽略缺失值的極大似然估計,對于極大似然的參數估計實際中常采用的計算方法是期望值最大化(Expectation Maximization,EM)。

F.建模預測

將缺失的屬性作為預測目標來預測,將數據集按照是否含有特定屬性的缺失值分為兩類,利用現有的機器學習算法對待預測數據集的缺失值進行預測。

該方法的根本的缺陷是如果其他屬性和缺失屬性無關,則預測的結果毫無意義;但是若預測結果相當準確,則說明這個缺失屬性是沒必要納入數據集中的;一般的情況是介于兩者之間。

以上就是小編整理的python缺失值處理的幾種常用方法,希望對大家有所幫助。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢