熱線電話:13121318867

登錄
首頁大數據時代缺失值類型和產生原因
缺失值類型和產生原因
2020-06-24
收藏

缺失值是指粗糙數據中由于缺少信息而造成的數據的聚類、分組、刪失或截斷。它指的是現有數據集中某個或某些屬性的值是不完全的。

一、類型

缺失值從缺失的分布來講可以分為完全隨機缺失,隨機缺失和完全非隨機缺失。

完全隨機缺失

(missing completely at random,MCAR)指的是數據的缺失是隨機的,數據的缺失不依賴于任何不完全變量或完全變量。

隨機缺失

(missing at random,MAR)指的是數據的缺失不是完全隨機的,即該類數據的缺失依賴于其他完全變量。

完全非隨機缺失

(missing not at random,MNAR)指的是數據的缺失依賴于不完全變量自身。

其它

從缺失值的所屬屬性上講,如果所有的缺失值都是同一屬性,那么這種缺失成為單值缺失,如果缺失值屬于不同的屬性,稱為任意缺失。另外對于時間序列類的數據,可能存在隨著時間的缺失,這種缺失稱為單調缺失。

二、產生原因

缺失值的產生的原因多種多樣,主要分為機械原因和人為原因。

機械原因是由于機械原因導致的數據收集或保存的失敗造成的數據缺失,比如數據存儲的失敗,存儲器損壞,機械故障導致某段時間數據未能收集(對于定時數據采集而言)。

人為原因是由于人的主觀失誤、歷史局限或有意隱瞞造成的數據缺失,比如,在市場調查中被訪人拒絕透露相關問題的答案,或者回答的問題是無效的,數據錄入人員失誤漏錄了數據。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢