熱線電話:13121318867

登錄
首頁精彩閱讀數據清洗的步驟是什么(上)
數據清洗的步驟是什么(上)
2019-03-25
收藏


數據清洗工作是數據分析工作中不可缺少的步驟,這是因為數據清洗能夠處理掉骯臟數據,如果不清洗數據的話,那么數據分析的結果準確率會變得極低。另外數據清洗工作占據數據分析工作整個過程的七成以上的時間,所以說我們要格外的重視數據清洗工作,那么數據清洗的步驟是什么呢?下面我們就給大家解答一下這個問題。


數據分析工作之前,需要對數據進行預處理,在數據預處理階段,我們需要做兩件事情,第一就是吧數據導入處理工具。通常來說,建議使用數據庫,單機跑數搭建MySQL環境即可。如果數據量大,可以使用文本文件存儲+Python操作的方式。第二就是看數據??磾祿瑑蓚€部分,第一就是看元數據,包括字段解釋、數據來源、代碼表等等一切描述數據的信息,第二就是抽取一部分數據,使用人工查看方式,對數據本身有一個直觀的了解,并且初步發現一些問題,為后面的處理工作做準備。 


數據清洗的第一步就是對缺失值進行清洗,一般來說,缺失值是最常見的數據問題,處理缺失值也有很多方法,我們需要按照步驟來做,第一就是確定缺失值范圍:對每個字段都計算其缺失值比例,然后按照缺失比例和字段重要性,分別制定策略。第二就是去除不需要的字段,實際操作中是十分簡單的,我們直接刪掉就可以了,不過需要提醒大家的是,清洗數據的時候每做一步都備份一下,或者在小規模數據上試驗成功再處理全量數據,如果刪錯數據就會追悔莫及。第三步就是填充缺失內容,這是因為某些缺失值可以進行填充,方法有三種,分別是以業務知識或經驗推測填充缺失值、以同一指標的計算結果(均值、中位數、眾數等)填充缺失值、以不同指標的計算結果填充缺失值。第四個步驟就是重新取數,這是由于某些指標非常重要又缺失率高,那就需要和取數人員或業務人員了解,是否有其他渠道可以取到相關數據。這就是缺失值清洗的步驟。


在這篇文章中我們給大家介紹了關于數據清洗的相關知識,具體就是對缺失值的清洗方法。當然,數據清洗的數據類型還有兩種,由于篇幅原因我們就給大家介紹到這里了,我們會在后面的文章中繼續為大家介紹。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢