熱線電話:13121318867

登錄
首頁精彩閱讀如何做好數據預處理(二)
如何做好數據預處理(二)
2019-04-10
收藏


在上一篇文章中我們提到的數據預處理的數據清洗,數據清洗就是對于骯臟數據的清除,而骯臟數據主要有異常值和缺失值,我們在進行數據預處理的時候不但要注意數據的清洗,還需要注意數據的集成、數據變換、數據規范的內容,只有這樣,我們才能夠為下一步工作做好鋪墊。


首先說說數據集成吧,所謂數據集成就是將多個數據源合并放到一個數據存儲中,當然如果所分析的數據原本就在一個數據存儲里就不需要數據的集成了。一般來說,數據集成的實現是將兩個數據框以關鍵字為依據,在進行數據集成時可能會出現幾種情況,分別是一個數據代表著兩個不同的意思,兩個不同的數據代表一個意思,數據的重復出現,這三個數據使得數據分析工作變得十分繁瑣,從而影響數據分析的準確性,這就需要我們對于數據進行集成的工作。


接著給大家說說數據的變換,數據的變換就是把數據轉化成適當的形式,來滿足軟件或分析理論的需要。一般我們可以通過簡單的函數變換進行數據變換,什么是簡單的函數變換呢?簡單函數變換用來將不具有正態分布的數據變成有正態分布的數據。


最后給大家說說數據的規范化,數據的規范化就是剔除掉變量在某種標準的影響,這就需要我們對于數據的最小最大規范化。什么是最小最大規范化呢?也叫離差標準化,對數據進行線性變換,將其范圍變成[0,1]。當然我們也可以使用零均值規范化,零均值規范化也叫標準差標準化,處理后的數據均值等于0,標準差為1。如果這兩總方法不合適的話,我們也可以使用小數定標規范化,就是移動屬性值的小數位數,將屬性值映射到區間內即可。通過數據的規范化,我們可以降低降低無效錯誤的數據對建模的影響、縮減時間、降低存儲數據的空間。這樣就能夠減少數據量,同時也能夠方便參數線性回歸和多元回歸。并且通過對數據屬性的規范發現最小的屬性以及確定屬性概率分布。


綜上所述,對于數據分析中的數據預處理的具體內容就是小編為大家提到的數據預處理的具體步驟,分別包括數據清洗、數據的集成、數據變換、數據的規范,希望這篇文章能夠給大家帶來幫助,最后感謝大家的閱讀。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢