熱線電話:13121318867

登錄
首頁精彩閱讀大數據處理之道(預處理方法)
大數據處理之道(預處理方法)
2018-02-28
收藏

數據處理之道(預處理方法)

一:為什么要預處理數據?

(1)現實世界的數據是骯臟的(不完整,含噪聲,不一致)
(2)沒有高質量的數據,就沒有高質量的挖掘結果(高質量的決策必須依賴于高質量的數據;數據倉庫需要對高質量的數據進行一致地集成)
(3)原始數據中存在的問題:
不一致 —— 數據內含出現不一致情況
重復
不完整 —— 感興趣的屬性沒有
含噪聲 —— 數據中存在著錯誤、或異常(偏離期望值)的數據
高維度
二:數據預處理的方法
(1)數據清洗 —— 去噪聲和無關數據
(2)數據集成 —— 將多個數據源中的數據結合起來存放在一個一致的數據存儲
(3)數據變換 —— 把原始數據轉換成為適合數據挖掘的形式

(4)數據規約 —— 主要方法包括:數據立方體聚集,維度歸約,數據壓縮,數值歸約,離散化和概念分層等。

(5)圖說事實

三:數據選取參考原則
(1)盡可能富余屬性名和屬性值明確的含義
(2)統一多數據源的屬性編碼
(3)去除唯一屬性
(4)去除重復屬性
(5)去除可忽略字段
(6)合理選擇關聯字段
(7)進一步處理:

通過填補遺漏數據、消除異常數據、平滑噪聲數據,以及糾正不一致數據,去掉數據中的噪音、填充空值、丟失值和處理不一致數據

四:用圖說話,(我還是習慣用統計圖說話)

結尾:計算機領域存在一條鄙視鏈的 ---- 學java的鄙視學C++的,有vim的鄙視用IDE的等等。

數據清洗的路子:剛拿到的數據 ----> 和數據提供者討論咨詢 -----> 數據分析(借助可視化工具)發現臟數據 ---->清洗臟數據(借助MATLAB或者Java/C++語言) ----->再次統計分析(Excel的data analysis不錯的,最大小值,中位數,眾數,平均值,方差等等,以及散點圖) -----> 再次發現臟數據或者與實驗無關的數據(去除) ----->最后實驗分析 ----> 社會實例驗證 ---->結束。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢