熱線電話:13121318867

登錄
首頁精彩閱讀大話機器學習之數據預處理與數據篩選
大話機器學習之數據預處理與數據篩選
2017-12-12
收藏

大話機器學習之數據預處理與數據篩選

數據挖掘機器學習這事,其實大部分時間不是在做算法,而是在弄數據,畢竟算法往往是現成的,改變的余地很小。

數據預處理的目的就是把數據組織成一個標準的形式。

1.歸一化

歸一化通常采用兩種方法。

a.最簡單的歸一化,最大最小值映射法

P_New=(P-MI)/(MA-MI)

P是原始數據,MI是這一屬性中的最小值,MA是這一屬性中的最大值。這樣處理之后,所有的值都會限定在0-1之間。

b.標準差標準化

P_New=(P-AVG(P))/SD(P)
      其中AVG(P)為變量均值,SD(P)為標準差.

這個方法還有一個好處,就是當你發現如此處理之后,有的數字很離奇,就可以認為是異常值,直接剔除。

2、離散化

如果你的數值是連續的,有時候不是那么好處理,比如年齡。往往把數字離散成小孩,少年,青年等等更加有意義。

3、缺失值問題

這個首先要考慮缺失值的多少,如果過多,不如直接刪除屬性;如果在可接受范圍內,則利用平均值、最大值或者別的適合的方案來補充。

當然還有一種方法,先用方法1對不缺失的記錄建模,然后用該方法預測缺失值;然后用方法2最終建模。當然,這里存在許多問題,比如方法一的準確度、方法1和方法2使用同一種方法的時候產生的信息冗余。

4、異常數據點

實際的數據集有很多是異常數據,可能是由于錄入錯誤或者采集中受到干擾等因素產生的錯誤數據。通常剔除異常數據的方法最常用的有如下兩種。

尋找附近的點,當最近的點的距離大于某一個閾值的時候,就認為是異常點。當然也可以在限定距離內,包含的數據點少于某個數目的時候認為是異常點。

前者是基于距離,后者是基于密度。當然,還可以把兩者結合,指定距離的同時也指定數目,這叫做COF。

5、數據的篩選

我們在預處理好數據之后,有時候數據的維度是很大的,出于經濟性考慮,當然,需要降維或者特征選擇。有時候降為和特征選擇也會增加準確度。

降維通常使用PCA,主成分分析。直觀上,就是把幾個變量做線性組合,變成一個變量;特征選擇則比較簡單,就是選擇相關性強的特征。

當然,PCA其實設計到矩陣的奇異值分解,具體的數學原理就不展開了。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢