大話機器學習之數據預處理與數據篩選-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀大話機器學習之數據預處理與數據篩選

大話機器學習之數據預處理與數據篩選

2017-12-12

收藏

大話機器學習之數據預處理與數據篩選

數據挖掘和機器學習這事，其實大部分時間不是在做算法，而是在弄數據，畢竟算法往往是現成的，改變的余地很小。

數據預處理的目的就是把數據組織成一個標準的形式。

1.歸一化

歸一化通常采用兩種方法。

a.最簡單的歸一化，最大最小值映射法

P_New=(P-MI)/（MA-MI）

P是原始數據，MI是這一屬性中的最小值，MA是這一屬性中的最大值。這樣處理之后，所有的值都會限定在0-1之間。

b.標準差標準化

P_New=（P-AVG(P)）/SD(P)
其中AVG（P）為變量均值，SD(P)為標準差.

這個方法還有一個好處，就是當你發現如此處理之后，有的數字很離奇，就可以認為是異常值，直接剔除。

2、離散化

如果你的數值是連續的，有時候不是那么好處理，比如年齡。往往把數字離散成小孩，少年，青年等等更加有意義。

3、缺失值問題

這個首先要考慮缺失值的多少，如果過多，不如直接刪除屬性；如果在可接受范圍內，則利用平均值、最大值或者別的適合的方案來補充。

當然還有一種方法，先用方法1對不缺失的記錄建模，然后用該方法預測缺失值；然后用方法2最終建模。當然，這里存在許多問題，比如方法一的準確度、方法1和方法2使用同一種方法的時候產生的信息冗余。

4、異常數據點

實際的數據集有很多是異常數據，可能是由于錄入錯誤或者采集中受到干擾等因素產生的錯誤數據。通常剔除異常數據的方法最常用的有如下兩種。

尋找附近的點，當最近的點的距離大于某一個閾值的時候，就認為是異常點。當然也可以在限定距離內，包含的數據點少于某個數目的時候認為是異常點。

前者是基于距離，后者是基于密度。當然，還可以把兩者結合，指定距離的同時也指定數目，這叫做COF。

5、數據的篩選

我們在預處理好數據之后，有時候數據的維度是很大的，出于經濟性考慮，當然，需要降維或者特征選擇。有時候降為和特征選擇也會增加準確度。

降維通常使用PCA，主成分分析。直觀上，就是把幾個變量做線性組合，變成一個變量；特征選擇則比較簡單，就是選擇相關性強的特征。

當然，PCA其實設計到矩陣的奇異值分解，具體的數學原理就不展開了。

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

特征 PCA 降維機器學習數據挖掘

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇《2017中國大數據及AI人才發展報告》均薪38萬，招聘猛增6倍（附PPT下載）

下一篇原來，你是這樣的R語言

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊