熱線電話:13121318867

登錄
首頁精彩閱讀用降維方法解讀數據分析
用降維方法解讀數據分析
2016-07-26
收藏

降維方法解讀數據分析

隨著互聯網技術的不斷發展,數據呈現出規模大、維度高、結構復雜等特性,人們收集和獲得數據的能力也逐漸增強。如何充分利用海量數據、挖掘其中有價值的知識和內容以指導實際生產是科研人員、工程技術人員及各管理層領導所研究及關注的焦點。數據降維能夠加快算法執行的速度,同時也能提高分析模型的性能,降低數據的復雜度,緩解“信息豐富、知識貧乏”的現狀。


1. 主成分分析

主成分分析(PCA:Principal Component Analysis)是最常用的線性降維方法,它是通過正交變換將高維的數據映射到低維的空間中,并期望在所投影的維度上達到數據方差最大的效果。主成分分析在降維時只需要保留前m(m

2. 反向特征消除

在這個方法中,每進行一次降維操作,都采用n-1個特征對分類器訓練n次,得到新的 n 個分類器。將新分類器中錯分率變化最小的分類器所用的 n-1 維特征作為降維后的特征集。并且不斷地對該過程進行迭代,最終便可得到降維后的結果。

3.前向特征構造

前向特征構建與反向特征消除是互逆過程。前向特征從1個特征開始構造,每次進行訓練時,都會添加一個讓分類器性能幅度提升最大的特征。由于前向特征構造和反向特征消除操作起來較為耗時,因此它們通常用于輸入維數相對較低的數據集。

4. 缺失值比率

當一組數據存在太多缺失值導致有用的信息較少時,可以用到缺失值比率這一方法來進行降維,可以把數據列中缺失值大于某個閾值(可自行設定)的列去掉。閾值越高,降維方法則會更便捷,降維越少。

5. 高相關濾波

高相關濾波的原理是:當兩列數據的變化趨勢相近時,它們所包含的信息也相似。這樣一來,相似列中的其中一列便可滿足機器學習模型。數值列之間的相似性可以通過計算相關系數來表示,名詞列的相關系數可以通過計算皮爾遜卡方值來表示。相關系數大于某個閾值的兩列只保留一列。由于其相關系數對范圍敏感,所以同主成分分析類似,在計算之前也需要對數據進行歸一化處理。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢