
近來數據記錄和規模屬性都在急劇增長,由于大多數數據挖掘算法都是直接逐列處理數據,因此導致算法越來越慢。為了保證減少數據列數的同時,丟失的數據信息盡可能少,
數據降維處理算法應運而生。
一、降維的概念和本質
機器學習領域中的降維就是指采用某種映射方法,將原高維空間中的數據點映射到低維度的空間中。降維的本質是學習一個映射函數 f : x->y,其中x是原始數據點的表達,目前最多使用向量表達形式。 y是數據點映射后的低維向量表達,通常y的維度小于x的維度(當然提高維度也是可以的)。
二、降維的作用:
1.降低時間復雜度和空間復
2.節省了提取不必要特征的開銷
3.去掉數據集中夾雜的噪音
5.較簡單的模型在小數據集上有更強的魯棒性
6.當數據能有較少的特征進行解釋,我們可以更好 的解釋數據,使得我們可以提取知識。
7.實現數據可視化
三、常用的降維方法
1.PCA
PCA的算法步驟:
設有m條n維數據。
1)將原始數據按列組成n行m列矩陣X
2)將X的每一行(代表一個屬性字段)進行零均值化,即減去這一行的均值
3)求出協方差矩陣
5)將特征向量按對應特征值大小從上到下按行排列成矩陣,取前k行組成矩陣P
6)即為降維到k維后的數據
2.LDA
LDA是一種監督學習的降維技術,也就是說它的數據集的每個樣本是有類別輸出的。這點和PCA不同。LDA的思想可以用一句話概括,就是“投影后類內方差最小,類間方差最大”。什么意思呢? 我們要將數據在低維度上進行投影,投影后希望每一種類別數據的投影點盡可能的接近,而不同類別的數據的類別中心之間的距離盡可能的大。
LDA算法步驟:
1) 計算類內散度矩陣
2) 計算類間散度矩陣
3) 計算矩陣
4)計算的最大的d個特征值和對應的d個特征向量,得到投影矩陣[Math Processing Error]
5) 對樣本集中的每一個樣本特征,轉化為新的樣本
6) 得到輸出樣本集
3.局部線性嵌入 (LLE)
Locally linear embedding(LLE)是一種非線性降維算法,即使數據降維后,也能較好地保持原有 流形結構 。LLE稱得上是流形學習方法最經典的工作之一,后續很多的流形學習、降維方法都與LLE有密切聯系。
如下圖,使用LLE將三維數據(b)映射到二維(c)之后,映射后的數據仍能保持原有的數據流形(紅色的點互相接近,藍色的也互相接近),說明LLE有效地保持了數據原有的流行結構。
但是LLE在有些情況下也并不適用,如果數據分布在整個封閉的球面上,LLE則不能將它映射到二維空間,且不能保持原有的數據流形。那么我們在處理數據中,首先假設數據不是分布在閉合的球面或者橢球面上。
4.拉普拉斯特征映射(Laplacian Eigenmaps)
Laplacian Eigenmaps 是用局部的角度去構建數據之間的關系。
使用時算法具體步驟為:
步驟1:構建圖
使用某一種方法來將所有的點構建成一個圖,例如使用KNN算法,將每個點最近的K個點連上邊。K是一個預先設定的值。
步驟2:確定權重
確定點與點之間的權重大小,例如選用熱核函數來確定,如果點i和點j相連,那么它們關系的權重設定為:
使用最小的m個非零特征值對應的特征向量作為降維后的結果輸出。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《劉靜:10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda ...
2025-04-23