
數據分析:常用的降維方法之主成分分析
主成分分析(Principal Component Analysis,PCA)也稱主分量分析,旨在利用降維的思想,把多指標轉化為少數幾個綜合指標。
在統計學中,主成分分析是一種簡化數據集的技術。它是一個線性變換。這個變換把數據變換到一個新的坐標系統中,使得任何數據投影的第一大方差在第一個坐標(稱為第一主成分)上,第二大方差在第二個坐標(第二主成分)上,依次類推。主成分分析經常用減少數據集的維數,同時保持數據集的對方差貢獻最大的特征。這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數據的最重要方面。但是,這也不是一定的,要視具體應用而定。
主成分分析的主要作用
1.主成分分析能降低所研究的數據空間的維數。即用研究m維的Y空間代替p維的X空間(m<p),而低維的Y空間代替 高維的x空間所損失的信息很少。即:使只有一個主成分Yl(即 m=1)時,這個Yl仍是使用全部X變量(p個)得到的。例如要計算Yl的均值也得使用全部x的均值。在所選的前m個主成分中,如果某個Xi的系數全部近似于零的話,就可以把這個Xi刪除,這也是一種刪除多余變量的方法。
2.有時可通過因子負荷aij的結論,弄清X變量間的某些關系。
3.多維數據的一種圖形表示方法。我們知道當維數大于3時便不能畫出幾何圖形,多元統計研究的問題大都多于3個變量。要把研究的問題用圖形表示出來是不可能的。然而,經過主成分分析后,我們可以選取前兩個主成分或其中某兩個主成分,根據主成分的得分,畫出n個樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位,進而還可以對樣本進行分類處理,可以由圖形發現遠離大多數樣本點的離群點。
4.由主成分分析法構造回歸模型。即把各主成分作為新自變量代替原來自變量x做回歸分析。
5.用主成分分析篩選回歸變量?;貧w變量的選擇有著重的實際意義,為了使模型本身易于做結構分析、控制和預報,好從原始變量所構成的子集合中選擇最佳變量,構成最佳變量集合。用主成分分析篩選變量,可以用較少的計算量來選擇量,獲得選擇最佳變量子集合的效果。
主成分分析法的計算步驟
1、原始指標數據的標準化采集p 維隨機向量x = (x1,X2,...,Xp)T)n 個樣品xi = (xi1,xi2,...,xip)T ,i=1,2,…,n,
n>p,構造樣本陣,對樣本陣元進行如下標準化變換:
Z_{ij}=\frac{x_{ij}-\bar{x}_j}{s_j},i=1,2,...,n; j=1,2,...,p
其中\bar{x}_j=\frac{\sum^{n}_{i=1}x_{ij}}{n},s^2_j=\frac{\sum^n_{i=1}(x_{ij}-\bar{x}_j)^2}{n-1},得標準化陣Z。
2、對標準化陣Z 求相關系數矩陣
R=\left[r_{ij}\right]_pxp=\frac{Z^T Z}{n-1}
其中,r_{ij}=\frac{\sum z_{kj}\cdot z_{kj}}{n-1},i,j=1,2,...,p 。
3、解樣本相關矩陣R 的特征方程\left|R-\lambda I_p\right|=0得p 個特征根,確定主成分
按\frac{\sum^m_{j=1}\lambda_j}{\sum^p_{j=1}\lambda_j}\ge 0.85 確定m 值,使信息的利用率達85%以上,對每個λj, j=1,2,...,m, 解方程組Rb = λjb得單位特征向量b^o_j 。
4、將標準化后的指標變量轉換為主成分
U_{ij}=z^{T}_{i}b^{o}_{j},j=1,2,...,m
U1稱為第一主成分,U2 稱為第二主成分,…,Up 稱為第p 主成分。
5 、對m 個主成分進行綜合評價
對m 個主成分進行加權求和,即得最終評價值,權數為每個主成分的方差貢獻率。
因子分析
因子分析法是指從研究指標相關矩陣內部的依賴關系出發,把一些信息重疊、具有錯綜復雜關系的變量歸結為少數幾個不相關的綜合因子的一種多元統計分析方法?;舅枷胧牵焊鶕嚓P性大小把變量分組,使得同組內的變量之間相關性較高,但不同組的變量不相關或相關性較低,每組變量代表一個基本結構一即公共因子。
因子分析法的步驟
(1)對數據樣本進行標準化處理。
(2)計算樣本的相關矩陣R。
(3)求相關矩陣R的特征根和特征向量。
(4)根據系統要求的累積貢獻率確定主因子的個數。
(5)計算因子載荷矩陣A。
(6)確定因子模型。
(7)根據上述計算結果,對系統進行分析。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24