
主成分分析與因子分析之比較及實證分析
一、問題的提出
在科學研究或日常生活中,常常需要判斷某一事物在同類事物中的好壞、優劣程度及其發展規律等問題。而影響事物的特征及其發展規律的因素(指標)是多方面的,因此,在對該事物進行研究時,為了能更全面、準確地反映出它的特征及其發展規律,就不應僅從單個指標或單方面去評價它,而應考慮到與其有關的多方面的因素,即研究中需要引入更多的與該事物有關系的變量,來對其進行綜合分析和評價。多變量大樣本資料無疑能給研究人員或決策者提供很多有價值的信息,但在分析處理多變量問題時,由于眾變量之間往往存在一定的相關性,使得觀測數據所反映的信息存在重疊現象。因此為了盡量避 免信息重疊和減輕工作量,人們就往往希望能找出少數幾個互不相關的綜合變量來盡可能地反映原來數據所含有的絕大部分信息。而主成分分析和因子分析正是為解決此類問題而產生的多元統計分析方法。
近年來,這兩種方法在社會經濟問題研究中的應用越來越多,其應用范圍也愈加廣泛。因子分析是主成分分析的推廣和發展,二者之間就勢必有著許多共同之處,而 SPSS軟件不能直接進行主成分分析,致使一些應用者在使用SPSS進行這兩種方法的分析時,常常會出現一些混淆性的錯誤,這難免會使人們對分析結果產生質疑。因此,有必要在運用SPSS分析時,將這兩種方法加以嚴格區分,并針對實際問題選擇正確的方法。
二、主成分分析與因子分析的聯系與區別
兩種方法的出發點都是變量的相關系數矩陣,在損失較少信息的前提下,把多個變量(這些變量之間要求存在較強的相關性,以保證能從原始變量中提取主成分)綜合成少數幾個綜合變量來研究總體各方面信息的多元統計方法,且這少數幾個綜合變量所代表的信息不能重疊,即變量間不相關。
主要區別:
1. 主成分分析是通過變量變換把注意力集中在具有較大變差的那些主成分上,而舍棄那些變差小的主成分;因子分析是因子模型把注意力集中在少數不可觀測的潛在變量(即公共因子)上,而舍棄特殊因子。
2. 主成分分析是將主成分表示為原觀測變量的線性組合,
(1)
主成分的個數i=原變量的個數p,其中j=1,2,…,p, 是相關矩陣的特征值所對應的特征向量矩陣中的元素, 是原始變量的標準化數據,均值為0,方差為1。其實質是p維空間的坐標變換,不改變原始數據的結構。
而因子分析則是對原觀測變量分解成公共因子和特殊因子兩部分。因子模型如式(2),
(2)
其中i=1,2,…,p, m是因子分析過程中的初始因子載荷矩陣中的元素, 是第j個公共因子,
是第i個原觀測變量的特殊因子。且此處的
與
的均值都為0,方差都為1。
3. 主成分的各系數,是唯一確定的、正交的。不可以對系數矩陣進行任何的旋轉,且系數大小并不代表原變量與主成分的相關程度;而因子模型的系數矩陣是不唯一的、可以進行旋轉的,且該矩陣表明了原變量和公共因子的相關程度。
4. 主成分分析,可以通過可觀測的原變量X直接求得主成分Y,并具有可逆性;因子分析中的載荷矩陣是不可逆的,只能通過可觀測的原變量去估計不可觀測的公共因 子,即公共因子得分的估計值等于因子得分系數矩陣與原觀測變量標準化后的矩陣相乘的結果。還有,主成分分析不可以像因子分析那樣進行因子旋轉處理。
5.綜合排名。主成分分析一般依據第一主成分的得分排名,若第一主成分不能完全代替原始變量,則需要繼續選擇第二個主成分、第三個等等,此時綜合得分=∑ (各主成分得分×各主成分所對應的方差貢獻率),主成分得分是將原始變量的標準化值,代入主成分表達式中計算得到;而因子分析的綜合得分=∑(各因子得分 ×各因子所對應的方差貢獻率)÷∑各因子的方差貢獻率,因子得分是將原始變量的標準化值,代入因子得分函數中計算得到。
區別中存聯系,聯系中顯區別
由于上文提到主成分可表示為原觀測變量的線性組合,其系數為原始變量相關矩陣的特征值所對應的特征向量,且這些特征向量正交,因此,從X到Y的轉換關系是可逆的,便得到如下的關系:
(3)
下面對其只保留前m個主成分(貢獻大),舍棄剩下貢獻很小的主成分,得:
i=1,2,…p ?。?)
由此可見,式(4)在形式上已經與因子模型(2)忽略特殊因子后的模型即:
(2)*
相一致,且 (j=1,2,…,m)之間相互獨立。由于模型(2)*是因子分析中未進行因子載荷旋轉時建立的模型,故如果不進行因子載荷旋轉,許多應用者將容易把此時的因子分析理解成主成分分析,這顯然是不正確的。
然而此時的主成分的系數陣即特征向量與因子載荷矩陣確實存在如下關系:
主成分分析中,主成分的方差等于原始數據相關矩陣的特征根,其標準差也即特征根的平方根,于是可以將除以其標準差(單位化)后轉化成合適的公因子,即令
,
,則式(4)變為:
(4)*
可得, (5)
式(5)便是主成分系數矩陣與初始因子載荷陣之間的聯系。不能簡單地將初始因子載荷矩陣認為是主成分系數矩陣(特征向量矩陣),否則會造成偏差。
三、實證分析
通過實例來研究SPSS軟件中的因子分析和主成分分析及二者分析結果的比較。運用兩種分析方法對2005年江蘇省13個主要城市的經濟發展綜合水平進行分析。
本文在選取指標時遵循了指標選取的基本原則,即針對性、可操作性、層次性、全面性等原則,選取了以下反映城市經濟發展綜合水平的9項指標: GDP(X1)億元 、人均GDP (X2) 元 、城鎮居民人均可支配收入(X3)元、農村居民純收入(X4) 元、第三產業占GDP比重(X5)%、金融機構存款余額(X6)億元、萬人中各專業技術人員數(X7)人、科技三項和文教科衛支出(X8)億元、實際利用 外資(X9) 億美元。
(一) 數據來源及處理
按照上述指標體系,選取了江蘇13個城市的數據,(所有數據均來源于《江蘇統計年鑒(2006)》)。指標都是正指標,無需歸一化,SPSS13.0將自動對原始數據進行標準差標準化處理,消除指標量綱及數量級的影響。
(二) 運用SPSS進行分析
首先,通過SPSS中的Data Reduction-Factor命令進行因子分析,本文采取主成分分析法來抽取公共因子,并依據特征值大于1來確定因子數目。
相關的分析結果及分析,如下:
![]() |
1.相關系數矩陣
由于因子分析是基于相關矩陣進行的,即要求各指標之間具有一定的相關性,求出相關矩陣是必要的。KMO統計量是0.659,且Bartlett球體檢驗 值為190.584,卡方統計值的顯著性水平為0.000小于0.01,都說明各指標之間具有較高相關性,因此本文數據適用于作因子分析。
2.總方差分解
![]() |
表2中,依據特征值大于1的原則,提取了2個公因子(主成分),它們的累積方差貢獻率達91.4555%,這2個公因子(主成分)包含了原指標的絕大部分信息,可以代替原來9個變量對城市經濟發展水平現狀進行衡量。
3.主成分表達式與因子模型
初始因子載荷矩陣(見表3)反映了公因子與原始變量之間的相關程度,而主成分的系數矩陣并不反映公因子與原始變量之間的相關程度,故不能直接用表3中的 數據表示。根據該系數矩陣與初始因子載荷陣之間的關系(如式(5)),可以計算出前2個特征值所對應的特征向量陣(系數矩陣),見表4。
![]() |
![]() |
很明顯表4和表3中的數據相差很大,因此,如果將初始因子載荷陣誤認為是主成分系數矩陣,分析結果將會產生較大偏差。
主成分的表達式應為:(6)
Y1=0.3622 *Z1+0.3607 *Z2+…+0.3260*Z9
Y2=-0.1298 *Z1-0.0799 *Z2+…-0.3849*Z9
=(79.4012* Y1+12.0543* Y2)/100
因子模型:
X1=0.9684*F1-0.1352*F2
X2=0.9642*F1-0.0832*F2
…
X9=0.8714*F1-0.4009*F2
其中Z1~Z9是X1~X9的標準化數據.
4.因子得分函數
從表3得知,各因子在各變量上的載荷已經向0和1兩極分化,故無需進行因子旋轉。公因子是不可觀測的,估計因子得分應借助于未旋轉因子得分系數矩陣,見表5。
![]() |
得到以下因子得分函數:(7)
F1=0.1355*Z1+0.1349*Z2 +…+0.1219*Z9
F2=-0.1247 *Z1-0.0767*Z2 +…-0.3696*Z9
同樣Z1~Z9是標準化的數據,其綜合得分計算公式:
=(73.4228*F1+18.0327*F2)/91.4555(8)
(三) 兩種方法綜合排名比較
按照主成分綜合得分和因子綜合得分,對江蘇13個城市的經濟發展綜合水平進行排名,見表6。
表6中,綜合得分出現負值,這只表明該城市的綜合水平處于平均水平之下(由于主成分(因子)已經標準化了)。
![]() |
從該表看出,主成分分析與因子分析的實證結果,不僅大部分城市的排名存在差異,且綜合得分值上存在較大差異,其定量值差異較大,這對于后來的綜合定量定性分析,最終所提出的政策建議等都會產生較大影響。因此不能混用。
四、結束語
使用主成分分析和因子分析進行綜合評價時,可以通過不同的統計軟件來完成數據分析,除SPSS軟件外,其他軟件都分別設有兩種方法的過程命令,使用者可以根據需要采用其中一種來分析問題,一般不會混淆。而正是因為SPSS沒有直接進行主成分分析的命令,才使得那些本身尚未清楚區分這兩種方法的使用者更加迷惑,不慎便會出現混淆性錯誤。因此,本文很詳細地從理論和實證角度,分析了這兩種方法的異同及如何運用SPSS軟件進行分析。從實證結果看,運用主成分分析和因子分析進行綜合定量分析時,不但綜合排名結果存在差異,而且定量值也存在較大差異,這必然會影響后面的綜合定性分析結果。因此,我們應正確理解和運用這兩種方法,使其發揮出各自最大的優勢,以便更好地服務于實際問題的分析。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24