
上一篇文章我們討論完了回歸的最后一部分內容,非線性回歸。這一次我們正式結束回歸,開始討論降維分析。在之前關于相關的內容里,我們就說過,做相關,回歸等分析的時候,消除多重共線性是一個很復雜很復雜的問題,一次數據分析的變量多達三四十個是很正常的情況,這個時候調整變量的效果往往微乎其微,因此就需要用到一個有力辦法,降維。
現在我們就來談一談降維。首先要先明確一個概念,什么是降維。我們知道“維”是一個數學領域的一個術語,放在統計分析里邊,我們可以簡單的理解為一個變量就是一個維。降維的意思就是說把原來的許多變量通過一些方法壓縮為較少的變量,這樣變量數減少了,也就是維數減少了,也就叫降維。因子分析由于應用廣泛,所以是最廣為人知的降維方法。此外由于主成分分析和因子分析聯系非常緊密,并且,注意,并且,spss沒有獨立的模塊來做主成分分析,所以,我就同時討論這兩種技術了。
【一】因子分析和主成分分析的異同
因子分析和主成分分析的相同和不同的地方是每一個希望使用因子分析這種分析手段的人所必須要掌握的知識點。在博客或者各種論壇上,有許多相關的資源貼。我們在這里不從數學層面進行討論,主要從應用層面來展開討論。
對于因子分析和主成分分析最主要的也是最重要的一點是:因子分析需要旋轉矩陣,主成分分析則不用。(實際上,在spss里邊,如果你做因子分析時旋轉方法為不旋轉的話,那你做的就是主成分分析)
第二個不同點在于結果的解釋:對于因子分析,要求公共因子不相關。主成分分析則不要求這個。這里不得不講一點點原理性的東西。因子分析的目的是將輸入變量表示成各因子的線性組合,而主成分分析則是試圖選擇出主成分,其表示為各變量的線性組合。(基本上比較繞)關鍵在于,主成分分析的目的是解釋變量的總方差,而因子分析則側重于解釋各變量之間的協方差。也就是說,對于主成分分析,我們的目的是提取出主成分,用我們的變量來表示。而對于因子分析,我們的目的是找出公共因子,用這些公共因子去表示我們原有的變量。這個因果關系的不同,就要求因子分析中我們找到的公共因子可以從邏輯上被解釋。
因為我們不涉及原理的解說,因此主要的異同點就是這些了。
【二】主成分分析的操作方法
因為spss里并沒有專門的模塊可以用來做主成分分析,所以我們操作主成分析的時候,需要選擇菜單分析——降維——因子分析,在因子分析的模塊下做主成分分析。
在主面板里把你想要分析的變量選到右邊的大框框里。注意,這里不選地區啊,省份啊這些標志性的變量。你要選你認為信息有重合的變量,舉個例子,比如身高和坐高在一項健康狀況里有重疊性的作用,那你就把它們選到這個變量框里。下邊的選擇變量是用來選擇個案的,一般不需要管它。
打開描述對話框,全部勾選。打開抽取對話框,抽取對話框最上邊有一個方法的下拉菜單。默認的是主成分。除了主成分以外,還有六種抽取方法,我們要做的是主成分分析,當然默認就可以啦,下邊的輸出勾選碎石圖,未旋轉的因子解。在下邊有一個抽取。一般基于特征值就可以了。下邊還有一個最大收斂性迭代次數,默認是25。打開旋轉對話框,勾選載荷圖。打開保存對話框,勾選保存為變量,顯示因子得分系數矩陣。
注意,注意?,F在我們打開選項對話框。將缺失值勾選為使用均值替換。如果你的變量有缺失值,那么一定要千萬記得這一步。不然你的變量得分會有缺失,就是說你的結果基本廢了。我老是搞忘掉這一步,然后每次都想哭TAT。
【三】主成分分析的結果解釋
第一個要看的表是kmo,這個表里的kmo度量值(第一行)告訴你你的數據是否適合做因子分析/主成分分析。這個值大于0.65就可以了。通常只要你的變量確實彼此之間有重疊,直觀的想想都覺得有關系的話,而且變量數比較多的話,那kmo一般是過得去的。然后第二個表看解釋的總方差,你看第二行有一個方差的百分比,第三行是累計百分比。我們主要看這兩個指標,第一個指標告訴你每個主成分的解釋的方差(你不用去管什么叫解釋的方差,記住那個指標有用,怎么判斷就可以了。),第二個指標是前幾個主成分加起來的方差。仔細觀察,你會發現這兩個指標之間存在一個加法和和的關系。
由于我們之前默認的提取方法是基于特征值,所以這里會自動為你提取主成分。不過我們一般認為提取的方差需要大于百分之八十五,如果你的主成分特征值大于1的累計方差值小于85%,那么很不幸的,我需要告訴你,你得重做一遍。這時候你的抽取里的個數,就選那個抽取固定的數目。然后設定的數目為你查這個表查詢的得到的累計方差大于85%的主成分數目。
然后看成分矩陣和成分系數矩陣,這兩個表都是反映變量在成分的權重。不過成分矩陣可以看成是反映了一個絕對值,第二個則反映了用變量寫成分的表達式怎么寫(有了表達式,才能算出成分得分哇)。這個類似于啊,類似于回歸里邊的標準系數和非標準系數。
最后一個是綜合得分的計算,我們上邊把成分得分保存為了變量,用這些成分得分可以計算一個綜合得分出來,算法如下,用每個成分的方差的百分比作為權重,將成分相加就可以了。綜合得分的用處在于排名次,比如看看全國31個省的通信質量的高低,通過綜合得分就可以來排名。此外做聚類的時候哇,也可以用這個。
【四】因子分析的操作方法
類似于主成分分析。只是旋轉那里勾選最大方差法。和大家公認的抽取方法里主成分法最好以外,選裝方法一般認為最大方差法最好。
【五】因子分析的結果解釋
類似于主成分分析。只是多了一個旋轉成分矩陣???,注意了注意了。因子分析最精髓的一個點就在這里了。
你看這個表的時候一定要很小心仔細,這個表的行是每個成分,列是每個變量,然后每個格格里對應的數就是相對應的變量在相對應的成分里的權重指標。我們需要反過來付過去的做因子分析,最后達到一個什么狀態呢?最后達到每個成分在所有的變量里邊有一個系數占絕對優勢,明顯比其他系數大的多。舉個例子,一個變量在三個成分的系數分別是0.3,0.2,0.8,哎,這個里邊0.8明顯比其他的大,這個因子就可以。再比如,這三個系數是0.4,0.6,0.6,那由于出現了兩個最大值,所以呢這個因子就不可以。通常來說,認為這個最大的系數和第二大要差0.2,這樣才認為占了絕對優勢。
上邊我們說過因子分析的重點在于,用公共因子去解釋變量。認為變量收到了公共因子的影響。也就是說哇,我們認為有一個公共因子潛在的影響到了幾個變量,使得他們表現出了多重共線性。所以呢,旋轉成分矩陣里就要表現出這個公共因子對于變量的影響。一個變量不能既受這個因子的影響,又受那個因子的影響,一個變量只能受一個因子影響,所以它的系數只能有一個占大頭。
然后我們就有了分別代表一些不同變量的成分(既然一個變量只能由一個成分代表,那么每個成分代表的變量也就不同哇),然后,注意,然后,我們就可以給這些成分命名了。
你大概很惱火,有完沒完啊,不過命名還是挺簡單的一個步驟,你觀察你的每個成分所代表的變量,然后給它們命個名字。比如你的一個成分是身高,坐高,體重,那你就命名為人體體型,另一個成分是胸圍,肩寬,盆骨寬,那你就命名為人體體寬,懂?
【六】注意事項
我覺得這個是最重要的一個部分。請仔細看看。
1.關于kmo,有時候(很多時候),你的kmo輸不出來。它會告訴你什么什么系數矩陣是非正定的,反正就是沒有kmo矩陣,遇到這種情況,先別急好嗎?我只能大致的告訴你這個不是很嚴重,不影響結果的解讀。
2.關于結果解讀。因子分析會生成相當多的表哦,但是我們只解讀了其中兩三個表,這并不是其他的表就沒有意義,比如碎石圖,在許多論文里就要用到??梢灾庇^的看到各個成分的作用大小。
3.關于預處理。請記得數據要先進行標準化以后,才可以做分析。
4.關于因子分析的旋轉。旋轉出合適的成分矩陣是很重要的一件事,你可以通過改變你的抽取方法或者增大你的抽取因子數目來改善你的矩陣,這些都是可能起到作用的。多試試。此外,那些系數是負的話,就是說明是負相關,很正常哈。
5.關于因子分析和主成分分析的辨析。通常使用因子分析。主要是因為它比較高級。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《劉靜:10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda ...
2025-04-23