熱線電話:13121318867

登錄
首頁精彩閱讀【從零開始學統計】12.主成分與因子的相伴相隨
【從零開始學統計】12.主成分與因子的相伴相隨
2014-07-07
收藏
       六月這個特殊的月,我們都會關注一些“時令”信息,比如高考,比如世界杯,比如就業……一說到這些,媒體上充斥的就是非常時髦的排名,什么大學排行榜,MBA商學院排名,專業排行榜,專業就業排行榜,最佳球員榜,還有那些胡潤富人排行榜,財富500強,慈善排名,城市競爭力排行等等!最近剛剛完成廣播電視節目綜合評估體系客體評估項目,其中也涉及到電視節目的綜合評估問題,特別是綜合排名問題。大部分情況下綜合評價問題都會涉及到排名,多指標排名問題。
    一說到多指標排名,樓主不禁想到前不久剛做的一個項目,也使用了綜合評分排名。這當中的關鍵無疑是怎樣統一量綱,給予權數。權數的確定方法很多,但發現近來用主成分和因子分析法賦權的文章越來越多。這兩個方法多元統計必講,但……我相信很多人除了知道因子旋轉一下,其余基本是因子主成分傻傻分不清的……(包括樓主自己)
所以今天特地去整理了一些內容分享給大家:
先從概念講起吧——



一、主成分分析概述:
  • 是否可以用較少的幾個相互獨立的指標代替原來的多個指標,使其既能減少指標個數,又能綜合反映其原指標的信息?主成分分析結解決這個問題。
  • 有些變量不能或不易直接觀察,他們只能通過其他多個可觀察指標來間接反映。
  • 主成分分析:基本思想降維,將多個相互關聯的數值指標轉化為少數幾個互不相關的綜合指標,綜合后的指標就是原來多指標的主要成分。
  • 舉例:兩個指標x1(年齡)和x2(身高),x1和x2呈線性正相關,將該直線作為新坐標系的橫軸z1,取一條與z1垂直的縱軸z2。在新坐標系中,n個點不再呈線性相關,即z1和z2兩個新變量互相獨立,且變異主要集中在z1方向,說明z1的方差較大,z2的方差較小。如果此時要研究n個兒童年齡與身高,只需要考慮z1這個變量即可。1-110RQ40015W1.gif
  • 我們稱z1為第一主成分,z2為第二主成分。
  • 主成分個數的選?。?/span>
  • 前k個主成分的累積貢獻率達到某一特定值(一般采用70%或80%)
  • 特征根>=1

結果分析:

  • 各指標間的相關矩陣
  • 公因子方差:初始值為1,提取里有0說明是特殊因素
  • 解釋的總方差:選取主成分個數
  • 成分矩陣:根據0.5原則,大于0.5的作為主成分包含的內容
  • 成分得分系數矩陣:將所有的主成分標示為各個變量的線性組合。

二、因子分析概述:
  • 有些變量不能或不易直接觀察,他們只能通過其他多個可觀察指標來間接反映。例如:醫院醫療工作質量不易直接觀察,但可以通過門診人次、出院人數、診斷符合率、治愈率、病死率等一些可觀測指標來反映醫院醫療工作質量這個潛在變量。
  • 通常,多變量之間具有相關性,其產生的原因可能是潛在的因素對觀察的變量起支配作用,如何找出這些潛在的因素?這些潛在因素是如何對原始指標起支配作用?因子分析解決這個問題。
  • 因子分析:一種尋找潛在支配因子的模型分析方法,作用是分析可觀察到的原始多個變量,找出數目相對較少的,對原始變量有潛在支配作用的因子。找出共性因子變量,估計因子模型,計算共性因子變量的取值和對共性因子變量做出合理的解釋。
  • 因子分析分為兩類:探索性因子分析,確定性因子分析。
  • 探索性因子分析(簡稱因子分析):應用在數據分析初期階段,目的是探究原可測變量的特征、性質及其內部的關聯性,揭示哪些主要的潛在因子可能影響這些可測變量。分析的結果一般不需要進行統計檢驗,可建立理論變量。
  • 確定性因子分析:在探索性因子分析的基礎上進行的,進一步明確每個潛在因子對可測變量的影響程度和關聯程度,該分析不要求找出潛在因子之間相互獨立,目的是明確潛在因子之間關聯性。分析結果需要統計校驗。

結果分析:

  • 主成分信息,取特征值大于1的,如果大于1的累計貢獻率過低,也可以選取特征值小于1的。這里可看出,約82.488%的總方差可以由2個潛在因子解釋。
  • 累計貢獻率達到85%

解釋的總方差

成份

初始特征

提取平方和載入

旋轉平方和載入

合計

方差的 %

累積 %

合計

方差的 %

累積 %

合計

方差的 %

累積 %

1

2.731

45.520

45.520

2.731

45.520

45.520

2.688

44.802

44.802

2

2.218

36.969

82.488

2.218

36.969

82.488

2.261

37.687

82.488

3

.442

7.360

89.848

4

.341

5.688

95.536

5

.183

3.044

98.580

6

.085

1.420

100.000

提取方法:主成份分析。

  • 公因子方差比
  • 旋轉后的因子矩陣:比旋轉前的因子起到了明顯的分離作用,使各因子具有較明確的專業意義。

三、主成分分析和因子分析異同


1.原理不同


  • 主成分分析基本原理:利用降維(線性變換)的思想,在損失很少信息的前提下把多個指標轉化為幾個不相關的綜合指標(主成分),即每個主成分都是原始變量的線性組合,且各個主成分之間互不相關,使得主成分比原始變量具有某些更優越的性能(主成分必須保留原始變量90%以上的信息),從而達到簡化系統結構,抓住問題實質的目的。
  • 因子分析基本原理:利用降維的思想,由研究原始變量相關矩陣內部的依賴關系出發,把一些具有錯綜復雜關系的變量表示成少數的公共因子和僅對某一個變量有作用的特殊因子線性組合而成。就是要從數據中提取對變量起解釋作用的少數公共因子(因子分析是主成分的推廣,相對于主成分分析,更傾向于描述原始變量之間的相關關系)

2.線性表示方向不同


  • 因子分析是把變量表示成各公因子的線性組合
  • 主成分分析中則是把主成分表示成各變量的線性組合。


3.假設條件
不同


  • 主成分分析:不需要有假設(assumptions)
  • 因子分析:需要一些假設。因子分析的假設包括:各個共同因子之間不相關,特殊因子(specificfactor)之間也不相關,共同因子和特殊因子之間也不相關。 

4.求解方法不同


  • 求解主成分的方法:從協方差陣出發(協方差陣已知),從相關陣出發(相關陣R已知),采用的方法只有主成分法。(實際研究中,總體協方差陣與相關陣是未知的,必須通過樣本數據來估計)

注意事項:由協方差陣出發與由相關陣出發求解主成分所得結果不一致時,要恰當的選取某一種方法;一般當變量單位相同或者變量在同一數量等級的情況下,可以直接采用協方差陣進行計算;對于度量單位不同的指標或是取值范圍彼此差異非常大的指標,應考慮將數據標準化,再由協方差陣求主成分;實際應用中應該盡可能的避免標準化,因為在標準化的過程中會抹殺一部分原本刻畫變量之間離散程度差異的信息。此外,最理想的情況是主成分分析前的變量之間相關性高,且變量之間不存在多重共線性問題(會出現最小特征根接近0的情況);


  • 求解因子載荷的方法:主成分法,主軸因子法,極大似然法,最小二乘法,a因子提取法。

5.主成分和因子的變化不同


  • 主成分分析:當給定的協方差矩陣或者相關矩陣的特征值唯一時,主成分一般是固定的獨特的
  • 因子分析:因子不是固定的,可以旋轉得到不同的因子。

6.因子數量與主成分的數量


  • 主成分分析:主成分的數量是一定的,一般有幾個變量就有幾個主成分(只是主成分所解釋的信息量不等),實際應用時會根據碎石圖提取前幾個主要的主成分。
  • 因子分析:因子個數需要分析者指定(SPSS和sas根據一定的條件自動設定,只要是特征值大于1的因子主可進入分析),指定的因子數量不同而結果也不同;

7.解釋重點不同


  • 主成分分析:重點在于解釋個變量的總方差
  • 因子分析:則把重點放在解釋各變量之間的協方差。 

8.算法上的不同


  • 主成分分析:協方差矩陣的對角元素是變量的方差
  • 因子分析:所采用的協方差矩陣的對角元素不在是變量的方差,而是和變量對應的共同度(變量方差中被各因子所解釋的部分)

9.優點不同:

因子分析:對于因子分析,可以使用旋轉技術,使得因子更好的得到解釋,因此在解釋主成分方面因子分析更占優勢;其次因子分析不是對原有變量的取舍,而是根據原始變量的信息進行重新組合,找出影響變量的共同因子,化簡數據
主成分分析:
  • 如果僅僅想把現有的變量變成少數幾個新的變量(新的變量幾乎帶有原來所有變量的信息)來進入后續的分析,則可以使用主成分分析,不過一般情況下也可以使用因子分析;
  • 通過計算綜合主成分函數得分,對客觀經濟現象進行科學評價;
  • 它在應用上側重于信息貢獻影響力綜合評價。
  • 應用范圍廣,主成分分析不要求數據來自正態分布總體,其技術來源是矩陣運算的技術以及矩陣對角化和矩陣的譜分解技術,因而凡是涉及多維度問題,都可以應用主成分降維;

10.應用場景不同
  • 主成分分析:可以用于系統運營狀態做出評估,一般是將多個指標綜合成一個變量,即將多維問題降維至一維,這樣才能方便排序評估;此外還可以應用于經濟效益、經濟發展水平、經濟發展競爭力、生活水平、生活質量的評價研究上;主成分還可以用于和回歸分析相結合,進行主成分回歸分析,甚至可以利用主成分分析進行挑選變量,選擇少數變量再進行進一步的研究。一般情況下主成分用于探索性分析,很少單獨使用,用主成分來分析數據,可以讓我們對數據有一個大致的了解。
幾個常用組合:主成分分析+判別分析,適用于變量多而記錄數不多的情況;
           主成分分析+多元回歸分析,主成分分析可以幫助判斷是否存在共線性,并用于處理共線性問題
           主成分分析+聚類分析,不過這種組合因子分析可以更好的發揮優勢。
  • 因子分析:首先,因子分析+多元回歸分析,可以利用因子分析解決共線性問題;其次,可以利用因子分析,尋找變量之間的潛在結構;再次,因子分析+聚類分析,可以通過因子分析尋找聚類變量,從而簡化聚類變量;此外,因子分析還可以用于內在結構證實


★提問時間:

Q1:為什么要降維?
A:在實際分析問題時,研究者往往選擇很多的指標。這些指標之間經常會存在一定程度的線性相關,這樣就會導致信息的重疊。直白說就是用多個指標分析一個問題,由于某些指標反映的是問題的同一方面,這樣如果把全部指標都同等地納入模型,就會導致結果失真。例如衡量學生成績時,成績表里有語文、數學、物理、化學??墒腔瘜W老師勤快,一學期測驗過好多次,所以這里就有多個化學成績。那么計算總分的時候,如果不把幾個化學成績降維成一個化學成績,就會由于信息的重疊導致結果失真。(當然還有另外一種情況,學校的科目開設的非常多,比如財務管理,會計學,審計學,概率論,統計學,高數……也可通過降維簡單劃分為財會類,數理類)


Q2:線性相關就一定是信息重疊嗎?
A:這個不一定吧。我們舉個例子。比如:要衡量經濟發展的影響因素,理論上講,刺激經濟發展的三駕馬車是投資、消費和出口,那么我們用于衡量經濟發展程度是不是就把這三個指標主成分一下?肯定不是。正確的做法應該是這三個相加,縱然他們之間可能存在相關,甚至是高度相關,也不能使用主成分。因為這種相關不是信息的重疊。所以這里記住一點,線性相關并不意味著信息重疊。


Q3:降維一定要用主成分嗎?
A:這個答案更容易回答,相信很多人都會說否。但實際中卻一直這么操作。因為覺得其他降維方法不會呀,而且主成分貌似很高深,用它倍有面子。其實,實際中使用主成分是因為從主觀上沒有辦法刪減變量,如果主觀上就能區別出哪些是核心原因,哪些不是,直接將不是的刪了就行了,沒必要搞個神秘的主成分來把問題復雜化。要知道主成分使用時,第一步是標準化,這樣一來很多指標的意義就模糊了。這種刪減指標的降維方法估計人人都會,可實際中統計專業的達人們卻不屑使用??傆X得用這個方法太沒面子了。所以這里再強調點,使用方法是為了有效解決問題。有效才是解決問題的關鍵。


Q4:使用主成分時,相關變量一起上嗎?
A:答案依然為否。在使用主成分前,應該先對指標大致分類,將指標中同一類型或者衡量同一個方面的指標歸為一類,這樣在分類的基礎上進行研究。這里有點驗證性因子分析的意思。別跟我說這樣太主觀,其實主觀比客觀有效的多。如果只有客觀,軟件就可以解決問題,要人干嗎?再說,在人類社會中基本沒有絕對客觀的東西,所有的客觀分析都建立在主觀的基礎上。高考客觀嗎?卷子是主觀出的。GDP客觀嗎?指標是主觀定的……


Q5:主成分加權很科學嗎?
A:主成分加權是一種廣泛采用的客觀賦權方法。賦權的依據是各個主成分的方差貢獻率。但是方差大權重就應該大嗎?重要性的判定應該依據指標的實際意義或者作用,而不應該簡單地依靠方差大小來判定吧。所以在沒有弄清楚主成分意義的情況下而盲目加權是不是有點太武斷了!

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢