熱線電話:13121318867

登錄
首頁精彩閱讀R語言做主成分分析實例
R語言做主成分分析實例
2017-06-12
收藏

R語言做主成分分析實例

在做多樣本的RNA-Seq數據中經常會用到主成分分析(PCA)來分析,那么什么是PCA呢,這個可以百度一下,大概意思如下:

主成分分析法是數據挖掘中常用的一種降維算法,是Pearson在1901年提出的,再后來由hotelling在1933年加以發展提出的一種多變量的統計方法,其最主要的用途在于“降維”,通過析取主成分顯出的最大的個別差異,也可以用來削減回歸分析和聚類分析中變量的數目,與因子分析類似。

比如你要做一項分析人的肥胖的因素有哪些,這時你設計了50個你覺得都很重要的指標,然而這50個指標對于你的分析確實太過繁雜,這時你就可以采用主成分分析的方法進行降維。50個指標之間會有這樣那樣的聯系,相互之間會有影響,通過主成分分析后,得到三五個主成分指標。此時,這幾個主成分指標既涵蓋了你50個指標中的絕大部分信息,這讓你的分析得到了簡化(從50維降到3、5維)。

今天就用一個實例來講解一下在R語言中如何實現PCA分析:

數據準備:

一個表達矩陣:testPCA,行為基因,列為樣本

我們使用princomp()函數來做主成分分析,使用的格式為:

princomp(formula,data = NULL,subset,na.action,...)

其中formula是沒有響應變量的公式,類似于回歸分析和方差分析中但是沒有響應的變量.data是數據框,類似于回歸分析和方差分析.

使用代碼如下:

head(testPCA)
pca1 <- princomp(testPCA,
cor = T)
summary(pca1,loadings=T)


PCA結果中可以看出,前4個變量Comp.1,Comp.2,Comp.3已經貢獻了89.2%的信息,Loadings中的矩陣分別對應主成分與各樣本之間的系數關系,我們選擇前三個主成分進行后續可視化,觀察八個樣本之間的關系。

library(scatterplot3d)
PCA1=pca1$loadings[,1]
PCA2=pca1$loadings[,2]
PCA3=pca1$loadings[,3]
colors=rainbow(24)
s3d=scatterplot3d(PCA1,PCA2,PCA3
              #, highlight.3d = TRUE
              , col.axis = "blue",angle = 40,
              color=colors[seq(1,24,3)], main =
              "Principal component analysis", pch = ' ')
s3d$points(PCA1,PCA2, PCA3, pch =15:22,
           cex = 2,col=colors[seq(1,24,3)])
legend(s3d$xyz.convert(-0.2, -0.2, -0.2),
pch = 15:22, yjust=0,
legend =colnames(testPCA),
cex = .7,col=colors[seq(1,24,3)],bty="n")


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢