熱線電話:13121318867

登錄
首頁精彩閱讀基于R做聚類分析
基于R做聚類分析
2018-06-09
收藏

基于R做聚類分析

一 數據集

setwd("C://Users//admin//Desktop//DATA") #設置路徑
Iris=read.table("Iris.txt")
names(Iris)=c("v1","v2","v3","v4","label") #設置變量名
var=Iris$label #將標簽賦予var

var=as.character(var)  #將var轉換為字符型 

二 K-Medoids聚類
K-中心點算法與K-均值算法在原理上十分接近,主要區別在于在選取每個類別的中心點時,K-中心點算法在類別內選取到其余樣本距離之和最小的樣本為中心。
K-中心點算法在R中的軟件包為Cluster主要函數為pam ().

install.packages("cluster")
library(cluster)

kc=pam(Iris[,-5],3) #去掉標簽 print(kc)
kc=pam(Iris[,-1],3,cluster.only=TRUE) #顯示聚類結果 print(kc)


Medoids:該項指明聚類完成時聚類完成的各類別的中心點分別是哪幾個樣本點,它們的變量取值為多少。
Objective function:該項給出了build和swap兩個過程中目標方程的值。其中,build過程用于在未指定初始中心點情況下,對于最優初始中心點的尋找;而swap過程則用于在初始中心點的基礎上,對目標方程尋找其能達到局部最優類別劃分狀態。

三 EM聚類

library(mclust)
fit_em=Mclust(Iris[,-5])
summary(fit_em)
fit_em=mclustBIC(Iris[,-5]) # 第二個聚類函數
BICsum=summary(fit_em,data=Iris[,-5])
	

這里有聚類結果可視化展示,不過對于高維數據,打算再研究一下。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢