
分類算法的R語言實現案例
最近在讀《R語言與網站分析》,書中對分類、聚類算法的講解通俗易懂,和數據挖掘理論一起看的話,有很好的參照效果。
然而,這么好的講解,作者居然沒提供對應的數據集。手癢之余,我自己動手整理了一個可用于分類算法的數據集(下載鏈接:csdn下載頻道搜索“R語言與網站分析:數據集樣例及分類算法實現”),并用R語言實現了樸素貝葉斯、SVM和人工神經網絡分類。
數據集記錄的是泰坦尼克號乘客的存活情況。數據集包括乘客的等級(class)、年齡(age)、性別(sex)和存活情況(survive),最終希望通過分析乘客的等級、年齡和性別建立模型,對乘客是否能夠存活進行分類。
以下是使用read.table()函數讀取的數據集情況,可以看到class的3/4分位數和最大值、age的最小值和1/4分位數以及sex的1/4分位數和中位值分別相等,判斷數據集可能已經離散化。
[plain] view plain copy
> data <- read.table("./titanic_s.txt", header = TRUE, sep = ",")
> summary(data)
class age sex survive
Min. :-1.8700000 Min. :-0.228000 Min. :-1.9200000 Min. :-1.0000
1st Qu.:-0.9230000 1st Qu.:-0.228000 1st Qu.: 0.5210000 1st Qu.:-1.0000
Median : 0.0214000 Median :-0.228000 Median : 0.5210000 Median :-1.0000
Mean :-0.0007595 Mean : 0.000202 Mean :-0.0002494 Mean :-0.3539
3rd Qu.: 0.9650000 3rd Qu.:-0.228000 3rd Qu.: 0.5210000 3rd Qu.: 1.0000
Max. : 0.9650000 Max. : 4.380000 Max. : 0.5210000 Max. : 1.0000
將數據全部轉換為因子類型??梢钥吹浇涍^轉換后,class有四類(貴族、高、中、低)、age有兩類(孩子和成人)、sex有兩類(男和女)、survive有兩類(存活和未存活)。
[plain] view plain copy
> data$class <- as.factor(data$class)
> data$age <- as.factor(data$age)
> data$sex <- as.factor(data$sex)
> data$survive <- as.factor(data$survive)
> summary(data)
class age sex survive
-1.87 :325 -0.228:2092 -1.92: 470 -1:1490
-0.923:285 4.38 : 109 0.521:1731 1 : 711
0.0214:706
0.965 :885
使用table()函數可查看未存活和存活人數分別為1490人、711人,二者數據量相差較大;如果用這樣的數據集建模,可能影響分類結果。
[plain] view plain copy
> table(data$survive)
-1 1
1490 711
為此,對數據量較少的存活人員樣本進行重抽樣,使得二者的樣本數量一致。
[plain] view plain copy
> balance <- function(data,yval) {
+ y.vector <- with(data,get(yval))
+ index.0 <- which(y.vector==-1)
+ index.1 <- which(y.vector==1)
+ index.1 <- sample(index.1, length(index.0), replace = TRUE)
+ result <- data[sample(c(index.0,index.1)),]
+ result
+ }
>
> sdata <- balance(data, "survive")
> table(sdata$survive)
-1 1
1490 1490
將重抽樣后的數據分為訓練數據集和樣本數據集,比例默認按7:3分配。
[plain] view plain copy
> apart.data <- function(data, percent = 0.7) {
+ train.index <- sample(c(1:nrow(data)),round(percent*nrow(data)))
+ data.train <- data[train.index,]
+ data.test <- data[-c(train.index),]
+ result <- list(train = data.train, test = data.test)
+ result
+ }
> p.data <- apart.data(sdata)
> data.train <- p.data$train
> data.test <- p.data$test
數據準備妥當后,可以開始采用不同的分類算法構建模型,并使用測試數據集對模型的分類效果進行評估。要構建的模型是關于存活情況survive與class、age以及sex之間的關系,可用如下公式表示。
[plain] view plain copy
> mod.formula <- as.formula("survive~class+age+sex")</span>
分類算法1:樸素貝葉斯分類,注意要加載e1071庫。應用測試數據集對效果進行評估,結果真正率tpr(也就是“預測活著也真活著的人數”/“實際活著的人數”)為57%,真負率tnr(也就是“預測沒活也真沒活的人數”/“實際沒活的人數”)84%??磥眍A測“沒活”的情況比較準。
[plain] view plain copy
> install.packages("e1071")
> library(e1071)
> nb.sol <- naiveBayes(mod.formula, data.train);nb.sol
> nb.predict <- predict(nb.sol, newdata = data.test)
> tb <- table(nb.predict, data.test$survive)
> tpr <- tb[2,2]/(tb[2,2]+tb[1,2]);tpr
[1] 0.5735608
> tnr <- tb[1,1]/(tb[1,1]+tb[2,1]);tnr
[1] 0.8447059
分類算法2:支持向量機(SVM)分類。應用測試數據集對效果進行評估,結果也是真正率tpr較低,真負率tnr較高。
[plain] view plain copy
> svm.sol <- svm(mod.formula, data.train);svm.sol
> svm.predict <- predict(svm.sol, data.test)
> tb <- table(svm.predict, data.test$survive)
> tpr <- tb[2,2]/(tb[2,2]+tb[1,2]);tpr
[1] 0.5095949
> tnr <- tb[1,1]/(tb[1,1]+tb[2,1]);tnr
[1] 0.9152941
分類算法3:人工神經網絡(ANN)分類,注意加載nnet包。應用測試數據集對效果進行評估,結果也是真正率tpr較低,真負率tnr較高。
[plain] view plain copy
> library(nnet)
> nnet.sol <- nnet(mod.formula, data.train, size =7, maxit = 1000);nnet.sol
> pred.prob <- predict(nnet.sol, data.test)
> pred.class <- ifelse(pred.prob>0.5, 1,0)
> table(pred.class, data.test$survive)
> tb <- table(pred.class, data.test$survive)
> tpr <- tb[2,2]/(tb[2,2]+tb[1,2]);tpr
[1] 0.5095949
> tnr <- tb[1,1]/(tb[1,1]+tb[2,1]);tnr
[1] 0.9152941
通過對具體的數據集進行數據的重抽樣、劃分訓練數據集和測試數據集,以及最終實施相應的分類算法,可以加深對于R語言分類分析過程和方法的理解。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25