熱線電話:13121318867

登錄
首頁大數據時代R語言描述統計第二彈 | 不同艙位乘客幸存人數的圖像表達
R語言描述統計第二彈 | 不同艙位乘客幸存人數的圖像表達
2020-10-10
收藏

作者:丁點helper 

來源:丁點幫你

上篇文章利用泰坦尼克號沉船事件中乘客的存活情況介紹了描述性數據分析,計算了不同艙位乘客的幸存率,今天我們來看看如何用圖像來直觀表達。

我們先來簡單復習一下titanic.csv的內容。

# 導入數據
titanic <- read.csv("http://Users//Desktop//titanic.csv",header = TRUE) 
names(titanic) # 查看titanic中的變量名
head(titanic)  # 查看titanic前6行

上篇文章計算的不同艙位乘客的死亡與幸存人數如下:

table(titanic$survived,titanic$pclass)
                1st 2nd 3rd  
died         123 158 528  
survived   200 119 181

不同艙位生存率:

survpct=paste(round(tab1[2, ]/apply(tab1,2,sum)*100,2),"%",sep="")
survpct
[1] "61.92%" "42.96%" "25.53%"

如果我們想直觀地描述不同艙位乘客的幸存率,可以用下面的做法:

繪制柱狀圖

barplot(table(titanic$survived,titanic$pclass))

barplot()是繪制柱狀圖的函數,該函數括號中的命令為繪圖所需的數據,就是前面我們計算過的不同艙位死亡及幸存者人數。

柱狀圖的顏色也可調整,下面的代碼中,col是更改柱狀圖顏色的命令:

barplot(table(titanic$survived,titanic$pclass), 
        col=c("yellow","dark blue"))

每個艙位死亡與幸存人數柱子的排列方式也可調整,beside為改變柱狀圖排列方式的命令;beside=T意為兩個柱子并排,beside=F意為兩個柱子上下疊放。

barplot(table(titanic$survived,titanic$pclass),
        col=c("yellow","dark blue"), beside=T)

至此,我們已經可以將數字轉變為直觀的圖像了,但是黃色和藍色的柱子分別代表幸存者還是死亡者呢?此外,圖像的標題等重要信息也未標示出來,圖像的可讀性還需要通過下面的步驟來提升:

設置圖例、標題、坐標軸標簽等

做法比較簡單,在上面代碼的基礎上,增加一些命令即可:

barplot(table(titanic$survived,titanic$pclass), 
        col=c("yellow","dark blue"),
        beside=T, legend=T, args.legend=list(x="topleft"),
        main="Survival (Pct) by Passenger Class", 
        xlab="Class",ylab="Count",
        ylim=c(0,600))

legend為設置圖例的命令;args.legend為設置圖例位置的命令;

main為設置圖標題的命令;

xlab、ylab分別為設置x軸和y軸名稱的命令;

ylim為設置y軸范圍的命令。

從這個圖像可以清晰地看出,一等艙的幸存者人數為三個艙位中最多的,而三等艙的死亡者人數遠高于其他兩個艙位。但是這個圖像還缺少一個信息,就是各艙位的存活率,我們可以在每個艙位的柱子上面標記一下:

text(c(2,5,8),c(250,250,570),survpct, cex=1.2)

text()為給圖片中增加文字的函數。

其中前兩個命令為文字的位置信息,第一個命令為文字設置x軸方向的位置信息,c(2,5,8)表示將文字分別放置在x取值為2,5,8處。

第二個命令為文字增加y軸方向的位置信息,c(250,250,570)表示將其分別放置在y取值為250,250,570處。

第三個命令為文字的具體內容,survpct是之前程序的運行結果,為一、二、三等艙乘客的幸存率。

第四個命令cex為文字字號,默認值為1,此處設置為1.2,意為比默認字號大20%。

以上代碼默認標題、x軸、y軸的文字均為英文,但有時我們也需要將其設置為中文,此時只需在上面這段代碼中增加一個『字體 (family)』命令:將圖片中的文字設置成中文。

barplot(table(titanic$survived,titanic$pclass), col=c("red","blue"),
        beside=T, legend=T, args.legend=list(x="topleft"), 
        main="不同艙位乘客幸存數(率)", xlab="艙位",ylab="人數",family = "SimHei",
        ylim=c(0,600))

family命令需要賦值字體的英文名稱,本文將字體設置為"SimHei",即黑體。

此處還可設置其他字體,以下鏈接中總結了常見中文字體的英文名,大家可根據自己的需要選擇。

部分字體中英文名稱,資料來源于下面的鏈接

http://guangzheng.name/2017/12/18/%E5%A6%82%E4%BD%95%E8%B0%83%E6%95%B4R%E8%AF%AD%E8%A8%80%E7%BB%98%E5%9B%BE%E7%9A%84%E5%AD%97%E4%BD%93/


想從事務型數據分析師,您可以點擊>>>“數據分析師”了解課程詳情;

想從事數據分析師,您可以點擊>>>“大數據就業”了解課程詳情;

想成為人工智能工程師,您可以點擊>>>“人工智能就業”了解課程詳情;

想了解Python數據分析,您可以點擊>>>“Python數據分析師”了解課程詳情;

想了解更多優質課程,請點擊>>>

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢