熱線電話:13121318867

登錄
首頁精彩閱讀R語言數據可視化之數據分布圖(直方圖、密度曲線、箱線圖、等高線、2D密度圖)
R語言數據可視化之數據分布圖(直方圖、密度曲線、箱線圖、等高線、2D密度圖)
2016-05-05
收藏

R語言數據可視化之數據分布圖(直方圖、密度曲線、箱線圖、等高線、2D密度圖)

數據分布圖簡介

中醫上講看病四診法為:望聞問切。而數據分析師分析數據的過程也有點相似,我們需要望:看看數據長什么樣;聞:仔細分析數據是否合理;問:針對前兩步工作搜集到的問題與業務方交流;切:結合業務方反饋的結果和項目需求進行數據分析。

“望”的方法可以認為就是制作數據可視化圖表的過程,而數據分布圖無疑是非常能反映數據特征(用戶癥狀)的。R語言提供了多種圖表對數據分布進行描述,本文接下來將逐一講解。

繪制基本直方圖

本例選用如下測試集:

測試集

直方圖的橫軸為綁定變量區間分隔的取值范圍,縱軸則表示變量在不同變量區間上的頻數。繪制時只需將基函數的美學特征集中配置好需要分析的變量,然后創建新的直方圖圖層即可。R語言示例代碼如下:

代碼示例

運行結果:

結果

基于分組的直方圖

本例選用如下測試集:

測試集

直方圖的分組圖和本系列前面一些博文中講的一些分組圖不同,它不能進行水平方向的堆積 – 這樣看不出頻數變化趨勢;也不能進行垂直方向的堆積 – 這樣同樣看不出趨勢。這里采用一種新的堆積方法:重疊堆積,R語言實現代碼如下:

代碼示例

運行結果:

結果

也可以采用分面的方法,R語言實現代碼如下:

代碼

運行結果:

結果

繪制密度曲線

本例選用如下測試集:

測試集

密度曲線表達的意思和直方圖很相似,因此密度曲線的繪制方法和直方圖也幾乎是相同的。區別僅在于密度曲線的橫軸要綁定到連續型變量,另外繪制函數的名字不同。R語言示例代碼如下:

代碼

運行結果:

結果 

繪制基本箱線圖

本例選用如下測試集:

繪制基本箱線圖 本例選用如下測試集:

箱線圖是一種常用數據分布圖,下圖表示了這種圖中各元素的意義:箱線圖

繪制方法是在基函數中將變量分組綁定到橫軸,變量本身綁定到縱軸。此外,為了美觀也可以將分組綁定到fill變量并設置調色板。R語言示例代碼如下:

代碼

運行結果:

結果 

往箱線圖添加槽口和均值

在上一節繪制的基本箱線圖之上,還能進一步繪制以展示更多信息。

其中最常見的是為箱子添加槽口,它能更清晰的表示中位數的位置。R語言實現代碼如下:

箱線圖代碼

運行結果:

結果

通過stat_summary()函數,還可以在箱線圖中標記均值點。R語言實現代碼如下:

箱線圖代碼

運行結果:

結果

繪制2D等高線

本例選用如下測試集:

測試集

繪制2D等高線主要是調用stat_density()函數。這個函數會給出一個基于數據的二維核密度估計,然后我們可基于這個估計值來判斷各樣本點的”等高”性。接下來首先給出各數據點及等高線的繪制方法,R語言實現代碼如下:

代碼

運行結果:

結果

也可以通過設置密度函數美學特征集中的colour參數來給不同密度的等高線著色,R語言實現代碼如下:

代碼

運行結果:

結果 

繪制2D密度圖

本例選用如下測試集:

測試集

等高線圖也是密度圖的一種,因此繪制密度圖和等高線圖用的是同一個函數:stat_density(),只是它們傳入的參數不同。首先繪制經典柵格密度圖,R語言實現代碼如下:

密度線

運行結果:

密度結果

也可以將密度變量映射到透明度來渲染,R語言實現代碼如下:

透明度

運行結果:

透明度結果

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢