熱線電話:13121318867

登錄
首頁精彩閱讀R語言單元變量的數據可視化方法
R語言單元變量的數據可視化方法
2016-02-17
收藏

R語言單元變量的數據可視化方法

Uni-variate data  一元變量的數據分析方法
點圖dot plot與抖動圖jitter plot
當點都重疊在一起的時候,為了更直觀分析數據分布情況,可以把點適當抖動到一定位置(適量的偏移)。
下面這個例子,由于x的值是我們要觀測的,所以在y上進行抖動。不可以在x上抖動,因為x是觀測對象。
一個tip:空心圓圈,是最容易識別的圖形。填充的圖形造成難以識別內部結構,而線(框或叉)在數據量大的時候往往難以識別。
數據文件 presidents.txt
[java] view plain copy
 print?在CODE上查看代碼片派生到我的代碼片
presidents <- read.fwf("presidents.txt", widths = c(9, 15, 3), col.names = c("id","name","months"))  
  
with(  
  data=presidents,   
   {  
    plot(months, rep(2.5, length(months)),  
         main = "dot plot and jitter plot",  
         xlab = "months", ylab = "",  
         pch = 15, col = "blue",   
         xlim = c(0, 150), ylim=c(0, 3))  
      
    points(months, jitter(rep(1.5, length(months)), 20), col = "black")  
    })  

柱狀圖 Histogram
柱狀圖用于分析單元數據的分布。
假設垂直的柱狀圖:每根柱子有一個寬度,待分析的數據落在柱子的寬度區間內,則進行相應的計數。y是數據落在每個寬度區間內的元素個數,決定了柱子的高度。y值可以是絕對的count,也可以是相對的百分比 binCount/N。binCount是每個柱子絕對的count,N是總的樣本數量。
實驗數據:serverdata.txt
決定柱狀圖形狀有兩個參數:
1. 每根柱子的寬度 bin width (分箱寬度)
bin width太寬,會丟失很多細節信息。太窄,會導致很多箱子都沒有數據,從而數據分布的形狀不夠顯而易見。
選擇好的bin width很重要。對于正態分布,可以嘗試使用Scott rule: 
[java] view plain copy
 print?在CODE上查看代碼片派生到我的代碼片
serverdata <- read.table("serverdata.txt", col.names="CPU")  
with(  
  data=serverdata,  
  
  {  
    w=trunc((3.5*sd(CPU)) / (length(CPU)^(1/3)))  
    par(mfrow=c(2,1))  
    hist(CPU,breaks=w,freq=T, main = "frequency histogram")  
    hist(CPU,breaks=w,freq=F, main = "Non frequency histogram")  
  }  
)  

bin witdth可以不一樣寬:

注意 breaks是一個遞增向量,箱寬由當前減去前一個所得。


2. 第一個箱子開始的值(即第一個柱子左邊線在x軸上開始的位置)bin alignment
核密度估計 Kernal Density Estimate(KDE)

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢