熱線電話:13121318867

登錄
首頁精彩閱讀R語言:數據去重
R語言:數據去重
2017-04-25
收藏

R語言:數據去重

查看重復的方式,有點像分類變量個數一樣,unique()  或者 table()  都是很好的方式去檢測。
1、unique函數
[plain] view plain copy
print?在CODE上查看代碼片派生到我的代碼片

    > rt  
        年 月 公司名 利率  
    1 2000  1      A    a  
    2 2000  1      A    a  
    3 2001  2      A    b  
    4 2001  3      A    c  
    5 2000  1      B    d  
    6 2000  2      B    e  
    7 2000  2      B    e  
    > unique(rt)  
        年 月 公司名 利率  
    1 2000  1      A    a  
    3 2001  2      A    b  
    4 2001  3      A    c  
    5 2000  1      B    d  
    6 2000  2      B    e  
    > unique(rt,fromLast=TRUE)  
        年 月 公司名 利率  
    2 2000  1      A    a  
    3 2001  2      A    b  
    4 2001  3      A    c  
    5 2000  1      B    d  
    7 2000  2      B    e 
以上是根據你的數據得到的,R中默認的是fromLast=FALSE,即若樣本點重復出現,則取首次出現的;
否則去最后一次出現的。列名不變,去掉重復樣本值之后的行名位置仍為原先的行名位置。
2、duplicated函數
在數據框中應用較為廣泛。
[plain] view plain copy
print?在CODE上查看代碼片派生到我的代碼片
    #源數據  
    > data.set  
       Ensembl.Gene.ID Gene.Biotype Chromosome.Name Gene.Start..bp. Gene.End..bp.  
    1  ENSG00000236666    antisense                  22        16274560      16278602  
    2  ENSG00000236666    antisense                  22        16274560      16278602  
    3  ENSG00000234381   pseudogene              22        16333633      16342783  
    4  ENSG00000234381   pseudogene              22        16333633      16342783  
    5  ENSG00000234381   pseudogene              22        16333633      16342783  
    6  ENSG00000234381   pseudogene              22        16333633      16342783  
    7  ENSG00000234381   pseudogene              22        16333633      16342783  
    8  ENSG00000234381   pseudogene              22        16333633      16342783  
    9  ENSG00000234381   pseudogene              22        16333633      16342783  
    10 ENSG00000224435   pseudogene             22        16345912      16355362  
    
    #構建一個布爾向量,索引  
    > index<-duplicated(data.set$Ensembl.Gene.ID)  
    > index  
     [1] FALSE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  
      
    #篩選數據  
    > data.set2<-data.set[!index,]  #選中了非重復的數據  
    > data.set2  
      
    #用法與is.na()對比  
    x[!is.na(x)]  #選中不是缺失值的數據 

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢