R語言：數據去重 -CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀R語言：數據去重

R語言：數據去重

2017-04-25

收藏

R語言：數據去重

查看重復的方式，有點像分類變量個數一樣，unique() 或者 table() 都是很好的方式去檢測。
1、unique函數
[plain] view plain copy
print?在CODE上查看代碼片派生到我的代碼片

    > rt
        年月公司名利率
    1 2000 1      A    a
    2 2000 1      A    a
    3 2001 2      A    b
    4 2001 3      A    c
    5 2000 1      B    d
    6 2000 2      B    e
    7 2000 2      B    e
    > unique(rt)
        年月公司名利率
    1 2000 1      A    a
    3 2001 2      A    b
    4 2001 3      A    c
    5 2000 1      B    d
    6 2000 2      B    e
    > unique(rt,fromLast=TRUE)
        年月公司名利率
    2 2000 1      A    a
    3 2001 2      A    b
    4 2001 3      A    c
    5 2000 1      B    d
    7 2000 2      B    e
以上是根據你的數據得到的，R中默認的是fromLast=FALSE,即若樣本點重復出現，則取首次出現的；
否則去最后一次出現的。列名不變，去掉重復樣本值之后的行名位置仍為原先的行名位置。
2、duplicated函數
在數據框中應用較為廣泛。
[plain] view plain copy
print?在CODE上查看代碼片派生到我的代碼片
    #源數據
    > data.set
       Ensembl.Gene.ID Gene.Biotype Chromosome.Name Gene.Start..bp. Gene.End..bp.
    1 ENSG00000236666    antisense                  22        16274560      16278602
    2 ENSG00000236666    antisense                  22        16274560      16278602
    3 ENSG00000234381   pseudogene              22        16333633      16342783
    4 ENSG00000234381   pseudogene              22        16333633      16342783
    5 ENSG00000234381   pseudogene              22        16333633      16342783
    6 ENSG00000234381   pseudogene              22        16333633      16342783
    7 ENSG00000234381   pseudogene              22        16333633      16342783
    8 ENSG00000234381   pseudogene              22        16333633      16342783
    9 ENSG00000234381   pseudogene              22        16333633      16342783
    10 ENSG00000224435   pseudogene             22        16345912      16355362

    #構建一個布爾向量，索引
    > index<-duplicated(data.set$Ensembl.Gene.ID)
    > index
     [1] FALSE TRUE FALSE TRUE TRUE TRUE TRUE TRUE TRUE FALSE

    #篩選數據
    > data.set2<-data.set[!index,] #選中了非重復的數據
    > data.set2

    #用法與is.na()對比
    x[!is.na(x)] #選中不是缺失值的數據

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

R語言

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇圖論在大數據分析中的作用！

下一篇CDA認證再升一檔！與國家共同推進大數據人才培養標準教育事業！

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊