關于R語言字符型數據清洗問題-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀關于R語言字符型數據清洗問題

關于R語言字符型數據清洗問題

2018-06-21

收藏

關于R語言字符型數據清洗問題

最近做一個預測關于投資者是否再次投資的項目，需要針對客戶導出的數據進行清洗后建模分析，我目前選擇的模型是xgboost，貌似數據必須全是numeric。

數據結構如下：

在這個里面，我們需要做的是將第一列里面的‘是’替換為1，第四列、第七列、第八列的字符也替換為數字。

具體需求如下：

平臺標簽替換：0、NA；1、PC；2、WAP；3、IOS；4、andriod；
產品標簽替換：0、NA；1、新手專享；2、直投散標；3、定期寶；4、雙手計劃；5、新手標。

首先我們讀取數據，代碼如下：

hnjb<-read.csv('F:/Rdata/hnjb/投資用戶基礎信息表3.csv',na.string='NA',header=T)

然后我們將數據轉為字符型，方便替換

hnjb[] <- lapply(hnjb, as.character)

準備完畢，開始替換

hnjb[is.na(hnjb)]<-0
hnjb[hnjb=='是']<-1
hnjb[hnjb=='pc']<-1
hnjb[hnjb=="wap"]<-2
hnjb[hnjb=='ios']<- 3
hnjb[hnjb=='android']<- 4
hnjb[hnjb=='新手專享']<-1
hnjb[hnjb=='直投散標']<-2
hnjb[hnjb=='定期寶']<-3
hnjb[hnjb=='雙收計劃']<-4
hnjb[hnjb=='新手標']<-5

結果如下：

好了，字符替換大功告成！

后續我們將這些字符轉碼為numeric就可以導入xgboost進行建模分析了，不過時間變量轉為字符串之后，再轉為numeric就變成NA了

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

R語言數據結構數據清洗

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇回歸系列（一）| 怎樣正確地理解線性回歸

下一篇2020美國總統競選大戲開鑼，川普當選的奇跡會再發生嗎？

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊