熱線電話:13121318867

登錄
首頁精彩閱讀關于R語言字符型數據清洗問題
關于R語言字符型數據清洗問題
2018-06-21
收藏

關于R語言字符型數據清洗問題

最近做一個預測關于投資者是否再次投資的項目,需要針對客戶導出的數據進行清洗后建模分析,我目前選擇的模型是xgboost,貌似數據必須全是numeric。

數據結構如下:

在這個里面,我們需要做的是將第一列里面的‘是’替換為1,第四列、第七列、第八列的字符也替換為數字。

具體需求如下:

平臺標簽替換:0、NA;1、PC;2、WAP;3、IOS;4、andriod;
產品標簽替換:0、NA;1、新手專享;2、直投散標;3、定期寶;4、雙手計劃;5、新手標。

首先我們讀取數據,代碼如下:

hnjb<-read.csv('F:/Rdata/hnjb/投資用戶基礎信息表3.csv',na.string='NA',header=T)


然后我們將數據轉為字符型,方便替換

hnjb[] <- lapply(hnjb, as.character) 


準備完畢,開始替換

hnjb[is.na(hnjb)]<-0
hnjb[hnjb=='是']<-1
hnjb[hnjb=='pc']<-1
hnjb[hnjb=="wap"]<-2
hnjb[hnjb=='ios']<- 3
hnjb[hnjb=='android']<- 4
hnjb[hnjb=='新手專享']<-1
hnjb[hnjb=='直投散標']<-2
hnjb[hnjb=='定期寶']<-3
hnjb[hnjb=='雙收計劃']<-4
hnjb[hnjb=='新手標']<-5

結果如下:

好了,字符替換大功告成!

后續我們將這些字符轉碼為numeric就可以導入xgboost進行建模分析了,不過時間變量轉為字符串之后,再轉為numeric就變成NA了

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢