R語言實用小技巧-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀R語言實用小技巧

R語言實用小技巧

2018-03-09

收藏

R語言實用小技巧

這篇文章介紹的是我平時寫程序遇到的各種小問題，以及解決他們的小技巧
1.R語言讀取EXCEL
用 R語言讀取EXCEL時，可以使用readxl包的read_excel函數，不要使用xlsx這個包，因為xlsx它要加載JAVA，很麻煩，而使用readxl不需要加載JAVA。

2.如何在R中構造一個hash函數
這在R中或許有許多包能夠實現，但是，其實我們自己來實現也是很簡單的，要知道environment的原理也是一個hash函數，我們只需要利用environment，來負責存儲我們所需要的映射列表就可以了。接下來我們可以利用digest包的散列函數digest(),這個函數可以將任意的R對象映射為一個md5值，或者sha1等，他的md5值就是我們所需要的key，以下是使用例子：
有如下這樣的數據
> df<-data.frame(x=1:4,y=2:5,z=3:6,k=4:7)
> df
x y z k
1 1 2 3 4
2 2 3 4 5
3 3 4 5 6
4 4 5 6 7
假設我想將x,y映射到z，將y,z映射為k，先定義兩個函數，一個是SetKeyValue，負責設置key,value對，第二個是GetValue，輸入一個key，返回key對應的value。
library(digest)
SetKeyValue<-function(envir,key,value){
envir[[digest(key)]]<-value
return(envir)
}
GetValue<-function(envir,key){
return(envir[[digest(key)]])
}

hash<-new.env()
for(i in 1:nrow(df)){
hash<-SetKeyValue(hash,df[i,1:2],df[i,3])
hash<-SetKeyValue(hash,df[i,2:3],df[i,4])
}

這樣我們就得到了一個由environment構造的hash函數了，我們可以這樣去得到值：

> GetValue(hash,df[1,1:2]) #得到當x=1 y=2時的z值
[1] 3

當然，如果想要更快的速度，可以使用fastdigest這個包，里面的散列函數比digest包要快，只需將digest()替換成fastdigest()就可以了。
3.如何用最快最簡單的方法加快R的執行速度？

答案是使用compiler包，這個包的作用就是將R代碼編譯成字節碼，這在很多情況下都能加快運行的速度，當然也會有一些時候作用沒有那么大，使用非常簡單，以下是一個使用例子：

> library(microbenchmark)
> library(compiler)
> f1<-function(){
+   x=1:100
+   for(i in 1:100){
+     x[i]=x[i]+1
+   }
+ }
> f2<-function(){
+   x=1:100
+   x+1
+ }
> f3<-cmpfun(f1)
> f4<-cmpfun(f2)
> microbenchmark(
+   f1(),
+   f2(),
+   f3(),
+   f4()
+ )
Unit: nanoseconds
expr    min     lq      mean median     uq    max neval cld
f1() 170077 175453 178277.64 177652 179363 227746   100   c
f2()    978   1467   2028.94   1956   2444   5865   100 a
f3() 11730 12219 12873.79 12708 13196 20039   100 b
f4()    978   1466   1564.65   1467   1955   2933   100 a

可以看到編譯后的f3,f4跟編譯前的f1,f2,快了將近2倍到10倍，這么簡單就能提升運行速度，何樂而不為呢？
我寫的一個小代碼，可以批量地把環境變量中所有的函數都編譯一次：

funlist<-c(lsf.str())
for(f in funlist){
assign(f,cmpfun(get(f)))
}

如何想要更快，可以參考Windows使用OpenBLAS加速R語言計算速度
4.如何讀取一個文件夾所有的文件？

我們可以利用list.files進行匹配，通過其中參數pattern可以填寫正則表達式，用來匹配文件夾下滿足條件的文件名。然后再利用lapply來導入文件。

filenames <- list.files("C:/Users/qj/Desktop/demo_data/", pattern = ".txt")

datalist <- lapply(filenames, function(name) {
read.table(paste0("C:/Users/qj/Desktop/demo_data/", name),sep=',',header = T)
})

5.如何把data.frame按照行來對應生成列表

> set.seed(1)
> df <- data.frame(i=3:1, y = runif(3))
> df
i         y
1 3 0.2655087
2 2 0.3721239
3 1 0.5728534

我想把這個data.frame變成一個list 并且i要與list中的序號對應。
解決方法如下：

> i=df$i
> df=df[,2]
> dflist<-split(df,i)
> names(dflist)<-NULL
> dflist
[[1]]
[1] 0.5728534

[[2]]
[1] 0.3721239

[[3]]
[1] 0.2655087

6.如何標記每個組別中出現的次數，他們出現的順序。

有這么個數據：

> df=data.frame(group=c(1,1,2,2,3,3,3))
> df
group
1     1
2     1
3     2
4     2
5     3
6     3
7     3
現在想添加一列，標記的id列，讓它變成：
   group id
1:     1 1
2:     1 2
3:     2 1
4:     2 2
5:     3 1
6:     3 2
7:     3 3
可以利用data.table實現：
> dt<-data.table(df)
> dt[,id:=1:.N,by=group]
> dt
   group id
1:     1 1
2:     1 2
3:     2 1
4:     2 2
5:     3 1
6:     3 2
7:     3 3
7.R語言讀取SPSS格式文件
可以使用library(memisc)這個包，雖然foreign也能做到，但是有的時候格式會很混亂，而memisc就可以完美讀取。
8.R語言for循環的小貼士
看一個例子，這個例子是一個簡單的for循環，它在大部分情況下是沒有任何問題的。
n=nrow(x)
for(i in 1:n){
x[i]
}
但是如果當x是一個空值時，這就會出問題了，當x是空值時，我們并不希望這個for循環會執行，但是在這里n=0，那么i in 1:0 就會產生1和0，這就會導致出現各種各樣的錯誤，而且這些錯誤并不固定，它會隨著你的for循環里面的內容改變而改變，從而很難定位bug的所在。一個解決的方法是，我們可以使用seq.int(length.out = n)循環來代替1:n

n=nrow(x)
for(i in seq.int(length.out = n)){
x[i]
}

這樣當n=0的時候，這個循環就不會執行了。
9.使用foreach包并行計算時看到里面print的方法
在linux的時候，我們可以在makeCluster上加上outfile="" 使用""就會默認輸出到控制臺，不過這個功能在windows好像不能用，在windows的時候建議輸出到文件里，outfile="d:/log.txt"，這樣就可以了。
library(parallel)
library(foreach)
library(doParallel)
cl<-makeCluster(2,outfile="d:/log.txt") #work for windows
cl<-makeCluster(2,outfile="") #work for linux
registerDoParallel(cl)
x <- foreach(i=1:100,.combine = rbind,.inorder = F) %dopar% {
print(i)
sqrt(i)
}
stopCluster(cl)

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

R語言正則表達式

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇python新式類和經典類的區別

下一篇有一份讓吳恩達稱贊的深度學習的課程筆記，請注意查收

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊