熱線電話:13121318867

登錄
首頁精彩閱讀R數據分析進階之plyr
R數據分析進階之plyr
2016-05-19
收藏

R數據分析進階之plyr

本講義只考慮基于數據框的操作,所指函數是ddply

基本思想
plyr包數據打理模型是”分割-應用-結合“,這個跟大數據Map/Redcue計算模型極為相似,大概的關系是分割-應用,對應Map,結合對應Reduce。
ddply()函數輸入一個數據框,返回一個數據框——這就是ddply()函數前兩個字母”dd“的含義:輸入一個data frame,輸出一個data frame。

語法介紹
ddply(data, group_vars, summarize OR transform, new_var = function(param_var)) 
group_vars: 用于作為分割基準的變量,有兩種形式,一種是c("var1", "var2"),一種是.(var1, var2);如果取值為NULL,表示對整個數據框作用函數。
summarize OR transform:  如果采用summarize,新的數據框,只會包含group_vars和new_var;如果采用transform,新的數據框會保留原始的數據框的所有列,new_var會在相同分組的不同行重復填上相同的結果。
new_var = function(param_var):允許使用多個函數。e.g. highestMargin = max(margin), lowestMargin = min(margin)


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢