
1、字段抽取
字段截取函數:substr(x,start,stop)
[python] view plain copy
tel <- '18922254812';
#運營商
band <- substr(tel, 1, 3)
#地區
area <- substr(tel, 4, 7)
#號碼段
num <- substr(tel, 8, 11)
tels <- read.csv('1.csv');
#運營商
bands <- substr(tels[,1], 1, 3)
#地區
areas <- substr(tels[,1], 4, 7)
#號碼段
nums <- substr(tels[,1], 8, 11)
new_tels <- data.frame(tels, bands, areas, nums)
2、字段合并
字段合并,是指將同一個數據框中的不同列,進行合并,形成新的列
字符分割函數:paste(x1,x2,...,sep=" ")
[python] view plain copy
data <- read.table('1.csv', sep=' ')
p_data <- paste(data[,1], data[,2], data[,3], sep="")
newData <- data.frame(data, p_data)
3、記錄合并
將兩個結構相同的數據框,合并成一個數據框
記錄合并函數:rbind(dataFrame1,dataFrame2,...)
[python] view plain copy
data_1_1 <- read.table('1.csv', sep='|', header=TRUE, fileEncoding='utf-8');
data_1_2 <- read.table('2.csv', sep='|', header=TRUE, fileEncoding='utf-8');
data_1_3 <- read.table('3.csv', sep='|', header=TRUE, fileEncoding='utf-8');
data <- rbind(data_1_1, data_1_2, data_1_3)
fix(data)
4、字段匹配
將不同結構的數據框,按照一定的條件進行合并(兩表合并)
字段匹配函數:merge(x,y,by.x,by.y)
[python] view plain copy
items <- read.table('1.csv', sep='|', header=FALSE, fileEncoding='utf-8')
fix(items)
prices <- read.table('2.csv', sep='|', header=FALSE, fileEncoding='utf-8')
fix(prices)
itemPrices <- merge(prices, items, by.x=c('V1'), by.y=c('V1'))
fix(itemPrices)
Join( )也可以用來實現兩表連接:
[python] view plain copy
inner_join(t1,t2,by=c("列名1","列名2"))
#功能等于:
merge(t1,t2,by.x="列名",by.y="列名")
#還有其他的join方式:
full_join 全連接
left_join 左連接
right_join 右連接
5、字符串處理高級技巧
[python] view plain copy
x <- c("Hellow", "World", "!")
#一、字符串長度
nchar(x)
#[1] 6 5 1
length(x)
#[1] 3
#二、字符串替換
chartr("HW", "ZX", x)
#[1] "Zellow" "Xorld" "!"
#三、字符串的大小寫轉換
tolower(x)
#[1] "hellow" "world" "!"
toupper(x)
#[1] "HELLOW" "WORLD" "!"
#四、字符串的拼接
paste("CK", 1:6, sep="")
#[1] "CK1" "CK2" "CK3" "CK4" "CK5" "CK6"
x <- list(a="aaa", b="bbb", c="ccc")
y <- list(d=1, e=2)
paste(x, y, sep="-")
#較短的向量被循環使用
#[1] "aaa-1" "bbb-2" "ccc-1"
#五、字符串切割
text <- "Hello word!"
strsplit(text, ' ')
#[[1]]
#[1] "Hello" "word!"
class(strsplit(text, ' '))
#[1] "list"
#有一種情況很特殊:
#如果split參數的字符長度為0,得到的結果就是一個個的字符:
strsplit(text, '')
#[[1]]
# [1] "H" "e" "l" "l" "o" " " "w" "o" "r" "d" "!"
#一個首字符大寫的綜合案例
capStringAll <- function(x)
{
s <- strsplit(x, " ")[[1]]
paste(toupper(substring(s, 1, 1)), substring(s, 2),
sep = "", collapse = " ")
}
capStringAll("hello word")
#[1] "Hello Word"
capString <- function(x)
{
s <- strsplit(x, " ")[[1]]
s[1] <- paste(toupper(substring(s[1], 1, 1)), substring(s[1], 2), sep = "", collapse = " ");
paste(s, sep = "", collapse = " ")
}
capString("hello word")
#[1] "Hello word"
#六、字符串的查找
#grep, grepl: 返回pattern的匹配項。
#前者返回匹配項目的下標;后者返回邏輯值,x長度有多少,就返回多少個邏輯值。
#如果添加一個value參數,賦值為T,則返回匹配項的值。
text <- c("Company", "Coworker", "Cooperation", "Can")
grep("o", text)
#[1] 1 2 3
grepl("o", text)
#[1] TRUE TRUE TRUE FALSE
grep("o", text, value = T)
#[1] "Company" "Coworker" "Cooperation"
#七、字符串的替換
#sub, gsub: 返回用replacement替換匹配項之后的x(字符型向量)。
#前者只替換向量中每個元素的第一個匹配值,后者替換所有匹配值。
#注意以下兩個例子中"o"的替換方式。
sub("o", "xx", text)
#[1] "Cxxmpany" "Cxxworker" "Cxxoperation" "Can"
gsub("o", "xx", text)
#[1] "Cxxmpany" "Cxxwxxrker" "Cxxxxperatixxn" "Can"
#八、字符串的截取
x <- "123456789"
substr(x, 2, 4)
#[1] "234"
substring(x, c(2,4), c(4,5,8))
#[1] "234" "45" "2345678"
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25