使用R原生函數來做文本挖掘-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀使用R原生函數來做文本挖掘

使用R原生函數來做文本挖掘

2017-02-25

收藏

使用R原生函數來做文本挖掘

最近有幾位同學問到我如何利用tm包做文本挖掘，比較抱歉的是時間不太充足，不能完整更新文檔。在這里只好給大家一些tips，來利用R的原生函數來完成文本挖掘的核心步驟。

setwd('C:/Users/Administrator/Downloads')
options(width = 150)
library(data.table)
x <- fread('comment.txt', sep = '\t', header = FALSE)
x$V3 <- iconv(x$V3, 'UTF-8', 'GBK') # 第三類為文本內容，字符集轉化
x <- x[which(nchar(x$V3) > 3),]
n <- 10000 # 設置抽樣數量，保證計算時長
x <- x[sample(1:nrow(x),n),]

library(jiebaR)
library(Matrix)

JR = worker(user = 'D:/source/RecModels/prototype/TagGen/userdict.txt')
seg_raw <- sapply(x$V3, segment, JR) # 執行分詞

id <- unique(unlist(seg_raw)) # 生成Term
id <- id[nchar(id) >=2 & nchar(id) <= 5] # 將Term太長和太短的去掉，比如“強”
col_id <- as.vector(unlist(sapply(seg_raw, match, id)))
NA_index <- !is.na(col_id)
col_id <- col_id[NA_index] # 去除列的空值位置號
row_num <- sapply(seg_raw, length)
row_id <- rep(1:length(seg_raw), times = row_num)
row_id <- row_id[NA_index] # 去除行的空值位置號
## 生成DTMatirx
m <- sparseMatrix(i = row_id, j = col_id)

核心思想是創造Term和原始文檔分詞之后對應的索引，來創造Document Term Matrix。當然中間涉及各種Term的預處理，這時候使用標準函數即可操作。數據分析師培訓

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

文本挖掘數據分析

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇圖論在大數據分析中的作用！

下一篇CDA認證再升一檔！與國家共同推進大數據人才培養標準教育事業！

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊