R語言︱詞典型情感分析文本操作技巧匯總（打標簽、詞典與數據匹配等） -CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀R語言︱詞典型情感分析文本操作技巧匯總（打標簽、詞典與數據匹配等）

R語言︱詞典型情感分析文本操作技巧匯總（打標簽、詞典與數據匹配等）

2017-05-19

收藏

R語言︱詞典型情感分析文本操作技巧匯總（打標簽、詞典與數據匹配等）

情感分析中對文本處理的數據的小技巧要求比較高，筆者在學習時候會為一些小技巧感到頭疼不已。

主要包括以下內容：

1 批量讀取txt字符文件（導入、文本內容逐行讀取、加入文檔名字）、

2、文本清洗（一級清洗，去標點；二級清洗去內容；三級清洗，去停用詞）

3、詞典之間匹配（有主鍵join、詞庫匹配%in%）

4、分詞之后檔案id+label的加入

5、情感打分（關聯情感詞join、情感分數aggerate、情感偏向）

————————————————————————————————————————————

1、批量讀取txt字符文件

難題：一個文件夾有許多txt文件，如何導入，并且讀出來，還要加上文檔名字？

1.1 如何導入？

如何用函數批量導入文本，并且能夠留在R的環境之中?循環用read.table，怎么解決每個文本文件命名問題？

list函數能夠有效的讀入，并且存放非結構化數據。

[plain]view plaincopyprint?

reviewpath <- "F:/R語言/train2"
completepath <- list.files(reviewpath, pattern = "*.txt$", full.names = TRUE)

代碼解讀：reviewpath為文件夾的目錄名字，completepath為讀取文件夾中所有的文件，生成字符串（character）格式。

詳細的文本文件讀取方法，可見博客。

1.2 如何讀取單文本內容？

前面文檔導入，相當于是給每個文檔定了位，現在需要讀入單個文檔內的文本信息。

文本文檔讀取的時候會出現很多問題，比如分隔符、制表符等，而出現亂碼，需要逐行讀取。

[plain]view plaincopyprint?

######批量讀入文本

read.txt <- function(x) { des <- readLines(x) #每行讀取

return(paste(des, collapse = "")) #沒有return則返回最后一個函數對象

}

review <- lapply(completepath, read.txt)

#如果程序警告，這里可能是部分文件最后一行沒有換行導致，不用擔心。

代碼解讀：read.txt是一個簡單的逐行讀取的函數，readLines函數，是將一段文字分成以下的形式，需要粘貼起來；

[plain]view plaincopyprint?

[1] ""

[2] "剛買的這款電腦，在自提點打開的，就發現鍵盤已經壞了，有個按鍵都快掉了，自提點不管，讓去聯系退換貨部門，退換貨部門說鍵盤壞了不管退換，讓去惠普自己更換新鍵盤。"

[3] ""

[4] "在京東剛買的東西出現問題就要四處跑去修理，他們把責任推的一干二凈，現在除非你出具惠普的質檢報告，他們才給受理。"

[5] ""

return(paste)函數將每一行粘貼在一起，最后返回完整的文本內容；

lapply表示逐文本讀取。

1.3 加入文檔名字

讀取了每個文檔到list之中，怎么跟每個文檔名字匹配在一起？

[plain]view plaincopyprint?

docname <- list.files(reviewpath, pattern = "*.txt$")

reviewdf <- as.data.frame(cbind(docname, unlist(review)),

stringsAsFactors = F)

colnames(reviewdf) <- c("id", "msg") #列名

代碼解讀：list.files中，full.names=F代表返回文檔名字（默認），full.names=T則定位文檔；

利用as.data.frame成為一個數據框，并且不變成因子型，stringsAsFactors是因為文檔名字列，很容易變成字符因子型，需要關閉這功能；

colnames修改列名，還有names也可以達到同樣的效果。

圖 1

————————————————————————————————————————————

2、文本清洗工作

文本挖掘中，對文本的清洗工作尤為重要，會出現比如：英文逗號、波浪線、英文單引號、英文雙引號、分隔符等

2.1 一級清洗——去標點

如圖1,所示的msg，對其進行一些標點清洗，比如雙引號，波浪號等。

[plain]view plaincopyprint?

reviewdf$msg <- gsub(pattern = " ", replacement ="", reviewdf$msg) #gsub是字符替換函數，去空格

reviewdf$msg <- gsub("\t", "", reviewdf$msg) #有時需要使用\\\t

reviewdf$msg <- gsub(",", "，", reviewdf$msg)#文中有英文逗號會報錯，所以用大寫的“，”

reviewdf$msg <- gsub("~|'", "", reviewdf$msg)#替換了波浪號（~）和英文單引號（'），它們之間用“|”符號隔開，表示或的關系

reviewdf$msg <- gsub("\\\"", "", reviewdf$msg)#替換所有的英文雙引號（"），因為雙引號在R中有特殊含義，所以要使用三個斜杠（\\\）轉義

代碼解讀：英文單引號（'）、英文雙引號（"）、波浪號（~），都會引起讀取時發生警告，帶來csv文件或txt文件讀取不完整的后果。還有一些字符型會出現亂碼的標點等，詳見博客：R語言︱文本（字符串）處理與正則表達式

2.2 二級清洗——去內容

如圖1 ,msg，對文檔進行二級清洗，比如清楚全英文字符、清除數字等。

[plain]view plaincopyprint?

sentence <- as.vector(test$msg) #文本內容轉化為向量sentence

sentence <- gsub("[[:digit:]]*", "", sentence) #清除數字[a-zA-Z]

sentence <- gsub("[a-zA-Z]", "", sentence) #清除英文字符

sentence <- gsub("\\.", "", sentence) #清除全英文的dot符號

sentence <- sentence[!is.na(sentence)] #清除對應sentence里面的空值（文本內容），要先執行文本名

sentence <- sentence[!nchar(sentence) < 2] #`nchar`函數對字符計數，英文嘆號為R語言里的“非”函數

代碼解讀：在進行二級清洗的過程中，需要先轉化為向量形式，as.vector；

字符數過小的文本也需要清洗，nchar就是字符計數函數。

2.3 三級清理——停用詞清理（哎呦，哎，啊...）

去除原理就是導入停用詞列表，是一列chr[1:n]的格式；

先與情感詞典匹配，在停用詞庫去掉情感詞典中的單詞，以免刪除了很多情感詞，構造新的停用詞；

再與源序列匹配，在原序列中去掉停用詞。

第一種方法：

[plain]view plaincopyprint?

stopword <- read.csv("F:/R語言/R語言與文本挖掘/情感分析/數據/dict/stopword.csv", header = T, sep = ",", stringsAsFactors = F)

stopword <- stopword[!stopword$term %in% posneg$term,]#函數`%in%`在posneg$term中查找stopword的元素，如果查到了就返回真值，沒查到就返回假

#結果是一個和stopword等長的波爾值向量，“非”函數將布爾值反向

testterm <- testterm[!testterm$term %in% stopword,]#去除停用詞

代碼解讀:

管道函數A %in% B，代表在A中搜索B，存在則生成（TRUE,FALSE,TRUE）布爾向量,其中TURE代表A/B共有的。形成一個與原序列的等長的波爾值向量，“非”函數將布爾值反向就可以去除停用詞。

stopword[!stopword$term %in% posneg$term,]，去掉stopword中與posneg共有的詞；

testterm[!testterm$term %in% stopword$term,]，去掉testtrerm（原序列）與stopword共有的詞。

第二種方法：

[plain]view plaincopyprint?

stopword <- read.csv("F:/R語言/R語言與文本挖掘/情感分析/數據/dict/stopword.csv", header = T, sep = ",", stringsAsFactors = F)

stopword <- setdiff(stopword$term,posneg$term)

testterm<- setdiff(testterm$term,stopword)

setdiff（x,y），代表在x中去掉xy共有的元素。

setdiff與%in%都是集合運算符號，可見其他的一些符號：R語言︱集合運算

————————————————————————————————————————————

3、文檔之間匹配

3.1 有主鍵的情況

如圖1 中的id，就是一個主鍵，建立主鍵之間的關聯可以用plyr中的Join函數，`join`默認設置下執行左連接。

[plain]view plaincopyprint?

#plyr包里的`join`函數會根據名稱相同的列進行匹配關聯，`join`默認設置下執行左連接

reviewdf <- join(表1,表2)

reviewdf <- 表1[!is.na(表1$label),] #非NA值的行賦值

代碼解讀：表1為圖1中的數據表，表2是id+label；

join之后，在表1中加入匹配到的表2的label；

并且通過[!x,]去掉了，沒有label的文本。
其他關于主鍵合并的方法有，dplyr包等，可見博客：R語言數據集合并、數據增減

3.2 詞庫之間相互匹配

1、集合運算（%in%/setdiff()）——做去除數據

在2.3的三級停用詞清理的過程中，就會用到這個。兩個詞庫，但是沒有主鍵，兩個詞庫都有共有的一些詞語，那么怎么建立兩個詞庫的連接呢？

管道函數%in%，可以很好的解決。A%in%B，代表在A中搜索B，存在B則生成（TRUE,FALSE,TRUE）布爾向量,其中TURE代表A/B共有的。

向量長度依存于A，會生成一個與A相同長度的布爾向量，通過A[布爾向量,]就可以直接使用。

回憶一下，缺失值查找函數，A[na.is(x)],也是生成布爾向量。

詳細見2.3的停用詞刪除的用法。

2、left_join——詞庫匹配打標簽

以上%in%較為適合做去除數據來做，因為可以生成布爾向量，作為過渡。但是如何連接詞庫，并且匹配過去標簽呢。

現在有兩個數據：

[plain]view plaincopyprint?

> head(temp)

term df 阿波羅 0.0000573263

2 阿爾卑斯山 0.0000573263

3 阿富汗 0.0001719789

4 阿哥 0.0001146526

5 阿根廷 0.0000573263

6 阿拉伯 0.0001146526

> head(traintfidf[,1:3])

id label term

1 4995.txt 1 阿波羅

2 16443.txt 1 阿爾卑斯山

3 12897.txt 1 阿富汗

4 7001.txt 1 阿富汗

5 9427.txt 1 阿富汗

6 12368.txt 1 阿哥

通過left_join之后，就可以根據每個詞語匹配DF值，并且在源數據重復的情況下，還是能夠順利匹配上。

用在監督式算法情感分析之中，可見R語言︱監督算法式的情感分析筆記。

[plain]view plaincopyprint?

> head(traintfidf[,1:5])

id label term tf df

4995.txt 1 阿波羅 1 0.0000573263 16443.txt 1 阿爾卑斯山 1 0.0000573263

12897.txt 1 阿富汗 2 0.0001719789

7001.txt 1 阿富汗 1 0.0001719789

9427.txt 1 阿富汗 1 0.0001719789

12368.txt 1 阿哥 1 0.0001146526

————————————————————————————————————————————

4、分詞之后文檔如何整理？——構造一個單詞一個文檔名一個label

分詞之后，一個文檔可能就有很多單詞，應該每個單詞都單獨列出來，并且一個單詞一個文檔名一個label。

圖 2

[plain]view plaincopyprint?

system.time(x <- segmentCN(strwords = sentence))

#每次可能耗費時間較長的過程，都要使用少量數據預估一下時間，這是一個優秀的習慣

temp <- lapply(x, length) #每一個元素的長度,即文本分出多少個詞

temp <- unlist(temp) #lapply返回的是一個list，所以3行unlist

id <- rep(test[, "id"], temp) #將每一個對應的id復制相應的次數，就可以和詞匯對應了

label <- rep(test[, "label"], temp)#id對應的情感傾向標簽復制相同的次數

term <- unlist(x) #6行將list解散為向量

testterm <- as.data.frame(cbind(id, term, label), stringsAsFactors = F)

#將一一對應的三個向量按列捆綁為數據框，分詞整理就基本結束了

代碼解讀：segmentCN是分詞函數；lapply求得每個文本單詞個數；

unlist，可以讓單詞變成向量化,單詞操作的時候都需要這步驟，比如前面對單詞進行清洗，需要展平數據；

rep，重復id以及label，按照單詞個數，rep(c("id","su"),c(2,1))，執行之后為“id”“id”“su”。

————————————————————————————————————————————

5、情感打分

5.1 關聯情感詞

現在有了圖2的數據以及情感詞典數據圖3，以term為主鍵，進行join合并。情感詞典中沒有的詞，則刪除。

圖 3

[plain]view plaincopyprint?

library(plyr) testterm <- join(testterm, posneg)

testterm <- testterm[!is.na(testterm$weight), ]

head(testterm)

代碼解讀：join，以term進行左關聯合并，在A表中，會多出來weigh的一列，但是會出現（1,NA,2，3，NA），一些沒有匹配到的NA，

用[is.na(testterm$weight),]來進行刪除。

5.2 情感分數

有了圖2的id+weight列，就可以直接分組匯總，比如aggregate，其他匯總函數可見比博客：R語言數據集合并、數據增減

[plain]view plaincopyprint?

dictresult <- aggregate(weight ~ id, data = testterm, sum)

對weight列以文本id分組求和，即為情感打分。

5.3 情感偏向

有了情感分數，我想單單知道這些ID正負，就像圖2中的label。

可以利用布爾向量建立連接。數據分析師培訓

[plain]view plaincopyprint?

dictlabel <- rep(-1, length(dictresult[, 1]))

dictlabel[dictresult$weight > 0] <- 1

dictresult <- as.data.frame(cbind(dictresult, dictlabel), stringsAsFactors = F)

先生成一個原數列長度的-1數列；

在原數列$weight>0會生成一個布爾向量，然后進行賦值，就可以構造label了。

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

R語言文本挖掘正則表達式數據分析

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇圖論在大數據分析中的作用！

下一篇CDA認證再升一檔！與國家共同推進大數據人才培養標準教育事業！

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊