
作者:Python進階者
來源:Python爬蟲與數據挖掘
前幾天有個叫【小明】的粉絲在問了一道關于Python處理文本可視化+語義分析的問題。
他要構建語料庫,目前通過Python網絡爬蟲抓到的數據存在一個csv文件里邊,現在要把數據放進txt里,表示不會,然后還有后面的詞云可視化,分詞,語義分析等,都不太會。
內容稍微有點多,大體思路如下,先將csv中的文本取出,之后使用停用詞做分詞處理,再做詞云圖,之后做情感分析。
1、將csv文件中的文本逐行取出,存新的txt文件,這里運行代碼《讀取csv文件中文本并存txt文檔.py》進行實現,得到文件《職位表述文本.txt》
2、運行代碼《使用停用詞獲取最后的文本內容.py》,得到使用停用詞獲取最后的文本內容,生成文件《職位表述文本分詞后_outputs.txt》
4、運行代碼《jieba分詞并統計詞頻后輸出結果到Excel和txt文檔.py》,得到《wordCount_all_lyrics.xls》和《分詞結果.txt》文件,將《分詞結果.txt》中的統計值可以去除,生成《情感分析用詞.txt》,給第五步情感分析做準備
5、運行代碼《情感分析.py》,得到情感分析的統計值,取平均值可以大致確認情感是正還是負。
1.將csv文件中的文本逐行取出,存新的txt文件
這里運行代碼《讀取csv文件中文本并存txt文檔.py》進行實現,得到文件《職位表述文本.txt》,代碼如下。
# coding: utf-8
import pandas as pd
df = pd.read_csv('./職位描述.csv', encoding='gbk')
# print(df.head())
for text in df['Job_Description']:
# print(text)
if text is not None:
with open('職位表述文本.txt', mode='a', encoding='utf-8') as file:
file.write(str(text))
print('寫入完成')
2.使用停用詞獲取最后的文本內容
運行代碼《使用停用詞獲取最后的文本內容.py》,得到使用停用詞獲取最后的文本內容,生成文件《職位表述文本分詞后_outputs.txt》,代碼如下:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import jieba
# jieba.load_userdict('userdict.txt')
# 創建停用詞list
def stopwordslist(filepath):
stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
return stopwords
# 對句子進行分詞
def seg_sentence(sentence):
sentence_seged = jieba.cut(sentence.strip())
stopwords = stopwordslist('stop_word.txt') # 這里加載停用詞的路徑
outstr = ''
for word in sentence_seged:
if word not in stopwords:
if word != 't':
outstr += word
outstr += " "
return outstr
inputs = open('職位表述文本.txt', 'r', encoding='utf-8')
outputs = open('職位表述文本分詞后_outputs.txt', 'w', encoding='utf-8')
for line in inputs:
line_seg = seg_sentence(line) # 這里的返回值是字符串
outputs.write(line_seg + 'n')
outputs.close()
inputs.close()
關鍵節點,都有相應的注釋,你只需要替換對應的txt文件即可,如果有遇到編碼問題,將utf-8改為gbk即可解決。
3.制作詞云圖
運行代碼《指定txt詞云圖.py》,可以得到詞云圖,代碼如下:
from wordcloud import WordCloud
import jieba
import numpy
import PIL.Image as Image
def cut(text):
wordlist_jieba=jieba.cut(text)
space_wordlist=" ".join(wordlist_jieba)
return space_wordlist
with open(r"C:UserspdcfiDesktopxiaoming職位表述文本.txt" ,encoding="utf-8")as file:
text=file.read()
text=cut(text)
mask_pic=numpy.array(Image.open(r"C:UserspdcfiDesktopxiaomingpython.png"))
wordcloud = WordCloud(font_path=r"C:/Windows/Fonts/simfang.ttf",
collocations=False,
max_words= 100,
min_font_size=10,
max_font_size=500,
mask=mask_pic).generate(text)
image=wordcloud.to_image()
# image.show()
wordcloud.to_file('詞云圖.png') # 把詞云保存下來
如果想用你自己的圖片,只需要替換原始圖片即可。這里使用Python底圖做演示,得到的效果如下:
4.分詞統計
運行代碼《jieba分詞并統計詞頻后輸出結果到Excel和txt文檔.py》,得到《wordCount_all_lyrics.xls》和《分詞結果.txt》文件,將《分詞結果.txt》中的統計值可以去除,生成《情感分析用詞.txt》,給第五步情感分析做準備,代碼如下:
#!/usr/bin/env python3
# -*- coding:utf-8 -*-
import sys
import jieba
import jieba.analyse
import xlwt # 寫入Excel表的庫
# reload(sys)
# sys.setdefaultencoding('utf-8')
if __name__ == "__main__":
wbk = xlwt.Workbook(encoding='ascii')
sheet = wbk.add_sheet("wordCount") # Excel單元格名字
word_lst = []
key_list = []
for line in open('職位表述文本.txt', encoding='utf-8'): # 需要分詞統計的原始目標文檔
item = line.strip('nr').split('t') # 制表格切分
# print item
tags = jieba.analyse.extract_tags(item[0]) # jieba分詞
for t in tags:
word_lst.append(t)
word_dict = {}
with open("分詞結果.txt", 'w') as wf2: # 指定生成文件的名稱
for item in word_lst:
if item not in word_dict: # 統計數量
word_dict[item] = 1
else:
word_dict[item] += 1
orderList = list(word_dict.values())
orderList.sort(reverse=True)
# print orderList
for i in range(len(orderList)):
for key in word_dict:
if word_dict[key] == orderList[i]:
wf2.write(key + ' ' + str(word_dict[key]) + 'n') # 寫入txt文檔
key_list.append(key)
word_dict[key] = 0
for i in range(len(key_list)):
sheet.write(i, 1, label=orderList[i])
sheet.write(i, 0, label=key_list[i])
wbk.save('wordCount_all_lyrics.xls') # 保存為 wordCount.xls文件
得到的txt和excel文件如下所示:
5.情感分析的統計值
運行代碼《情感分析.py》,得到情感分析的統計值,取平均值可以大致確認情感是正還是負,代碼如下:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
from snownlp import SnowNLP
# 積極/消極
# print(s.sentiments) # 0.9769551298267365 positive的概率
def get_word():
with open("情感分析用詞.txt", encoding='utf-8') as f:
line = f.readline()
word_list = []
while line:
line = f.readline()
word_list.append(line.strip('rn'))
f.close()
return word_list
def get_sentiment(word):
text = u'{}'.format(word)
s = SnowNLP(text)
print(s.sentiments)
if __name__ == '__main__':
words = get_word()
for word in words:
get_sentiment(word)
# text = u'''
# 也許
# '''
# s = SnowNLP(text)
# print(s.sentiments)
# with open('lyric_sentiments.txt', 'a', encoding='utf-8') as fp:
# fp.write(str(s.sentiments)+'n')
# print('happy end')
基于NLP語義分析,程序運行之后,得到的情感得分值如下圖所示:
將得數取平均值,一般滿足0.5分以上,說明情感是積極的,這里經過統計之后,發現整體是積極的。
我是Python進階者。本文基于粉絲提問,針對一次文本處理,手把手教你對抓取的文本進行分詞、詞頻統計、詞云可視化和情感分析,算是完成了一個小項目了。下次再遇到類似這種問題或者小的課堂作業,不妨拿本項目練練手,說不定有妙用噢,拿個高分不在話下!
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24