
作者:閑歡
來源:Python 技術
2021年已經過去了,但是這一年發生了很多令人難忘的事情,相信每個人心目中都有很多感慨。
為了回顧2021年都發生了哪些大事,我打算從熱搜下手,看看2021年都有哪些熱搜事件。
大家都知道,微博熱搜是實時更新的,并且沒有歷史記錄,所以從微博的網站上找不到歷史的熱搜數據。我們只能另想它法了。經過我不懈的摸索,終于找到了一個網站,它記錄了每日的微博實時熱搜,并且是一分鐘一次。也可以在網站上通過日期查詢當天的數據。
有了目標網站就好說,我們想辦法從目標網站下載數據就好。這個網站提供了付費下載數據的方式。我這里為了給大家演示使用 Python 爬蟲爬取數據,就不付費下載了。
網站的請求也比較簡單,大家打開網頁的開發工具,可以很快定位到獲取請求的 URL 。這里就不贅述了,直接上代碼:
headers = { "Host": "google-api.zhaoyizhe.com", "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36" } def scrapy(date): print('開始爬取%s' % date)
url = 'https://google-api.zhaoyizhe.com/google-api/index/mon/sec?date=%s' % date try:
time.sleep(random.randint(1, 3))
res = requests.get(url, headers=headers).json()
result = res['data'] return result except Exception as err:
print(err) return None
我們定義一個爬取的函數,通過傳入日期來爬取一天的熱搜數據。整個2021年的數據我們只需要循環請求每一天即可。
整個數據下載下來一共12萬多條:
分析熱點事件,最好的方法就是把這些事件描述制作成詞云,突出顯示的就是最熱門的,一目了然。
def gen_wc_split_text(data_list=[], max_words=None, background_color=None, # font_path='/System/Library/Fonts/PingFang.ttc', font_path=r'C:WindowsFontssimhei.ttf',
output_path='', output_name='',
mask_path=None, mask_name=None,
width=400, height=200, max_font_size=100, axis='off'): stopwords = open(r'c:pworkspacemypypythontechweibohotstopwords.txt', 'r', encoding='utf-8').read().split('n')[:-1]
words_dict = {} for data in data_list:
text = data['topic']
hotNumber = data['hotNumber'] if hotNumber is None:
hotNumber = 1 all_seg = jieba.cut(text, cut_all=False) for seg in all_seg: if seg in stopwords or seg == 'unknow': continue if seg in words_dict.keys():
words_dict[seg] += hotNumber else:
words_dict[seg] = hotNumber # 設置一個底圖 mask = None if mask_path is not None:
mask = np.array(Image.open(path.join(mask_path, mask_name)))
wordcloud = WordCloud(background_color=background_color,
mask=mask,
max_words=max_words,
min_font_size=15,
max_font_size=80,
width=300,
height=400, # 如果不設置中文字體,可能會出現亂碼 font_path=font_path)
myword = wordcloud.generate_from_frequencies(words_dict) # 展示詞云圖 # plt.imshow(myword) # plt.axis(axis) # plt.show() # 保存詞云圖 wordcloud.to_file(path.join(output_path, output_name))
制作詞云我們選擇試用 jieba 分詞,使用我們熟悉的 wordcloud 來制作詞云。
我們先來看看2021年全年的詞云圖片:
看著這張詞云圖片,是不是有好多熟悉的詞匯?
接下來,我們按月份來統計熱門事件,具體需要做的就是將每個月的熱搜事件歸集起來,然后根據熱度以及出現頻率疊加,來輸出詞云。
代碼還是跟上面類似,只不過是將事件按月分類而已。
我們直接來看每個月的圖片吧。
2021年在疫情中開啟,在大家喊著“告別2020,開啟2021”時,石家莊疫情爆發,進入戰時狀態。
薇婭也在這個月開始直播年貨。
最后以陳翔出軌關曉彤導致工作室互懟結束。
這個月最熱門的事件肯定是我們的傳統春節了。
賈玲的導演處女作《你好,李煥英》,一上映就口碑炸裂。
這個月我們失去了兩位明星,分別是趙英俊和吳孟達,一個時代的記憶就此落幕。
這個月明星白敬亭出盡風頭。
HM、耐克等眾多我們熟知的國外品牌抵制新疆棉花,遭到央視點評,全民憤怒。
這個月中美高層對話,71歲的楊潔篪老爺子怒懟東道主美國。
4月,各地大規模全員動員打疫苗。
也是這個月,日本宣布把福島核廢水排進太平洋。
這個月趙麗穎和馮紹峰宣布離婚,明星事件真是層出不窮。
最令人痛心的事件是雜交水稻之父袁老爺子走了,舉國哀悼。
而就在同一天,“中國肝膽外科之父”吳孟超院士也去世了。
5月20日,全網盼離的佟丫丫,終于宣布和陳思誠離婚。
6月的大事件當屬高考。
這個月,汪小菲和大S頻上熱搜。
這個月,神舟十二號飛船成功發射,3名航天員飛到了“天宮”。
這個月,河南鄭州暴雨成災,舉國矚目。
這個月,東京奧運會開幕,林丹和李宗偉一起看奧運。
這個月,吳亦凡翻車,都美竹爆料,網友又多了一個“吳簽”的梗。
這個月,奧運會捷報頻傳,全紅嬋、蘇炳添進入大眾視野。
吳亦凡事件繼續發酵,都美竹對吳亦凡的指控成真讓他成為內娛被刑拘愛豆第一人。
演員張哲瀚被爆出進入靖國神社內部,拍攝多張開心比“耶”的照片,剛翻紅就掉下去了。
孟晚舟在被困加拿大近三年后,終于回國。
體育盛事全運會刷屏。
全國人民中秋節一起吃月餅賞月。
國慶檔大片《長津湖》打破8項影史記錄。
知名鋼琴家李云迪嫖娼被抓。朝陽群眾又立一功。
上海一個獨居女孩,被裝進行李箱拋尸。
電競戰隊EDG再奪冠,轟動全球。
上海迪士尼幾萬人封園做核酸。
雙十一,董明珠隆重推出22歲的女助理孟羽童,“明珠羽童精選”直播間開播。
娛樂圈優質偶像王力宏被曝渣男,徹底崩塌。
直播女王薇婭因偷漏稅被罰了13.4億。吃瓜群眾驚呼,原來直播這么暴力。
西安出現“多源頭不明的點狀社區傳播”,緊急“封城”。
2021年是不平凡的一年,這一年,我們見證了太多。新冠疫情始終是籠罩我們上空的一團烏云。在這個特別的年份里,娛樂圈也是精彩不斷,各種離婚事件層出不窮,幾大優質形象瞬間成渣。
2022年也將是不平凡的一年,愿疫情早點過去,世界和我們都能更好!
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25