
來源 | 36大數據
當你在網上選購商品時,同類的商品成千上萬,哪些因素會影響你選購某件商品呢?商品評論一定是一個重要的參考吧。一般我們總會看看歷史銷量高不高,用戶評論好不好,然后再去下單。
過去不久的雙11、雙12網絡購物節中,無數網友在各個電商網站的促銷大旗下開啟了買買買模式。不過,當你在網上選購商品時,同類的商品成千上萬,哪些因素會影響你選購某件商品呢?商品評論一定是一個重要的參考吧。一般我們總會看看歷史銷量高不高,用戶評論好不好,然后再去下單。
然而各位一定也有所耳聞,買的不如賣的精,刷單的、刷評論的始終橫行網上,沒準你看到的評論就是賣家自己刷出來的。事實上,許多精明的淘寶賣家會在雙十一等網購高峰期售賣“爆款”,“干一票就撤”,這正是虛假評論的溫床。有時我們選購商品,經常會發現許多條看起來十分夸張的評論,如某女鞋的商品評論:
“超級好看的鞋,隨便搭配衣服就覺得自己像女神,又不磨腳,站一天都不會累。下次還來買,趕快上新款哦!”
“有史以來最滿意的鞋,媽媽看了說是真皮的,賣家態度又很好,發貨超快,誠信賣家,特別滿意的一次購物!”
連續幾百幾千條“真情實感”的好評這樣刷下來,恐怕會有許多顧客被洗腦:這個商品銷量真高,評論也不錯,那就買這家吧!結果網上的爆款買回家卻變成了廢品。我們買家真是絕對的信息弱勢方,賣家給出的描述真假尚且不知,刷好評又讓人防不勝防。那么,如何才能識別刷單評論呢?我們在此介紹一種借助文本挖掘模型的破解之道。
首先要解決數據來源問題,可以從網站上批量下載這些評論,也就是爬蟲。目前有兩種方法,一種是編程,可以使用python、java等編程語言去編寫爬蟲程序;還有一種是使用成熟爬蟲軟件,可以利用界面操作來爬蟲。筆者決定使用免費的gooseeker軟件來做,這個軟件是Firefox瀏覽器的插件,避免了很多網站動態渲染不好分析的問題,它借助了瀏覽器的功能,只要在瀏覽器上看到的元素就可以方便地下載。該軟件提供了詳細的教程和用戶社區,可以指導用戶一步步設置抓取內容、抓取路線、連續動作、同類型網頁的重復抓取,大家可以自行學習使用。
筆者最終抓取了四款同類型的鞋子的評論數據,包括會員名、商品描述、購買日期、購買型號、評論日期、評論文本等,共計5000多條數據。我們特意選取了具有刷單傾向的商品,可以看出,其中許多評論日期連續、會員名相似、買家等級較低;經過人眼識別,刷單評論占比約30%。我們意在使用這些數據去構建刷單評論識別模型,然后可以用這里得出來的規則去識別其它鞋類商品的刷單評論。
SAS Enterprise Miner 13.2是一款大家熟知的數據挖掘工具,它可以針對大型數據進行分析,并根據分析結果建立精確的預測和描述模型,因此為我們所選用,不過使用其他軟件也是相同的分析思路。
我們把先前獲取的5000條評論一分為二,其中70%作為訓練樣本,30%作為驗證樣本。首先,用文本解析將訓練樣本中的評論文本內容拆詞,在拆詞時可以選擇忽略缺乏實際意義的代詞、感嘆詞、介詞、連詞,忽略數字與標點符號。以上拆詞過程相當于把非結構化數據轉成了結構化數據,以前的一段文本如今可以用若干列來表示,每列代表一個詞,如果文本中出現了該詞該列取值為1,否則取值為0。
現在我們還不能直接拿它來建模,通過上圖我們可以發現很多詞只出現在少部分文章中,可以使用文本過濾器節點來去除詞頻很低的詞。
在文本過濾器中可以設置最小文檔數,指定排除小于該文檔出現數目的詞條,同時也要排除像“就”、“這”、“是”、“有”這樣詞頻高卻意義不大的詞。除此之外,還可以進行同義詞處理,我們可以手動添加同義詞,也可以導入外部的同義詞庫。比如,“暖和”與“保暖”是同義詞,“好看”與“漂亮”可以互相替代……
在軟件中還可以查看詞與詞之間的鏈接關系:
接下來,我們可以使用文本規則生成器節點來建模,發現哪些詞組組合與刷單有直接的關系:
我們將訓練樣本中的真實評論設置為0(藍色),刷單虛假好評設置為1(紅色)。上圖中可以看出,提到“暖和”(包括同義詞“保暖”)這樣的詞時,評論極可能是真實的;而寫著“鞋子很時尚哦”“做工精細,還會再買”而沒有提到暖和與否的,則多半是虛假好評。
說到這里,你可能會好奇:為什么“暖和”這樣一個普通的詞,倒成了真假評論的試金石?
我們不妨回想一下自己作為普通買家的購物經歷:在收到貨品并試用之后,通常只會簡單描述一下自己的使用感受,這些感受一定。而水軍則不然,他們從來沒有真正收到商品,更談不上試穿啦,為了完成業務指標,只好按照賣家提供的商品描述,盡量從質量、物流、服務態度甚至搭配等多方面強調商品本身的特性。從我們所做的案例來講,“暖和”自然屬于親身感受,而“真皮”“做工”之類,恐怕不是普通買家最想反饋的性質。
那么這個模型的總體效果如何呢?我們可以用累積提升度這個指標來評價:
我們還留下了30%的驗證樣本,現在它們可以現身來驗證成果了。請看上圖中的粉紅色曲線:如果用這個模型去對評論進行打分,按照疑似為虛假評論(“1”)的概率去排名,取前5%的評論時,提升度為3倍;我們已知虛假評論約占總體的30%,也就是說,概率排名前5%的評論中有九成都是刷的,從而證明我們的模型相當精準地捕捉了刷單評論。
最后,我們要為賣家說句公道話:淘寶刷單惡性競爭嚴重,完全不刷好評的店家恐怕不多,不能說有刷評論的店就完全不能下手,90%刷單的商品實在駭人聽聞,10%刷單的店則或許質量尚可接受。這也進一步說明了我們的模型的作用:判斷商品的刷單比例,比逐條判斷評論是否虛假更加實用。
如今網絡水軍也在持續進化中,寫出的評論越來越真情實感、具有極強的誤導性,單憑肉眼分辨既浪費時間、又易被迷惑;但虛假評論可以推陳出新,我們的模型更可以隨時跟進“學習”。如果將本文中的方法進行推廣,則可以形成一個捕捉評論——文本解析——建立模型——判斷虛假評論比例的標準過程,這樣的方法無疑相當具有實用性。
end
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25