
決策者們別被輿情大數據忽悠了
近兩年大數據真的很熱,但一個過熱的現象就一定會有很多誤區,很多人看了是網上海量數據“淘”出來的分析就認定了是“真理”,深信不疑,其實這里頭很可能埋伏了誤區,使用不慎會誤導決策。
那大數據能做什么?不能做什么?
大數據當然很有用,最明顯的就是茫茫網海中找一個人或一小群人,“人肉”的威力我不再贅述了。
其次,我想找一個商機,如果在大數據中挖出一百萬人表達對某一“產品”的關注,這絕對會有足夠的消費者,讓產品賺錢,所以大數據的商業應用前景十分光明。
再來,如果只是描述性統計和相關性分析,不作任何推論,往往也十分靠譜。但是往往這樣的分析只作歸納不作演譯,在很多時候是不敷應用的,尤其是決策者對宏觀世界知識的需求,使得大數據分析者會急于對大數據挖掘出來的結果作推論。
比如,我們如果說網上交易數據發現某某地區網上消費者對某一產品需求近三個月成長五成,就很有用,如上面所述,它馬上反應了一個商機。但是我們如果說某一地區一成的網民,占4%居民數,其中八成是低學歷男性,一成在談及某一政策時用了“贊”,大概這樣的描述,雖靠譜,卻對政策決定者沒什么用。所以不經過推論,很多大數據挖掘出來的東西會沒什么用。
如果數據本身就是母體而不是樣本,其統計分析是可以作出詮釋的,這是推論的第一步。比如,我參予過微博轉發研究,用一段時間內所有微博資料來分析,它本身就是微博轉發的所有資料,而不是抽樣,所以用數據挖掘出來的發現作詮釋,尤其是和理論相穩合的詮釋,可信度還是不錯的。但注意,詮釋可以作出理論的假設,需要進一步資料的驗證,詮釋本身卻不能當作“真理”、“法則”和“事實”。
不作推論大數據有時沒用,但一推論就可能掉入很多誤區,決策者基于錯誤的知識作決策,會帶來十分嚴重的后果。那么有那些推論的誤區呢?以我們??吹降囊恍拜浨榉治觥被颉捌梅治觥睘槔?,往往大數據挖掘出“某某地方(或某某群人)對某一事物有多高的百分比表示喜歡(或支持)”,這一分析結果就有五大誤區可能使這樣的“結論”偏誤極大。
一、抽樣偏誤。這是最顯而易見,而且是很多人都注意到的,上網的人不等同某一地區或某一群體的所有的人,他們在年齡、教育、社會階層、婚姻狀態等等的社會屬性上都和平均數有一定的差距。退一步說,說這是網民的“輿情”或“偏好”,也不準確,因為對一個事件表達態度的人又只是很小一部分的網民,這也只是大數據中找出來的“樣本”,不足以推論所有網民。
二、情緒字詞衡量偏誤。要判斷一個網民針對某一事件中表達的一段話是“支持還是反對”某一立場或“喜歡還是不喜歡”某一人或事,我們會抽取出其中的一些字詞,或一小段字詞,判斷這些字詞的屬性,符合那一類情緒基模。我曾和美國心理學家合作過一百零七個漢字字辭在中國社會中的情緒定位,方法上是讓一定數量,數十上百位,心理學受測者,每個人在電腦問卷上就出現在眼前的字辭表達情感的三個維度,EPA,評價(Evaluation)、情緒強度(Potency)以及引發行動程度(Activity),再由這三個維度平均值判斷出這一字詞在中國人中來自于什么樣的情緒。任何衡量字詞相應情緒的方法不免還是會有偏誤,但是在我看到一些國內使用的衡量中,三五個人主觀地判斷就為很多字詞作好情緒歸類,這顯得十分粗糙,衡量偏誤又大的多了。
三、轉化偏誤。一段網民的話中可能會有一個到數個可以抽取出來的字詞,每個字詞表達了中國人情緒的EPA三維度,每一維度都是從+3到-3間無限多的刻度來表達,但最終我們卻要從這一句話中判斷出一個“支持不支持”的立場或“喜歡不喜歡”的態度。所以從這么多復雜衡量的字辭到簡單兩分的結果,需要一個轉化的模型,甚至不同類別事物的情緒表達需要不同的轉化模型。但如今國內的很多大數據挖掘,其轉化模型只是粗糙的處理,缺乏理論基礎,這又會加大偏誤。
四、情緒感染偏誤。網上發言情境中常常會有一群相同立場的人抱團,在一定的輿論陣地中黨同伐異,這會影響有些后續發言者隱藏自己的立場,采用趨同言論,以免犯了眾怒。這又會使網上表達有時不能真實反應一個人的偏好,在一個人冷靜獨處時會有不同的表達,因而產生因情緒感染而有的偏誤。
五、最后一類的偏誤我稱之為資料被截的偏誤(truncated databias),就是很多行為,越是重要的,特別值得研究的,牽涉到信任感強的行為,其實網上表達的只是冰山水面上的部分,大量行為是在網下的,因此資料是被截的(truncated)。比如我在從大數據中算一個人人脈網時,網上資料較易看出弱連帶,但是算強連帶卻會有很大的誤差,因為強連帶中大多數親密行為是發生在網下的,這一部分網上不一定能察覺到。同樣的,一些較敏感的立場,大多數人較不愿表達的偏好,以及較機密的信息,都不會上網,除非像畢姥爺一樣被偷拍上網了,否則大數據是挖掘不到的。如何從已有的網上資料去推論網下被截的部分,是一個重大而困難的研究,但可以減少truncated data造成的偏誤。
基于這五類推論時產生的偏誤,使我們想直接從大數據挖掘結果推論出我們想知道的知識時,常常是以偏概全的,據以作出決策,不免大錯特錯,不得不慎。但大數據有一個優勢,就是很容易收到慣時性資料,雖然是“偏”的,但長時間“偏”的資料的趨勢有時可以看出未來的端倪,過了“引爆點”, 趨勢就能形成,形勢就不可逆轉,大數據的分析會事先提供極為重要的警訊。比如,臺灣“太陽花運動”就是從“反服貿懶人包”開始,雖然其中包括了很多錯誤而扭曲的信息,你可以罵大量臺灣年輕人知識貧乏沒有國際觀,但它就是能讓很多人相信,一旦變成“普遍知識”時,馬英九政府想辟謠也來不及了。
有時“引爆點”只要百分五的人口,網民也就是百分之十,便足以引爆趨勢,從網上漫延到網下,勢不可擋。當然這種研究還有很長的路要走,急急忙忙就宣稱自己找到了“大趨勢”的,怕又是忽悠的成份居多。
大數據很有用,但也是雙刃劍,濫用誤用會產生重大決策的錯誤,現在大數據相關經費多,出了一堆又一堆的專家,決策者使用這些專家的挖掘結果時不能不慎。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25