
大數據經典案例與謬誤
1 紙牌屋案例
提到大數據在互聯網視頻領域的商業應用,業界曾經流傳著這樣一個謊言——通過分析3000萬北美用戶觀看視頻的行為數據,發現凱文.斯派西、大衛.芬奇和英劇《紙牌屋》3個關鍵詞的受眾存在交集,由此預測將三種元素結合在一起的片子將會大火特火,因此成功推出這部劇集。
事實上,翻拍英劇《紙牌屋》的創意來自制片方MRC公司。當時這家電影公司正準備轉型拍攝電視劇,并打算用自己手里積攢的電影資源大干一場,碰巧公司的一位實習生在飛機上看了這部英國舊劇集。也就是說,促使《紙牌屋》誕生的決定性因素根本就不是“大數據”,而是影視圈里永恒的關鍵詞——“資金”和“人脈”。
2 啤酒尿布案例
“啤酒與尿布”案例是大數據營銷的一個神話,據媒體稱是發生在美國沃爾瑪連鎖店超市的真實案例。根據大數據發現的相關性,沃爾瑪決定把尿布和啤酒擺在一起出售,這個奇怪的舉措使尿布和啤酒的銷量雙雙增加。按理說,這個了不起的發現應該給所有超市帶來啟示,大家都應紛紛效仿才對,可實際上,如果我們到超市去認真觀察一下,就會發現根本沒有類似的物品擺放,相近的都很少。追溯這宗噱頭十足的新聞的根源,調查者已經證明,這個江湖傳說只是數據分析公司的經理人虛構出來的故事。
3 懷孕的女高中生案例
一個更為聳動的大數據案例是“懷孕的女高中生”。據說Target百貨公司通過大數據模型建立“懷孕預測指數”,通過這個指數,Target能夠在很小的誤差范圍內預測到顧客的懷孕情況,因此Target就能早早地把孕婦優惠產品的廣告寄發給顧客?!都~約時報》甚至報道了Target的這種優惠廣告間接地令一個蒙在鼓里的父親意外發現他的高中生女兒懷孕了。但在這個成功的營銷事件的背后,是這些優惠廣告只是隨機的發送給用戶,其中大量收到優惠廣告的婦女并非孕婦,當然她們只是把廣告扔進垃圾桶,不會為此鬧上門找Target公司理論。
檢視另外一些著名的大數據案例案例,我們已經知道波士頓市“顛簸的街道”項目失敗了,谷歌流感趨勢預測也失敗了。其他很多宣稱成功運用大數據分析、發現前所未見的規律、取得重大商業成就的案例也都似是而非。
今天,宣告成功應用了大數據的案例還在不斷誕生,人們對此已經開始冷靜思考。我們要問的是:這些項目中采用了什么樣的判別標準?吹噓大數據神話的人憑什么認定,運用這種又全又大的定量統計新方法更好,而用傳統的抽樣量化方法或定性方法做研究肯定不如它?
大數據的謬誤
1 “數據”概念謬誤
對數據概念理解的錯誤反映了大數據專家們思維的混亂。數據概念有兩種含義。一種含義的數據在歷史上早就在使用,這是人們拿來比較、衡量大小、多少的概念——即量值、數值、數目字。圍繞無知地把這個老概念和另一個數據的新概念混淆。
新的比特數據的概念到了20世紀才誕生。這個基于比特的數據概念是信息科技的獨特產物——即數據是比特的集合,數據是結構化的比特團、組。這是對我們當今社會真正重要的一種數據的含義。
如果把比特看作原子,數據就對應著分子,比特和數據是賽博空間里的基本單元,就像原子和分子是實體空間里的基本單元那樣。比特形態數量有限,只有兩種,具體的數據對象則千姿百態,是比特的無窮無盡的排列組合。與之相對應,原子的數量只有180來種,而原子所可能組成的分子種類則是無限的。
2 “量化”謬誤
從舊概念出發,基于量值統計的大數據成為紅得發紫的顯學。大數據把“量化”研究方法拔高到了無以復加的地位。這種以“數”服人的惡劣風氣發端于北美,是從美國向世界各地蔓延的一種傳染病——數目字崇拜癥。
尼爾.波茨曼早在上世紀六十年代就指出,單純用量化方法對人進行界定存在嚴重缺陷。當時在美國用IQ值來測定人的智商曾經非常流行。把活生生的、有豐富側面的、不斷變化著的人簡單地用數目字評價會導致認識的異化。今天的大數據雖然描述人的參數很多,其數量種類遠遠超過當年單一的IQ值,仍然只是對某一時刻、少數側面的個人屬性的抽象概括。以為通過最大限度地量化就能洞悉關于個人和人群的一切,這是一種理性的譫妄。
癡迷于極致的量化將導致我們走向“還原主義”的歧途。就算我們能夠用盡當前科技的所有手段,用所有傳感器收集人的所有方面的所有數據,那又如何?拿到數據越多的人就越正確嗎?拿到了這些全面的數據就能自動掌握真理嗎?就像把一個活人分解成同樣重量、種類的一堆原子,把這堆原子交給你,你能管這堆東西叫一個人嗎?
3 “歷史”謬誤
過去積攢的統計數據是歷史、是浮云,記錄下來的舊數字再多、花樣再豐富,對未來趨勢的預測能力也非常有限,不能太當真。那個著名的關于豬的寓言,就是用來說明這個道理的:
一頭生活在豬圈里的豬注意到每天都有飼養員喂它食物,它收集了99天的完備數據,基于大數據統計作出預測:未來每天都有免費的食物提供給自己。在第100天,它的預測得到了證實,一個光彩奪目的大數據成功案例誕生了!但在第101天,它被送進了屠宰場。
大數據許諾通過收集歷史數據預測未來。很多自我膨脹的量化統計專家迷信,收集越多越全的數據,就越能保證發現重大的規律,對未來的預測就越準確,越能創造爆炸性的商業成功,越能讓企業立于不敗之地。
但是這些頭腦熱到發昏的專家們忘記了,歷史都是人的歷史。他們沒有理解索羅斯根據卡爾.波普爾對歷史主義的批判提出的反身性原理——人都是有主觀能動性的、易變的。無論是個人還是大范圍的群體,一旦他們了解了你作出的預言,他們行動的轉向往往會讓你的預言破產。谷歌流感趨勢預測失敗的一個可能原因就在于此。
從那些失敗案例人們已經開始認識到,大數據的膚淺預測的作用是可疑的,它根本無法應對黑天鵝事件。就像全世界頂尖的數學天才聚集的華爾街金融機構那樣——他們曾經根據各種統計數據成功預測市場走勢,并持續掙錢盈利。但時間拉到足夠長,一旦發生一個房貸債券市場崩盤這樣的小概率事件,數據統計專家們就落得滿盤皆輸,一次就把之前多年掙到的錢賠光,甚至陷入負債、破產的境地。
4 “大”謬誤
“大”方向的錯誤影響更為深遠,也更加致命。大數據反復強調數據量大、數據全,上帝視角的敘事在召喚一種集體潛意識:即只有有權有錢的超級機構才有能力、有資格匯聚一切信息。很顯然,大數據所隱喻的,仍然是僵化腐朽的金字塔式的、封建層級化的社會結構。
想想現在,別人許諾在互聯網時代提供給你的人人平等的地球村、對等網絡和扁平的世界哪去了?想想當年,前蘇聯的計劃經濟委員會里的少數精英掌握著每種商品的全部信息,小到火柴和肥皂的產量、庫存、運輸、成本和售價、銷量等等,結果怎么樣呢?我們要問,大數據是不是催生了棱鏡計劃?為什么個人不能保存電纜門(Cablegate)的全部資料?為什么黑客不能獲取麥迪遜網站所有用戶的郵箱?為什么網民不能隨時查閱汽車牌照信息數據庫?
量化統計大數據的“大”和“統”背后隱含的觀念,是數據必須向一個中心全面集中,是壁壘森嚴的超級關系數據庫、數據中心,是歡欣鼓舞地打造一座賽博世界的全景式監獄,是信息為少數頂尖精英嚴格控制以保障“隱私和安全”,是排斥隨便哪個阿貓阿狗染指數據庫的任何副本,以防其圖謀不軌——網絡草根們存在的意義,只是向大核心貢獻自己的所有信息數據。一盤散沙的個人既不該被允許查閱別人的任何信息,甚至也不能了解自己的那些數據被收集和記錄。因此不要過于迷信大數據尤其是感念不清,以及只停留在自己嘴巴或這是別人嘴巴上的大數據。真真的要沉下心研究以下大數據究竟有什么組成,怎樣適當的應用。避免在神話下被愚化。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25