熱線電話:13121318867

登錄
首頁職業發展\"為大數據“去魅” ——對《大數據時代》的一點反思
\"為大數據“去魅” ——對《大數據時代》的一點反思
2014-11-17
收藏

"為大數據“去魅” ——對《大數據時代》的一點反思


去逛一些大型商場,有時你會發現,啤酒旁邊擺放的竟然是尿布。這種做法最先起源于沃爾瑪,沃爾瑪通過對超市人群購買行為的大量數據分析,發現男性來買啤酒的時候,通常也會買尿布。于是超市將尿布和啤酒擺放在一起出售,從而提高利潤。

尿布與啤酒之間的奇妙關聯,背后是大量數據的挖掘與分析。這個小小的案例體現的便是一種大數據思維。維克托邁爾舍恩伯格在《大數據時代》提出大數據思 維的三個原則:一、不是因果關系,而是相關性;二、樣本=全部不是隨即樣本,而是全部數據;三、不是精確性,而是混雜性。也就是說,大數據經 由盡可能多的數據挖掘出那些我們平時根本無法察覺到的隱秘聯系,輕松地知其然,即使我們完全不知其所以然。

大數據描繪了一個激動人心的未來,也難怪很長一段時間以來,大數據成為最熱門的概念之一。人們對大數據的擁躉和美好想象,一方面是我們生活的世界正在 數據化:物聯網上,購買行為的數據化;導航時,方位的數據化;微博微信上,溝通的數據化這為大數據時代提供了可能;另一方面,現代社會仍面臨 著許多未解的難題,許多跨不過的障礙,人們期冀于大數據能夠力挽狂瀾,幫助現代人走出困境。

在這樣的背景下,大數據正被不斷神化。紐約時報專欄作者大衛布魯克斯《大數據不能做什么?》很難得地發出了不同的聲音。他指出大數據的幾個缺陷。首 先,大數據擅長于分析關系的數量而非質量,因此它會忽略很多舉足輕重的信息。比如社交網絡的數據可以分辨出你的6個同事,你一天中有76%的時間會見他 們,卻很難發現你一個一年只見兩次面的童年伙伴。其次,大數據不懂背景。我們說一句話究竟是認真的還是開玩笑,是為了表達憤怒還是善意,這些要放在具體語 境分析,數據分析很難搞清楚這些。還比如大數據會帶來大量毫無意義的偽相關;數據偏愛潮流,忽視創新;原始數據其實并不原始,原始數據往往會被扭曲,等 等。

除此,也有人以為,大數據最大的問題在于,它過分夸大了數據的作用,以為數據越多越好。事實上,我們最大的難題永遠都不是如何獲取數據,而是如何找到數據 之間的聯系,近十年來概率模型應用的規模一再擴大,可準確率卻停滯不前這個教訓不該被忘記。啤酒與尿布只是最表層數據挖掘,真正的數據處理比谷歌翻譯 復雜成千上萬倍,但即便谷歌翻譯已如此先進,你也別指望它信達雅。一個太平洋是水,加個大西洋也是一樣的水,數據規模到達一定程度之后,繼續 擴充的意義已經不大,沒有發現關聯,再多數據也百無一用,混雜性其實就是偽相關。

人人呼喚大數據,就像人人都呼喚要創新、要改革。然而,問題的難度永遠在于:如何創新,如何改革。我們需要大數據思維為我們點亮思想的火花,但同時必須正 視尋找數據關聯存在的巨大艱難。否則,大數據很容易成為一個空洞的原地打轉的話語,徒然給了很多人打了雞血般的魯莽和熱情,投入大量的人力物力財力,以為 挖到了一座金山,實際卻是一堆無用的數據。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢