
十個段子反思大數據
自2011年以來,大數據旋風以“迅雷不及掩耳之勢”席卷中國。毋庸置疑,大數據已然成為繼云計算、物聯網之后新一輪的技術變革熱潮,不僅是信息領域,經濟、政治、社會等諸多領域都“磨刀霍霍”向大數據,準備在其中逐得一席之地。
中國工程院 李國杰院士更是把大數據提升到戰略的高度,他表示數據是與物質、能源一樣重要的戰略資源。從數據中發現價值的技術正是最有活力的軟技術,在數據技術與產業上的落后,將使我們像錯過工業革命機會一樣延誤一個時代。
在這樣的認知下,“大數據”日趨變成大家“耳熟能詳”的熱詞。圖1所示的是谷歌趨勢(Google Trends)顯示的有關大數據熱度的趨勢,從圖1中可以看到,在未來的數年里,“大數據”的熱度可能還是“高燒不退”。
在大數據熱火朝天前行的路上,多一點反思,多一份冷靜,或許能讓這路走的更好、更遠?例如,2014年4月,大名鼎鼎的《紐約時報》發表題為《大數據帶來的八個(不,是九個?。﹩栴}》(Eight (No, Nine!) Problems With Big Data)的反思文章,其中文中的第九個問題,就是所謂的“大數據的炒作(we almost forgot one last problem: the hype)”。同樣為重量級的英國報刊《財經時報》(Financial Times,FT)也刊發了類似反思式的文章“大數據:我們正在犯大錯誤嗎?
在大數據熱炒之中,大數據的價值是否被夸大了?是否存在人造的“心靈雞湯”?大數據技術便利帶來的“收之桑榆”,是否也存在自己的副作用——“失之東隅”——個人的隱私何以得到保障?大數據熱炒的“繁華過盡”,數據背后的巨大價值是否還能“溫潤依舊”?在眾聲喧嘩之中,我們需要冷靜審慎地思考上述問題。
太多的“唐僧式”的說教,會讓很多人感到無趣。下文分享了10個從“天南地北”收集而來的小故事(或稱段子),從這些小故事中,可對熱炒的大數據反思一下,這或許能讓讀者更加客觀地看待大數據。有些小故事與結論之間的對應關系,或許不是那么妥帖,諸位別太較真,讀一讀、樂一樂、想一想就好!
故事01:醉漢路燈下找鑰匙——大數據的研究方法可笑嗎?
一天晚上,一個醉漢在路燈下不停地轉來轉去,警察就問他在找什么。醉漢說,我的鑰匙丟了。于是,警察幫他一起找,結果路燈周圍找了幾遍都沒找到。于是警察就問,你確信你的鑰匙是丟到這兒嗎?醉漢說,不確信啊,我壓根就不知道我的鑰匙丟到哪兒。警察怒從心中來,問,那你到這里來找什么?醉漢振振有辭:因為只有這里有光線??!
但不好笑的是,“烏鴉笑豬黑,自己不覺得”,這個故事也揭示了一個事實:在面臨復雜問題時,我們的思維方式也常同這個醉漢所差無幾,同樣也是先在自己熟悉的范圍和領域內尋找答案,哪怕這個答案和自己的領域“相隔萬里”!
還有人甚至認為,醉漢找鑰匙的行為,恰恰就是科學研究所遵循的哲學觀。前人的研究成果,恰是是后人研究的基石,也即這則故事中的“路燈”。到路燈下找鑰匙,雖看來有些荒唐,但也是“無奈之下”的明智之舉。
數據那么大,價值密度那么低,你也可以去分析,但從何分析起?首先想到的方法和工具,難道不是當下你最熟悉的?而你最熟悉的,就能確保它就是最好的嗎?
沃頓商學院著名教授、紐約時報最佳暢銷書作者 喬納·伯杰(Jonah Berger)從另外一個角度,解讀這個故事:在這里,浩瀚的黑夜就是如同全數據,“鑰匙”就好比是大數據分析中我們要找到的價值目標,他認為,“路燈”就好比我們要達到這個目標的測量“標尺”,如果這個標尺的導向有問題,順著這個標尺導引,想要找到心儀的“鑰匙”,是非常困難的!在我們癡迷于某項自己熟悉的特定測量標尺之前,一定要提前審視一下,這個測量標尺是否適合幫助我們找到那把“鑰匙”,如果不能,趕快換一盞“街燈”吧!
如果在黑暗中丟失的鑰匙,是大數據中的價值,那這個價值也太稀疏了吧。下面的故事,讓我們聊聊大數據的價值。
故事02:顛簸的街道——對不起 “n=All” 只是一個幻覺
波士頓市ZF推薦自己的市民,使用一款智能手機應用——“顛簸的街道(Street Bump,網站訪問鏈接:http://www.streetbump.org/)”。這個應用程序,可利用智能手機中內置的加速度傳感器,來檢查出街道上的坑洼之處——在路面平穩的地方,傳感器加速度值小,而在坑坑洼洼的地方,傳感器加速度值就大。熱心的波士頓市民們,只要下載并使用這個應用程序后,開著車、帶著手機,他們就是一名義務的、兼職的市政工人,這樣就可以輕易做到“全民皆市政”。市政廳全職的工作人員就無需親自巡查道路,而是打開電腦,就能一目了然的看到哪些道路損壞嚴重,哪里需要維修。
波士頓市ZF也因此驕傲地宣布,“大數據,為這座城市提供了實時的信息,它幫助我們解決問題,并提供了長期的投資計劃”。著名期刊《連線》(Wired)也毫不吝嗇它的溢美之詞:這是眾包(Crowdsourcing)改善ZF功能的典范之作。
眾包是《連線》雜志記者Jeff Howe于2006年發明的一個專業術語,用來描述一種新的商業模式。它以自由自愿的形式外包給非特定的大眾網絡的做法。眾包利用眾多志愿員工的創意和能力——這些志愿員工具備完成任務的技能,愿意利用業余時間工作,滿足于對其服務收取小額報酬,或者暫時并無報酬,僅僅滿足于未來獲得更多報酬的前景。
然而,從一開始,“顛簸的街道”的產品設計就是有偏的(bias),因為使用這款App的對象,“不經意間”要滿足3個條件:(1)年齡結構趨近年輕,因為中老年人愛玩智能手機的相對較少;(2)使用App的人,還得有一部車。雖然有輛車在美國不算事,但畢竟不是每個人都有;(3)有錢,還得有閑。前面兩個條件這還不夠,使用者還得有“閑心”, 想著開車時打開“顛簸的街道”這個App。想象一下,很多年輕人的智能手機安裝的應用程序數量可能兩位數以上,除了較為常用的社交軟件如Facebook或Twitter(中國用戶用得較多的是微博、微信等)記得開機運行外,還有什么公益軟件“重要地”一開車就記得打開?
“顛簸的街道”的理念在于,它可以提供 “n=All(所有)”個坑洼地點信息, 但這里的“n=All(所有)”也僅僅是滿足上述3個條件的用戶記錄數據,而非“所有坑洼點”的數據,上述3個條件,每個條件其實都過濾了一批樣本,“n=All”注定是不成立的。在一些貧民窟,可能因為使用手機的、開車的、有閑心的App用戶偏少,即使有些路面有較多坑洼點,也未必能檢測出來。
《大數據時代》的作者 舍恩伯格 教授常用“n=All”,來定義大數據集合。如果真能這樣,那么就無需采樣了,也不再有采樣偏差的問題,因為采樣已經包含了所有數據。
暢銷書《你的數字感:走出大數據分析與解讀的誤區》(Numbersense: How to Use Big Data to Your Advantage)的作者、美國紐約大學統計學教授 Kaiser Fung,就毫不客氣地提醒人們,不要簡單地假定自己掌握了所有有關的數據: “N=All(所有)”常常僅僅是對數據的一種假設,而不是現實。
微軟-紐約首席研究員 Kate Crawford 也指出,現實數據是含有系統偏差的,通常需要人們仔細考量,才有可能找到并糾正這些系統偏差。大數據,看起來包羅萬象,但“n=All”往往不過是一個頗有誘惑力的假象而已。
“n=All”,夢想很豐滿,但現實很骨感!
但即使具備全數據,就能輕易找到隱藏于數據背后的有價值信息嗎?請接著看下面的故事。
故事03:園中有金不在金——大數據的價值
人們在描述大數據時,通常表明其具備4個V特征,即4個以V為首字母的英文描述:Volume(體量大)、Variety(模態多)、Velocity(速度快)及Value(價值大)。前三個V,本質上,是為第四個V服務的。試想一下,如果大數據里沒有我們希望得到的價值,我們為何還辛辛苦苦這么折騰前3個V?
英特爾中國研究院院長 吳甘沙先生說,“鑒于大數據信息密度低,大數據是貧礦,投入產出比不見得好?!薄都~約時報》著名科技記者Steve Lohr,在其采訪報道“大數據時代(The Age of Big Data)”中表明,大數據價值挖掘的風險還在于,會有很多的“誤報”發現,用斯坦福大學統計學教授 Trevor Hastie 的話來說,就是“在數據的大干草垛中,發現有意義的“針”,其困難在于“很多干草看起來也像針(The trouble with seeking a meaningful needle in massive haystacks of data is that “many bits of straw look like needles)”
針對大數據的價值,李國杰院士借助中國傳統的寓言故事《園中有金》,從另外一個角度,說明大數據的價值,寓言故事是這樣的:
有父子二人,居山村,營果園。父病后,子不勤耕作,園漸荒蕪。一日,父病危,謂子曰:園中有金。子翻地尋金,無所得,甚悵然。是年秋,園中葡萄、蘋果之屬皆大豐收。子始悟父言之理。
人們總是期望,能從大數據中挖掘出意想不到的“大價值”??衫顕茉菏空J為,實際上,大數據的價值,主要體現在它的驅動效應上,大數據對經濟的貢獻,并不完全反映在大數據公司的直接收入上,應考慮對其他行業效率和質量提高的貢獻。
大數據是典型的通用技術,理解通用技術的價值,要懂得采用“蜜蜂模型”:蜜蜂的最大效益,并非是自己釀造的蜂蜜,而是蜜蜂傳粉對農林業的貢獻——你能說秋天的累累碩果,沒有蜜蜂的一份功勞?
回到前文的小故事,兒子翻地的價值,不僅在于翻到園中的金子,更是在于翻地之后,促進了秋天果園的豐收。在第03個小故事中,醉漢黑暗中尋找的鑰匙,亦非最終的價值,通過鑰匙打開的門才是。
對于大數據研究而言,一旦數據收集、存儲、分析、傳輸等能力提高了,即使沒有發現什么普適的規律或令人完全想不到的新知識,也極大地推動了諸如計算機軟硬件、數據分析等行業的發展,大數據的價值也已逐步體現。
李國杰院士認為,我們不必天天期盼奇跡出現,多做一些“樸實無華”的事,實際的進步就會體現在扎扎實實的努力之中。一些媒體總喜歡宣傳一些抓人眼球的大數據成功案例。但從事大數據行業的人士,應保持清醒的頭腦:無華是常態,精彩是無華的質變。
如果把“大數據”比作農夫父子院后的那片土地,那么土地的面積越大,會不會能挖掘出的“金子”就越多呢?答案還真不是,下面的故事我們說說大數據的大小之爭。
故事04:蓋洛普抽樣的成功——大小之爭,“大”數據一定勝過小抽樣嗎?
1936年,民主黨人 艾爾弗雷德·蘭登(Alfred Landon)與時任總統 富蘭克林·羅斯福(Franklin Roosevelt)競選下屆總統?!段膶W文摘》(The Literary Digest)這家頗有聲望的雜志承擔了選情預測的任務。之所以說它“頗有聲望”,是因為《文學文摘》曾在1920年、1924年、1928年、1932年連續4屆美國總統大選中,成功地預測總統寶座的歸屬。
1936年,《文學文摘》再次雄赳赳、氣昂昂地照辦老辦法——民意調查,不同于前幾次的調查,這次調查把范圍拓展得更廣。當時大家都相信,數據集合越大,預測結果越準確?!段膶W文摘》計劃寄出1000萬份調查問卷,覆蓋當時四分之一的選民。最終該雜志在兩個多月內收到了驚人的240萬份回執,在統計完成以后,《文學文摘》宣布,艾爾弗雷德?蘭登將會以55比41的優勢,擊敗富蘭克林·羅斯福贏得大選,另外4%的選民則會零散地投給第三候選人。
然而,真實的選舉結果與《文學文摘》的預測大相徑庭:羅斯福以61比37的壓倒性優勢獲勝。讓《文學文摘》臉上掛不住的是,新民意調查的開創者 喬治·蓋洛普(George Gallup),僅僅通過一場規模小得多的問卷——一個3000人的問卷調查,得出了準確得多的預測結果:羅斯福將穩操勝券。蓋洛普的3000人“小”抽樣,居然挑翻了《文學文摘》240萬的“大”調查,實在讓專家學者和社會大眾跌破眼鏡。
顯然,蓋洛普有他獨到的辦法,而從數據體積大小的角度來看,“大”并不能決定一切。民意調查是基于對投票人的大范圍采樣。這意味著調查者需要處理兩個難題:樣本誤差和樣本偏差。
在過去的200多年里,統計學家們總結出了在認知數據的過程中存在的種種陷阱(如樣本偏差和樣本誤差)。如今數據的規模更大了,采集的成本也更低了,“大數據”中依然存在大量的“小數據”問題,大數據采集同樣會犯小數據采集一樣的統計偏差。我們不能掩耳盜鈴,假裝這些陷阱都已經被填平了,事實上,它們還都在,甚至問題更加突出。
蓋洛普成功的法寶在于,科學地抽樣,保證抽樣的隨機性,他沒有盲目的擴大調查面積,而是根據選民的分別特征,根據職業、年齡、膚色等在3000人的比重,再確定電話訪問、郵件訪問和街頭調查等各種方式所在比例。由于樣本抽樣得當,就可以做到“以小見大”、“一葉知秋”。
《文學文摘》的失敗在于,取樣存在嚴重偏差,它的調查對象主要鎖定為它自己的訂戶。雖然《文學文摘》的問卷調查數量不少,但它的訂戶多集中在中上階層,樣本從一開始就是有偏差的(sample bias),因此,推斷的結果不準,就不足為奇了。而且民主黨人艾爾弗雷德?蘭登的支持者,似乎更樂于寄回問卷結果,這使得調查的錯誤更進了一步。這兩種偏差的結合,注定了《讀者文摘》調查的失敗。
我們可以類比一下《文學文摘》的調查模式,試想一樣,如果在中國春運來臨時,在火車上調查,問乘客是不是買到票了,即使你調查1000萬人,這可是大數據啊,結論毫無意外地是都買到了,但這個結果無論如何都是不科學的,因為樣本的選取是有偏的。
當然,采樣也是有缺點的,如果采樣沒有滿足隨機性,即使百分之幾的偏差,就可能丟失“黑天鵝事件”的信號,因此在全數據集存在的前提下,全數據當然是首選(但從第02故事中,我們可以看到,全數據通常是無法得到的)。對針對數據分析的價值,英特爾中國研究院院長吳甘沙先生給出了一個排序:全數據>好采樣數據>不均勻的大量數據。
大數據分析技術運用得當,能極大地提升人們對事物的洞察力(insight),但技術和人誰在決策(decision-making)中起更大作用?在下面的“點球成金”小故事,我們聊聊這個話題。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25