
大數據三問:大數據“熱”的冷思考
大數據概念的形成和發酵,在當今社會引發了人們無限的遐想和期待,也受到普遍的歡迎和推崇,甚至有人不斷編造出關于大數據無所不能的種種現代神話。這種令不少人癲狂、著迷的東西是否真的“法力無邊”,我們不妨試發三問。
大數據的特點在“大”,是否越大越好?
回答是不一定。
人類對世界的認識,首先是感知信息。但問題在于,人類許多方面的感知能力卻不如普通動物,比如人的嗅覺不如狗,聽覺不如貓,視覺不如鷹等等。
難道高級動物竟然比不上低等動物?顯然不是。奧秘在于人類相對普通動物而言,長處在思維。思維之花乃是生物進化的杰作,人類憑借思維之利器,便可以通過科學技術手段,根據需要延長自身的器官,最后實現各方面能力都遠在一般動物之上。在此過程中,關鍵是計算機技術的發展,得以替代人的部分邏輯思維,能夠進行大規模數據的快速處理,從而使得我們在面對大數據時,不至于心懷畏懼。
20世紀以來科技領域看起來碩果累累,但真正具有顛覆性意義的發現卻如鳳毛麟角,甚至不及19世紀。問題何在?數字化的數據固然有利于從中發現規律,但這類數據在整個大數據庫中所占份額極小,何況還有一個魚龍混雜問題。至于那些尚未數字化的數據,尤其是那些似是而非、眾說紛紜的數據,顯然并非越多越好。
事實上,就人類認識而言,也有減材加工與增材加工兩種方式。毛澤東在《實踐論》中所說的去粗取精、去偽存真、由此及彼、由表及里的認識過程,其實就是講的真理性認識有增有減的過程。當年第谷觀察天象,所做工作就是增加數據;而開普勒總結天體運行規律,所做工作則屬刪繁就簡。如果說數據的增加意味著真理性認識的增加,那么數據的減少則意味著真理性認識的深化和升華,何嘗不值得我們同樣為之喝彩?
大數據 的亮點在“數”,是否萬物皆數?
回答是不可能。
數字的發明,是人類抽象思維能力發展的產物。而發現數字之間的某些關聯,曾經更使人類欣喜若狂,畢達哥拉斯甚至據此作出了“萬物皆數”的斷言。大數據之所以吸引人們眼球,噱頭就在“數”上,似乎一切化歸于數,就可萬事大吉,適合數字化生存的時代要求了。
應該看到,世界在演化的進程中,特別是生命體和人類社會誕生后,正負二分的表征法就變得越來越不適用了,無論是模擬仿真技術的興起,還是復雜化方法的運用,都說明這種建立在非此即彼的認識論基礎上的進位法,其實是形而上學思維方式在信息時代的反映。
由此可見,所謂的數據其實有兩類,一類是可以實現數字化的數據,人類可以輕而易舉地將它的處理任務付之電腦,進而從中發現規律、把握規律。而另一類不可數字化或者說很難實現數字化的數據,則還是必須依靠人腦的判斷與解讀。1948年美國的“驢象”之爭中,蓋洛普的配額抽樣方法以及其他民意調查機構之所以遭遇“滑鐵盧慘敗”,就是因為過于迷信數據,而這種建立在數字基礎上的所謂“科學”方法,其實經實踐檢驗后被發現并不科學。過去這些年來,定量評估在世界各地盛行,人們動輒以各式各類指標體系肢解復雜事物和系統,最后鬧出許多笑話,正說明現代的數字崇拜照樣是此路不通。
大數據的基點在“據”,是否據實逼真?
回答是不見得。
信息技術的推廣應用同樣是一把雙刃劍,它在為人們提供無限便利的同時,也為數據造假及其傳播洞開了方便之門。據《環球科學》2014年12月載文,生物科技風投資本家有一個經驗法則:一半公開發表的科研成果都無法復制,這還是最樂觀的估計。2012年,生物科技公司安進發現,在關于癌癥研究的53項重大成果中,只有6項可被復制。稍早前,拜耳制藥公司的一個團隊重新開展了67篇有重要影響的論文所做過的實驗,最終成功的卻只有四分之一。本世紀最初10年,應用于臨床的研究專利大約有8萬份被撤銷,因為它們都是錯誤的。
面對如此龐大的虛假數據,你還會相信大數據即未來石油的神話嗎?美國科學計量學家普賴斯曾在上世紀50年代就得出科學知識呈指數增長的結論,其依據是各國期刊文獻的數量增長。此后,有關知識爆炸的說法甚囂塵上?,F在回頭看,普賴斯的判斷未免草率,因為期刊文獻數量與人類知識量顯然是不能畫等號的,否則就會得出撤銷某些期刊就是限制知識增長的荒唐結論。
總之,科學的發展在深刻改變人類生產生活方式的同時,也制造了許多令人目不暇接的神話。當泥沙俱下且呈雪崩式的大數據襲來時,我們更應保持一個清醒的頭腦,用中國的古訓來說,就是要防止以目廢心。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25