
大數據的泡沫、價值和陷阱,你分得清嗎
大數據源起:對未來不確定性的恐懼
我們所生活的世界,就像一片混沌(chaos),大數據時代,我們周圍更是充斥著各種不同的理論、知識、信息和噪音,數據爆炸式增長和科技高速發展所帶來的沖擊,加大了未來的不確定性。當我們接收的數據和信息越多,面臨的選擇就越多,如若不善于過濾、挖掘和處理,對各種決策就可能會造成負面影響,當然也會放大我們對未來不確定性的恐懼。小到個人命運大到國家前途,都是在這樣一片混沌中煎熬著。
如何從混沌中發現規律,成為預測未來的“先知”,抑或是少出幾只黑天鵝?是歷代人類的夢想,不管是古人的占卜、算命還是現在的專家系統、商業智能、數據挖掘、機器學習、人工智能、智慧地球、智慧城市等應用,都源于我們對未來不確定性的恐懼。當然還有應對當前管理走向的失控,軟件在加速吞噬世界,而大部分人類對其原理和特性卻知之甚少,就像華爾街的金融交易一樣,系統越復雜出現黑天鵝的概率就會增大;社交網絡的實時性打破了時空限制,信息的流動速度和廣度讓也管理者越發難以掌控。隨著舍恩伯格教授《大數據時代》一書的面世,給我們帶來了“醍醐灌頂”式的認知洗禮,難道抓住大數據這根救命稻草,我們就有機會做“先知”?從而也更有能力把自己和周遭世界管理得更好嗎?在一定程度上是這樣的,但我們也要知道,任何技術都是把雙刃劍。
舍恩伯格其實沒有機器學習背景,書上所說的某些內容也是有爭議的,不過在教育民眾和政府官員科普方面,還是具有重要意義,至少讓大家知道了什么是大數據,也能在一定程度上促使我們思考大數據的價值和潛力,從而提升大數據應用水平以應對管理失控和黑天鵝等問題。
大數據泡沫:
泡沫是必然但有其深遠意義
數據科學其實已經興起多年,從早年的專家系統、數據挖掘到前些年的商業智能,不少大型企業和機構在管理大數據方面積累了豐富的經驗,筆者10年前就曾參與過運營商的數據挖掘系統建設,那都是實實在在的大數據,只不過當時技術手段有限罷了,所以很少人能挖出什么高價值的東西,更談不上智能化決策了。但這些年的技術積累和數據積累,卻是極大地促進了大數據領域的發展,不然也沒有那么多人認同舍恩伯格教授書中的觀點。
甲骨文公司CEO埃里森曾說過,高科技是唯一能媲美好萊塢的產業,說明高科技領域的技術明星也是變換極快的。技術和產品一樣,有其發展周期規律,大數據也只是一種技術手段,最終目的還是要解決現實問題,不管是科研、商業還是政府管理問題。關注大數據的人多了,自然就有泡沫,個人認為泡沫主要體現在如下幾個方面:
(1)這幾年社會上關于大數據的宣傳,媒體人的引進和炒作,有部分內容是在誤導大家,主要原因還是很多人在盲人摸象,少有系統的研究和理解。
(2)只知其然不知其所以然,導致對大數據應用的期望太高,大數據技術不是萬金油,在新的技術泛型和技術生態下,現階段技術的穩定性、成熟性和有效性還待進一步發展。
(3)關注重點有問題,導致目前的很多大數據應用并未涉及到核心業務和計算模型,多是數據的采集和存儲管理,這也是造成行業整體門檻還不夠高,同質化競爭激烈,沒有發揮出應有價值的原因。大數據泡沫顯然是客觀存在的,但其長期的應用價值卻不容小覷,泡沫不代表沒有價值,就像2000年的互聯網泡沫,泡沫破滅之后的涅磐,讓人類真正跨入了互聯網時代。大數據泡沫的價值就是讓全民認識到大數據時代數據分析和數據決策的重要性,這波泡沫過去,也許我們能正式跨入人工智能時代。
大數據價值:
需要你自己去定義
大數據絕不只是數據大,不能光看字面意思??梢哉f大數據是一套技術體系,可以說是一種認知挖掘過程,也可以說是一種方法論和管理決策思維。
我們要搞懂大數據的價值,首先繞不開數據挖掘(或更窄的機器學習、或更廣義的人工智能技術)。數據挖掘(DataMining),又稱為資料探勘、數據采礦,或數據庫知識發現(Knowledge-Discovery in Databases,KDD)。數據挖掘一般是指從大量的數據中通過各種算法挖掘隱藏于其中的規律和有價值信息的過程,通常通過統計方法、機器學習、專家系統、模式識別和在線分析處理等諸多方法來實現上述目標。
現階段大數據領域注重數據采集、數據存儲、基礎計算和可視化等層面,唯獨對數據挖掘建模和決策支持這兩個硬骨頭沒有展開深入研究和對接,這是大數據難以落地的根本原因。我們大多數人決策其實是靠感覺、個人經驗或別人建議,少部分人會親自對報表等小數據進行客觀數據分析。
而大數據為我們提供了一種更加可靠的決策支持,畢竟數據不會說假話。大數據本身不產生價值,大數據的根本用途是利用大數據挖掘分析對我們的決策提供規律、知識和經驗等科學依據,客觀上減少面對未來決策的不確定性。所以,以業務決策支持為分析目標,大數據不靠大,小數據也一樣有大價值。為什么大數據的價值需要我們自己去定義呢?因為對于未來、對于未知領域,我們每個人或組織面臨的不確定性問題是不一樣的,有的偏個體(如疾病診斷,犯罪預測),有的偏大眾(如廣告營銷、客戶細分),有的偏微觀(如基因序列,個性化教育),有的偏宏觀(環境監測、天文數據處理),有的關注資源優化配置(如供需匹配,出行服務),有的關注宏觀決策(如政府資產分析、綜合管控)…可以說大數據分析需求無處不在,而又大不相同。這就需要從自身實際需求和數據、技術現狀出發,自行設定大數據分析的價值和應用目標,生搬硬套互聯網公司那套做法,不可取。
大數據陷阱:
應用前先問自己幾個問題
綜上所述,大數據無疑是好東西,很多組織機構也正在規劃或建設大數據平臺,很多創業玩家也正在計劃或進行大數據領域的技術服務或產品研發。但大數據領域面臨的陷阱也是不少,光看大數據、云計算、機器學習、數據挖掘、人工智能、深度學習、分布式計算等目不暇接的技術和概念,就夠眼花繚亂了,要真正理解各種技術的原理及相互聯系就更難,如何才能不畏浮云遮望眼,走出一條扎實的大數據應用落地之路。我以個人粗淺的理解提幾個問題供大家參考:
(1)第一問:我屬于什么級別的玩家?
大數據的核心優勢在于規模效應,你的業務量越大、業務覆蓋性越廣、數據量越大,大數據投入的成本就越容易被攤薄,而長遠獲取的大數據應用價值就越巨大。所以,我一直認為政府才是最適合大數據應用的超級玩家,這也是為什么大數據獨角獸企業Palantir的產品只有政府定制版(FBI,CIA專用)和金融定制版(華爾街金融巨頭專用)的原因!一般企業或個人根本玩不起大數據,小的個體只能像《黑客帝國》的孵化人為Matirx系統提供生物電池一樣,為超級玩家貢獻數據和技術還差不多。所以做大數據之前,先問問自己,我屬于什么級別的玩家。我有特定領域的海量數據嗎?有數據科學能力相關的核心技術(應用建模)嗎?有機會成為BAT嗎?或者降一級有機會成為Uber、滴滴、摩拜嗎?研發的產品能否等到大規模應用之時?提供的技術是否符合客戶的業務需求?因為一般來講,大數據的初始投入成本是很高的,自我定位很關鍵。當然成不了甲方還是可以做乙方,成不了BAT還是有機會被BAT收購的,另外采用敏捷大數據方法論,也有低成本的玩法。
(2)第二問:我是搞技術驅動、業務驅動還是數據驅動?
當前不少公司的大數據產品和服務不接地氣,從開始規劃上就有一定問題。很多公司都號稱自己有云計算和大數據方面的產品和服務,覆蓋面從Hadoop、Spark、MPP、NOSQL、OpenStack等,到公有云、私有云、商業智能、人工智能、深度學習等等方面,偌大一片浮云,客觀上促進了大數據領域的技術高速發展,可惜最終少有幾家能活到賺錢。首先,大數據領域,沒有幾把刷子是很難玩技術驅動的,像Hadoop,Spark這些基礎框架,AlphaGo系統、Nvidia的核心產品等,后面都有一幫名校博士、教授等技術大牛的身影在支持;其次,業務驅動最靠譜,但要有足夠的創新和資本支持,最近幾年出現的Uber、滴滴、摩拜、Airbnb、23andMe、貨車幫等創新公司,就是典型的業務驅動型大數據企業,對傳統社會和商業的沖擊也是顛覆性的,如果能有極好的創意和資本支持,走這條路發展潛力巨大;而政府和大型壟斷國企擁有真正的大數據金礦,有數據+業務驅動的條件,但由于自身管理體制原因或引入的技術實力太弱,大數據的價值遠遠沒有被挖掘出來,當然這也是大機會,我們的國安部門也需要中國版的Palantir。所以大數據應用要接地氣,結合自身實力,問問自己搞技術驅動、業務驅動還是數據驅動,是最需要回答的問題。
(3)第三問:我是否清楚大數據應用的局限?
現階段,大數據應用面臨諸多挑戰,新技術泛型下標準的大數據應用體系尚未建立,技術復雜度和風險較高,成功案例和最佳實踐缺乏。很多企業和機構都知道大數據潛力巨大,但卻不知如何著手,更不清楚大數據應用有哪些局限和潛在的問題。伯克利的Jordan教授是機器學習領域大牛,他提出了一個很好的比喻:如果大數據給出的結果可靠性低,沒有經過充分的驗證,就急于應用到實際業務中,會面臨很大的風險,就好比是土木工程都沒學好就開始造橋,結果只能造出“豆腐渣工程”。所以我們要充分了解大數據技術的局限性,數據采集的不全面必然導致數據偏見,數據質量的問題會導致GarbageInGarbageOut,我們對分析結果的不理解,或者不進行持續反饋驗證升級,就無法確認模型的準確性和穩定性,另外《大數據時代》一書中所說的關注相關性不重視因果分析,也會導致一系列問題。數據科學發展到現階段,從某種程度上講還不是一個足夠嚴謹的學科,我們有一定的概率做出準確的預測,但是使用不當或預測不準,又會造成不好的后果。顯然Jordan教授很擔心現在公眾對大數據技術的熱情,并不是基于對這個領域的深入理解,但是他堅信大數據領域未來會誕生很多重要的應用,就像AlphaGo系統花一晚時間,自我學習幾百萬盤棋才戰勝李世石,對于新興技術,我們不能高估它但更不能低估。鑒于此,我們需要對大數據的數據質量及技術偏差等做更細致的考察和評估,搞清楚大數據應用技術所面臨的限制及問題,才能走得更穩更遠。
(4)第四問:我是否準備好打一場大數據應用持久戰?
我在《大數據應用從小做起?談微服務和大數據架構》一文中有提到過,大數據項目如何頂天立地:立地就是要落實到一個個要解決的具體問題,基于業務和數據驅動;頂天就是要規劃得目標長遠,大數據系統不是搞一錘子買賣,沒有一勞永逸的做法。特別是大型企業、機構或政府的大數據系統,一定不能是傳統MIS系統的做法,大數據是個動態增量系統,數據規模在變,業務在變,模型在變,參數在變,核心技術模型的迭代、優化、持續升級及交付將是常態,長期目標應該是智能化的綜合管控,從企業的生產、產品、銷售、服務各個環節的一體化智能管控中心,政府各部門聯席的智能服務和決策中心,好比GoogleBrain,BaiduBrain,大型企事業單位和政府也需要未來的數字決策大腦。從某種程度上講,大數據的關鍵不在于具體項目,而在于數據決策中心的持續優化與運營,大數據系統建設要作為一個長遠的事業來做,讓每個成員都融入大數據管理思維變革過程中。我在《說說敏捷大數據》一文中提出了“快、小、證”大數據應用原則,對一個具體的大數據項目來講,能做到快速出原型,小分析點切入,證明有效之后再擴張的原則,就不用懼怕失敗,失敗后切換到下一個分析目標即可。由于大數據項目前期的實際投入成本遠遠大于收益,這就更需要精耕細作,打一場大數據應用持久戰,可以從小處著手,逐步構建統觀全局的分析鏈,從而建立組織未來的大數據中心和基于大數據分析的輔助決策大腦。
(5)第五問:我是否了解大數據風險與數據偏見?
大數據時代,信息意味著權利,不同層級的信息代表不同層次的權利。這使得大數據集中之后也面臨著技術風險、成本風險、安全風險和管理風險等多個層面的問題,每個層級玩家面臨的風險各有側重,需要充分引起重視。大數據處理基于全新的技術泛型,新技術生態下技術本身的穩定性、成熟性、擴展性等有風險;隨著數據爆炸增長需要存儲、計算包括電力等資源的持續投入,面臨成本風險(所以才有云計算的需求);面對大數據信息權的誘惑,黑客們的犯罪動機也比以往任何時候更強烈,黑客組織性更強,更加專業,敏感數據入侵風險急劇增加;在數據管理方面還需要面對數據缺失(大數據的分析在于全量分析,任何一方面的數據缺失,都會讓算法產生偏見)、數據質量低下、被操控的假數據(如水軍刷榜)等方面的問題。
(6)第六問:我是否理解并能貫徹大數據思維?
大數據時代,數據驅動決策是我們的必然選擇,畢竟事實勝于雄辯,數據能最大限度地說明問題,數據能讓你了解一些以前根本都不知道的事情,除了本身質量的問題,數據不會說謊,通過大數據挖掘進行量化分析有助于精細化管理和運營,這是大數據思維的核心所在。不管是企業、機構還是政府,在做大數據規劃或應用之前,先問問自己,組織人員理解數據決策嗎?大數據能為他們帶來怎樣的好處?各級領導有沒有大數據決策基因或者這種思維變革的驅動力?所以從數據決策角度講,未來大數據思維在各行各業的滲透和如火如荼的大數據系統建設不亞于一場數據爆炸時代的管理變革“啟蒙運動”。這場運動由互聯網企業發起并逐漸繁榮,當大數據思維在傳統企業、機構和政府普及并落地應用之時,很可能就是通用人工智能時代的開始。
大數據展望:
當大數據傍上人工智能
最后,做一點展望,談談大數據和人工智能,在《深度學習的“深度”價值是什么》一文中,我提到過大數據和人工智能的共生關系,對連接主義學派來講,沒有大數據就沒有智能,同樣,沒有人工智能的算法支持,特別是深度學習這一波技術熱潮的推動,大數據的價值也很難被發掘出來。所以大數據傍上人工智能是IT技術發展的必然。另外大數據與傳統商業智能技術在加速融合,如OLAP多維度分析、數據倉庫等技術也在向大數據處理靠攏。大數據的核心價值在于全量數據分析,而全量數據意味著智能誕生的基礎,初級智能誕生之后會給系統以反哺和回饋數據,就像AlphaGo的強化學習和自我對抗學習一樣(嬰幼兒自己游戲玩耍同理),通過這種自我學習迭代過程,強人工智能誕生,人類正式跨入AI時代。那個時候的若干企業大數據中心、政府大數據中心和地球上的數朵大云,將會插上智能科學的翅膀,成為AI時代的關鍵基礎設施,到時大數據技術如何演化,國家又會呈現出怎樣的社會形態,讓我們拭目以待。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24