
“大數據”還不等于“大智慧”_數據分析師
技術開發商和媒體早早地為我們描繪了一個即將來臨的“大數據時代”?!按髷祿睙o所不知無所不能;有了“大數據”的支持,公司運行效率突飛猛進;“大數據”還能幫你做出最明智的決策,使你的公司所向披靡。簡直不要太棒!但是在這里提醒各位,正如所有的高科技宣傳一樣,“大數據”也不可避免地被炒作夸大。于是,你還相信未來嗎?
近幾年以來,“大數據”已經傳得沸沸揚揚。技術開發商和媒體記者鋪天蓋地式的宣傳,你怎么可能不知道“大數據”?即使不知道也總會聽說過。讓我們來看看他們是怎么大力宣傳所謂的“大數據”:“大數據”無所不知無所不能;有了“大數據”的支持,公司運行效率突飛猛進;“大數據”還能幫助你了解數據,做出最明智的決策,使你的公司時刻都充滿了競爭優勢。
多么具有誘惑力的宣傳!當然我們不能百分之百地說報道違背了事實。只是人們對于高科技的宣傳總是過于樂觀超前。事實上,很多公司都發現以目前的條件實現“大數據”困難重重,理想很豐滿,現實卻很骨感。的確,在數據的收集和處理方面,可能具有可觀的優勢。但真正的使用這些數據、乃至借助這些制定更優化的決策則完全又是另一回事。那么問題出在哪里呢?多數公司表示在“大數據”和對大數據的“大理解”之間,缺少了某個重要的聯系。如果這個問題得不到解決,那么人們只是空有一堆看似有用的數據,卻難以從中挖掘出有用的價值。
正如硅谷的一名資深業內人士最近透露,盡管從近日創業公司的活動和融資情況來看,大數據的數據采集和處理似乎受到廣泛關注,但是現實和預期之間的巨大差距依然無法視而不見。他說,“大數據還沒有真正轉化為大認識、大洞見和大智慧?!币运麄兊念A測,我們離真正的“大數據”時代還有很長的一段路要走。
炒作和現實,不可混為一談
我們希望從大數據中獲取價值的方法越簡單越好,比如導入數據,運行程序,最后得出富有遠見的結論。你覺得這可能嗎?如果智慧那么容易獲得,那人人都可以是喬布斯了。事實上,從大數據中獲得有價值的信息遠比“導入、運行、輸出三部曲”要復雜得多?!啊稊祿A測:大數據戰略》(Data Divination:Big Data Strategies)”一書的作者帕姆·貝克(Pam Baker)說,數據直接給出答案的實例確實存在,但只存在于特定的情況下,鮮有發生。我們不能寄希望于例外,我們需要的是普遍規律。
“也許,有人會辯解說,我們可以舉出很多例子,在這些例子中,數據往往可以給出非常明確的答案。比如預測分析學可以精確地預測出飛機或供水系統中的某個零部件的報廢時間,還能告訴我們替換零部件的最佳時間,以便于在舊部件報廢之前最大化地利用其剩余價值?!必惪私忉尩?。
“但是,”她馬上又強調,“更多的情況下,我們是沒有辦法直接獲得想要的答案的。你可以從諸多可能的行為中選擇一個或者什么都不做,具體情況具體分析,這才是我們所面臨的真實情況?!?/span>
貝克一語中的。一些基于數據的決策的確是這樣。數據不是“冰冷的數字”,它們是“多愁善感的精靈”,正如布魯斯·斯普林斯汀在一首歌中唱道,它們需要“一點點的人情味”。人們可以通過開發良好的指標和強大的算法來挖掘數據。但這遠遠不夠,人們必須通過自己的認識和見解才能真正地了解數據的“內心世界”,才能充分利用數據背后的價值。有的數據很“直白”,有的卻很“委婉”,我們不能一概而論。
算法的局限性
進一步說,我們更希望大數據可以讓企業用戶直接即時地訪問數據,這樣他們就可以隨時隨地、有如神助般的做出每一個最佳決策。愿望是美好的,只不過以我們當前的技術條件來看,我們還達不到這么復雜神奇的水平。
要做到這一點,首先我們需要足夠多的數據專家來幫助我們分析處理數據,從大量的信息中提取出有效信息。同Kholsa Ventures一道投資了數家大數據技術公司(例如Parstream)的投資者基斯·拉波斯表示,公司非常需要一個數據專家來指導處理復雜數據分析,只不過大多數的企業用戶很難做到這一點。
拉波斯說,你會需要這些數據專家來開發應用和算法,承擔大量的數據研究任務。但是在已經擁有這些數據專家的公司里,這些數據專家也并非一直在從事這些高級復雜的數據工作,大概部分原因是由于他們需要花時間去處理一些比較簡單的數據分析。數據專家的才能在這里大大地被埋沒了。
在最理想的情況下,拉波斯繼續說道,數據專家開發出一套工具,當有一方需要答案時可以迅速地在整個組織里尋找分析的答案。在現今這個時代,速度就是一切。我們最不希望看到發生的事情就是,當我們急切地需要答案時,我們只能寄希望于數據專家,然后被動地等待。
出發點固然是好的,但問題在于即使是最聰明的人開發出了最復雜的算法,對于復雜的問題仍然沒有最直接的答案。無論多么復雜的算法,也無法做到全盤考慮,對于難以衡量的特定因素更加束手無策。如果某個算法可以全部做到這些,那就無異于人類的大腦,屆時麻煩可能更大了。
我需要一個優秀的“中場手”
棒球比賽可以幫助我們更好地理解算法的局限性——水平相當的兩個選手,他們的表現可以相去甚遠。數據極客們會告訴你,經過多年的研究開發,他們創造了Sabermetrics算法,可以為你提供挑選最佳球手所需要的所有決策信息。他們還開發了一整個系列的數據統計算法,比如“替換勝率(Wins Above Replacement)”。FanGraphs對“替換勝率”的解釋如下:“如果某一個隊員負傷不能上場,他們的球隊不得不找一個次級棒球聯賽球隊隊員或者‘稍遜一籌’的板凳球員做替補時,損失有多少?”對此,他們采用了一系列標準來衡量計算兩者之間的勝率差別。
這種復雜的算法若是僅僅用來準確地衡量球員的價值,那倒是沒什么大問題。但是有些問題,比如某個球員在壓力下的表現如何?他是否刻苦練習?他是哪一種類型的隊長?又或者他跟隊員的相處配合得如何?所有這些問題該怎么用算法去計算?難道這些問題就不重要了嗎?如果要納入算法的考慮范圍,又要怎么去量化這些因素呢?
純數據分析的追隨者會告訴你一切都可以量化,也許他們說的沒錯。但是我也的確看到過很多水平相當的選手,在幾乎相同的條件下,他們的表現是有差距的,盡管從數據分析上來看他們的表現應該很接近。
在企業中,人力資源專家在招聘自由程序設計師時也會遇到類似棒球選手的情況。你可能會有兩個專業技能水平相當的應聘者前來應聘該職位,但其中一人的人際關系技能更勝一籌,能夠很好地與同事合作,而另一個應聘者則難以相處和合作,顯然僅從簡歷中很難看出這些“軟實力”。即使有大量的數據支持,也很難顧及到方方面面可能產生的結果,尤其又涉及到人的時候。
差之毫厘謬之千里
任何一個負責任的醫生都會嚴謹地告訴你,即使兩個病人的癥狀非常相似,采取的治療手段也不會相同,仍需要嚴格按照個體的差異性來決定,年齡、體重、其他的健康問題和特殊因素等等,都會影響最終的治療效果。
就拿醫療過程中使用的智能分析平臺IBM Watson來說。當我向一個朋友說起最近有的醫生開始采用Watson輔助診斷和制定療程時,他立刻炸毛了。他堅決表示自己的健康問題和治療手段不需要一臺機器來決定。他的擔心完全在理,但是在Watson的例子中,這臺機器并沒有直接給醫生提供可以盲從的答案,只是根據已有的跡象、患者信息、病癥再結合當前對此病癥的科學研究結果,給出治療的參考方案而已。
正如我之前描述的數據專家的情況一樣,醫生們同樣也很忙碌,他們不可能一邊給患者看病一邊還要熟知自己領域的所有最新進展。相關的研究實在太多了(當然這是一件好事)。所以他們需要Watson的輔助。Watson能夠快速地過濾目前的研究,但是仍然需要醫生根據實際情況來決定最終的治療方向。我更愿意把這個過程稱為科學中的藝術。知識給我們帶來了無限的可能性,但最終的決定權仍在于醫生而不是機器。
企業同樣也會面臨類似不確定性,這時候就需要人的介入,運用他們的知識,借助數據的力量,為不確定性做出決策。
未來我們能走多遠?
很多時候機器可以給出人們需要耗費數年時間才能得出的答案和遠見。貝克指出,比如大數據已經在幫助我們更深刻地了解疾病,尤其是癌癥,有很多方面都是人類研究人員從未涉及過的?!皼]有大數據給我們提供足夠的數據信息,我們永遠都不會找到最佳治療方案(至少最近幾年毫無希望)。在這里,我想說的是,大數據‘的確’可以十分精準?!?/span>
而且她還相信機器的學習能力在不遠的將來一定會達到一個足夠成熟的階段。屆時機器或許可以替我們做更多的決策,因為人類的大腦能力畢竟有限,無法一下子處理所有的可用信息。
我不能說她的預想是錯誤的,然而就目前看來,采集和處理數據的能力遠遠超過了對這些數據的理解能力。貝克也談到,預測分析一直在前進發展,有時候數據可以直接給出答案,但在更多的情況下,這仍然是一個復雜的人機交互過程。即使技術在不斷向前發展,這兩者之間如何才能完美的合作仍是一個難題。
除非我們能從中找到一個折中的辦法或者機器的技術能有大幅度的提升,否則我們仍將面臨一個智慧的鴻溝,需要時間和技術的進步來慢慢填補。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
2025 年,數據如同數字時代的 DNA,編碼著人類社會的未來圖景,驅動著商業時代的運轉。從全球互聯網用戶每天產生的2.5億TB數據, ...
2025-05-27CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25