
大數據需要理性認知
認清大數據
“當前對于大數據最明顯的認識誤區是把大數據和Hadoop MapReduce劃等號,和互聯網UGC(用戶生成內容)畫等號?!?
《計算機世界》:“大數據”是當前最流行的概念,應該怎樣理解這個概念?
潘越:大數據原來只是技術領域里的概念,后來逐漸發展到與產業和商業緊密相關,這導致圍繞著大數據的很多觀念和做法都發生了轉變。過去人們更強調數據本身的價值,只保存“有用的”數據,然后對此做出分析就可以了。但是隨著數據管理和數據分析技術的進步,現在已經可以處理更大規模的數據,所以此時就需要考慮數據分析服務的個性化問題,人們對于數據應用的理念也開始發生轉變?,F在的大數據服務商可以先把各種各樣的數據保存下來,包括那些原來被認為是“沒有用”的數據,然后進行有針對性的分析和實現按需交付,從而給客戶帶來快捷和更細化的服務,推動商業的進步。
《計算機世界》:大數據應用就是保存所有的數據、分析所有的數據?
潘越:把數據盡可能地保存并不是說把數據像堆雜物一樣地儲存,而是需要對數據進行組織和管理,IBM稱之為數據治理,意思就是把數據當做資產來看待。資產肯定包括不同的類型,數據也一樣。
對一個企業來說,它的主數據就是核心資產,其中可能包括客戶信息、產品信息、供應商信息等。核心資產非常重要,也經常要被使用,所以必須保證其在安全和高效的環境下得到利用和保護;還有一類數據關系到企業的業績水平,它將決定企業的運營做得好還是不好,體現出的是績效管理的結果,這部分數據由數據倉庫支持;第三類則是關系到企業未來的數據,它們的價值在于“潛力”,比如原始單據就是這類數據,企業有可能從中挖掘出新價值,讓自己的業務做得更好、更有前景,它們是“內容管理”的對象;此外還有一類“很快的數據”,它們是需要迅速得出處理結果的數據。比如一個客戶來了,企業馬上就要分析出該客戶的興趣點是什么、與其他客戶有何關聯關系等,以便及時做出最有效的應對。這種數據的形態與前幾種都不同,它們需要以流數據的方式進行處理。
需要指出的是,每一類數據都有一個生命周期,都有一個從獲取、管理、應用,到用于決策支持的過程。
《計算機世界》:大數據應用發展到理想狀態,企業就可以精準預測客戶需求,提前解決供應問題嗎?人們對大數據的認識是否有誤區?
潘越:1974年的諾貝爾經濟學獎得主哈耶克,他發表的獲獎演說題為《知識的偽裝》,其中說到:“隨著科學知識的增加,我們高估了自己理解構成世界的微妙變化能力,也高估了我們對每個變化的重要性做出判斷的能力?!彼?,無所不知只是人的錯覺?,F在很多研究者制作出一些精確的數學模型,認為這就是因果模型,但其實它們是關聯模型。同樣,大數據本身也不能幫你得出因果關系,而只能顯現關聯關系。
當前對于大數據最明顯的認識誤區是把大數據和Hadoop MapReduce畫等號,和互聯網UGC畫等號。其實MapReduce只對處理大數據中的一類數據有效,而且只是一種處理方法?;ヂ摼WUGC也只是大數據分類中的一部分,許多行業都有待挖掘的大數據資源,包括傳統零售行業、醫療行業、政府信息等。
數據就是資產
“各行各業都有大規模的數據資源,只不過因為種種原因,很多沒有開放,只要有合理的機制解決開放問題,讓數據能在被充分保護的基礎上加以利用,就能發掘出很多大數據的應用機會?!?br />
《計算機世界》:大數據時代,IBM追尋怎樣的目標?
潘越:IBM總的原則就是:為客戶創造價值。在大數據方面,IBM所做的是幫助客戶確認數據資產,對數據資產進行有效管理和有效利用,讓數據資源長久為客戶服務,這是我們的基本原則。短時期內,IBM的目標是通過自己的技術、產品和服務,幫助客戶管好、用好數據資源。而在將來,IBM一方面希望更深層次地利用現有或者可能產生的數據,進一步挖掘數據的價值;另一方面,IBM認為數據既然是資產,就可以進行交易,未來是否可以把數據資產定價,像別的資產一樣自由交易,又該怎樣進行交易,這個問題IBM正在研究。
《計算機世界》:當前在行業應用方面,IBM的大數據能力體現在哪里?
潘越:目前零售行業是大數據應用非?;钴S的領域,在中國,IBM跟王府井百貨和蘇寧都有合作,用大數據技術和服務幫助這些傳統零售商在向電商形態轉變。事實上,傳統的零售商也有自己的優勢,比如它的物流系統要比第三方更穩定可靠,所以在電商領域他們有自己的后發優勢,當這種優勢與大數據技術得到良好結合,他們的電商之路一定會順暢很多。另外,醫療行業也是大數據應用的重要行業,超級電腦Watson就在朝這個方向努力。
Watson是一個問答系統,可以根據病人的病歷、分析文獻和其他醫生的意見,給出一個診斷決策。目前Watson在醫療領域已經有應用案例,比如IBM和美國最大的保險公司WellPoint就在進行相關合作。更重要的是,IBM將Watson與大數據結合在一起,還在于探索解決非結構化數據的處理問題,尤其是多媒體數據,包括圖像、視頻等等。比如醫學影像通常需要專業的醫生去解讀,而IBM現在試圖讓Watson也去完成這類解讀,這是一個很大的挑戰,但是如果能夠探索出解決辦法,無疑將對醫療行業的發展帶來巨大推動力。
《計算機世界》:用戶生成內容是大數據的重要來源,這是否意味著互聯網企業在大數據時代的話語權最大?
潘越:短期來講互聯網企業很有優勢,因為他們既是數據的生產者,也是數據的利用者,他們可以很方便地把數據用于改善用戶體驗,由此便獲得了先天的話語權。但從長遠來看,大數據的應用遠遠不限于互聯網,就好像采礦,最初都會挖一些容易探到的礦產,生產出來的產品也都比較初級,然而當行業發展成熟,下游產品越來越豐富,后續的探索會更加有價值。比如石油資源可以支持化工行業,化工業的價值要比初級的煉油高得多。所以,數據的后續深挖能力,也將決定大數據領域企業的份量。另外,當把淺層的礦產挖完后,就需要具備更強的探礦能力,把用戶生成數據理順以后,對于其他類型的數據是否具備處理能力會顯得更加重要。其實,各行各業都有大規模的數據資源,只不過因為種種原因,很多沒有開放,只要有合理的機制解決開放問題,讓數據能在被充分保護的基礎上加以利用,就能發掘出很多大數據的應用機會。所以在將來,一定不是非互聯網企業就沒有掌控大數據產業話語權的機會。
《計算機世界》:IBM認為大數據和目前正在不斷推進的認知計算的交匯點在哪里?認知計算將會是最理想的大數據計算方式嗎?
潘越:認知計算,從狹義來講,是計算機和心理學以及神經生物學交叉的研究領域?,F在相關概念被擴大化了,能跟人有自然接口的、可以學習的系統,都被稱為認知計算。最近認知計算領域進展比較快,有兩個原因:一是因為硬件技術的進步,現在已經能夠更大規模地建立神經網絡,IBM有一個項目就是在研究利用立體的集成電路去搭建一個高密度的神經網絡,現在能做到類貓腦的程度,最終的目標是構建一個達到人腦級別的神經網絡;第二,當前計算領域,算法方面有很大的提高。在認知計算領域,越是基本的概念機器越難學會表達,以前這是計算方面的難點,而現在這一塊有了突破。
不過目前,認知計算和大數據還是各做各的,沒有完全融合,未來如果兩者能很好地結合,將帶來無限可能。事實上,認知計算屬于人工智能范疇,而人工智能一直是IBM特別關注的領域,因此把認知計算和大數據應用的能力協調發揮,也是IBM的努力方向。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25