
大數據分析:找合適的瓶,釀新的酒
為什么談到大數據,傳統企業表現出更多的困惑?其原因是,企業決策者并不清楚大數據能給業務帶來哪些價值,也不知道如何學習、使用大數據分析工具。而這些大數據工具就擺在那里,誰能先一步學習使用,誰就占有先機。
算起來,接觸大數據、和互聯網之外的客戶談大數據也有快2年了。也該是時候整理下一些感受,和大家分享下我看到的國內大數據應用的一些困惑了。
云和大數據,應該是近幾年IT炒的最熱的兩個話題了。在我看來,這兩者之間的不同就是:云是做新的瓶,裝舊的酒; 大數據是找合適的瓶,釀新的酒。
云說到底是一種基礎架構的革命。原先用物理服務器的應用,在云中變成以各種虛擬服務器的形式交付出去,從而計算、存儲、網絡資源都能被更有效率的利用了。于是,酒量好無酒不歡的人就可以用個海碗牛飲二鍋頭;酒量小又想嘗嘗微醺小醉風情的人也可以端個小杯咂巴咂巴女兒紅。
大數據的不同在于,它其實是把以前人們丟棄不理的數據都撿起來,加以重新分析利用,使之產生新價值的技術。換句話說,原先20斤的糧食只能出2斤的 酒糟,現在20斤的糧食都變成或者大部分變成酒糟。當然這酒糟肯定會和原先的酒糟有不一樣,所以釀出來的酒肯定和以前不同,喝酒、裝酒、儲存酒的方法自然 也不同。
所以,相對于云,人們對大數據使用的困惑更大。接下來談談我所看到的幾類最多的困惑,以及我們目前存在哪些問題。
困惑之一:大數據能干什么?
換用前面飲酒來作比方,這新釀出來的酒怎么喝才可以喝得痛快。這里不再想討論到底哪些數據是大數據了。 下面這張圖是Gartner 對各行業對于大數據需求的調查,該統計針對大數據通用的3個V , 以及未被利用數據的需求情況做了分類。 可見幾乎所有行業都對大數據有著各種各樣的需求。
圖片來自Gartner
為什么有這些需求,是因為以前這些類型的數據都因為技術和成本的原因,用戶沒有收集處理?,F在有了性價比合理的手段可以讓你收集處理這些數據,怎么 可能說不要?還是以釀酒做比喻,以前釀兩斤酒糟要浪費18斤的糧食,現在至少20斤糧食可以有10斤都變成酒糟了,雖然這些酒糟可能和以前不大一樣,但至 少可以少浪費8斤糧食呢。
現在問題來了,酒糟多了,種類不一樣了,怎么根據新的酒糟釀酒呢?對不起,這個問題酒作坊就要別人來教了。但問題是,所有酒坊現在可能都面臨這同一 個問題,于是就沒人可以教你了,只能自己慢慢摸索。這個就是現在各行業面對大數據的最大困惑 — 海量的數據收集上來不知道怎么用。
這里不妨看看為什么傳統的數據倉庫領域沒有這樣的困惑。如下這張圖很好的說明了傳統和現在的區別:
圖片來自Sogeti
從上圖展示的流程可以看出產生困惑的根本原因是:苦逼的IT從業人員走在了業務決策者的前面 (流淚) 。傳統時代,都是業務人員希望得到某類型的統計報表或者分析預測,于是IT行業人員為了滿足他們的需求找方案、寫算法,從而催生出了各種類型的數據倉庫和 解決方案。而現在,在互聯網的推動下,IT人員發覺原來我們可以通過一些新的方式存儲海量的原先無法處理的數據,但業務人員卻沒有準備好。所以,當你告訴 他們:“嘿,哥們兒,我這里現在又有了很多數據可以幫你了?!彼麄円活^霧水不知道這些數據對他們有什么用了。
怎么解決這個問題?先來看傳統廠商Oracle、IBM他們是怎么做的。方式細節略有不同,但他們的思路基本如下:
圖片來自HP首席技術專家 Greg Battas在ABDS2012大會上的 分享
簡單來說,這種處理方式是把Hadoop和其它各類NewSQL、NoSQL方案以ETL,或外部表的方式引入現有的數據分析解決方案架構中。這種 方案因為上層的數據倉庫沒有大的改變,客戶可以繼續使用原先的算法和報表結構,即在新的數據平臺上繼續沿用舊的應用場景和分析方法。好處是由于引入了大數 據技術,可以處理多種數據源,同時降低原先海量數據ETL的成本。但這種方法依然存在不少問題:
問題一:性能瓶頸依然存在。
縱觀現在各類NewSQL、NoSQL方案,分布式是一個最顯著的特色。之所以大家 都采用分布式架構,就是因為傳統的縱向擴展方案,在處理海量數據時候性能沒法隨著數據量的增長而線性擴展,或者成本代價太高。而上圖的方案,雖然通過 Hadoop解決了ETL的性能瓶頸問題,但BI還是傳統的數據倉庫,海量的ETL使得原有數據倉庫需要處理的數據量大增,所以必須花很大代價再次升級原 有的數據倉庫,否則分析就會跑的比原先還慢。因此,用戶依然需要升級價格不菲的上層數據倉庫,向原先效率一般的算法妥協性能。
問題二:大數據投資被浪費。
舊的分析應用場景,算法是基于關系型數據庫的。和大數據方案的邏輯模式有很大的不同,這不同主要有兩類。
沙里淘金和打磨玉石的區別。我舉過辣子雞的例子來形容Hadoop,大致是說一盤辣子雞就是大數據,Hadoop就是辣子雞里剔除尖椒,找出能吃的 雞塊的方法。其實,大數據的處理就是幫你淘金的過程。以前沒有那么合適的“篩子”,所以只能放棄在沙子里淘金的夢想,現在有了合適的“篩子”,就可以去從 沙灘上比較高效快速的找出那些“閃光”的東西了。而傳統的數據處理方式,其實已經通過人工、半人工的方式,把很多篩撿工作做了。所以雖然丟棄了大量的數 據,但是保留下的數據已經是塊“璞玉”了,要做的只是對這塊“璞玉”再精雕細啄,使其成為價值連成的“美玉”。 所以,用傳統的數據處理方法來處理大數據,就是拿美工刀去宰一頭牛,即使有人幫你端盤子分部位,還沒殺死牛人就累死。
動車組和火車的區別。分布式的大數據架構,其核心思想和三灣改編時的核心思想是一樣的:把支部建到連隊中去。把黨的有生力量分布到各個戰斗單元中, 大大提高中央戰略的貫徹執行,提高各個戰斗單位的機動性和戰斗力。就是動車為什么比火車開得快的道理:每節車廂都有動力,雖然每節都不比火車頭強勁,但車 廂越多就跑的越快。而火車頭再強勁,也有拖不動更多車廂的時候?,F有的分析算法,很多時候都是針對“火車頭”類型的,很多時候沒辦法拆分成很多小的運算分 布到每個節點上。于是,如果沿用之前的算法,那么就必須增加額外的軟件方案把已經分布出去了的數據再“集中”起來,額外增加的環節,肯定費時費力,效果不 可能會好。
在我看來,前面提到的傳統廠商解決企業大數據應用困惑的方案不是最好的方案。什么是最好的方案呢?其實很簡單,就是針對新的數據集和數據庫結構特點 開發新的應用分析場景,并把這些分析應用場景直接跑到大數據架構上。而不是去削足適履,拿新的NewSQL、NoSQL嫁接傳統方案。
這么做的好處不言而喻,關鍵是如何實現?這些事不能由搞IT的人來告訴業務人員,得讓業務人員來告訴我們!大數據應用要真正在企業里生根開花,真的 需要一些數據科學家做需求生成(Demand Generation)的工作。我們要通過他們的幫助,使這張圖里的大數據路徑翻轉過來,像傳統數據處理一樣,由業務人員告訴我們,他們想做什么!
我接觸過很多客戶,去之前得到的需求都是:希望了解Hadoop或者內存數據庫。但是去了之后都發覺,他們其實不知道Hadoop或者內存數據庫可 以幫他們達到哪些目的,希望我們可以告訴他們。但很坦率的說,這個不是我們這些搞IT基礎架構的人該做的事情。我們已經“超前”的儲備好了這類技術手段 了,怎么用這類技術真的是應該懂業務的人去想,而不是我們了。
所以,在這里我想呼吁IT行業里,處在金字塔頂的專業咨詢師、數據分析人員、數據科學家們,現在是時候走出原先的框架看看新技術新架構下有些新商機 了。不要總是桎梏于傳統的思路和方法,讓新的大數據思想來做“削足適履”的事情了。真心希望你們可以利用專業知識和行業經驗,幫著那些”求大數據若渴“的 行業用戶們好好定位下對他們真正有價值的新應用場景,設計更多的有意義的分布式算法和機器學習模型,真正幫助他們解決大數據應用之惑。
首先,客戶必須把前一個問題想清楚,明確自己要做什么事,實現什么功能。然后,我們就可以把這個需求分解成小的需求:
要處理幾種數據類型?
要處理多大的數據量?
要處理的多快?
這三個要求有比較明確答案之后。這張圖表以數據處理的時效性和數據量為兩個維度,把傳統的RDBMS和Hadoop、MPP、內存數據庫等各類大數 據方案做分類。這個分類針對的還是各種類別里比較典型的方案?,F在實際情況,特別是MPP和Hadoop,各個發行版的特色功能都不盡相同,所以處理的場 景也會各有不同方向的延伸。
大數據時代,一種架構包打天下的局面是不大可能出現的。未來的企業大數據整體方案,肯定是多種數據庫方案結構并存的。企業數據在各個不同方案架構之間可以聯合互通,根據分析場景的不同分析工具運作在不同的數據庫架構上。
圖片來自 Nomura Research Institute
既然未來企業里面肯定會有多種數據源,多種數據庫結構,那么是否可以建立一個中間的數據服務層,把應用和底層數據庫架構隔離開呢?就好像你趕著上 班,沒時間買菜,于是就寫個菜單交給鐘點工,給他錢讓他幫你買。你不用管她到底會去路邊菜市場買還是超市買。這個想法看起來很美好,但我覺得在企業里實行 的難度比較大,不是很現實。為什么這么說?這里只是說說我的一些看法。
這個問題,我覺得沒有人可以給出完美的答案,因為現在的一些新企業,比如互聯網,面對的就是混合數據大數據的環境,不存在遷移的問題。而且他們要處 理的數據類型,應用場景也和傳統企業不一樣,只有一定的借鑒意義,完全復制是不明智的。傳統的大型企業,現在國外大多數的企業自己在摸著石頭過河,國內企 業剛開個頭。其實大家都在摸索過程中,前方基本沒有指路的明燈,只有一點點星星之火可供參考。
誰能幫你呢?我覺得還是那些搞企業咨詢的人士。至少他們可以看到很多國外類似企業的成功或者失敗案例。但前提是他們真正站在中立的立場幫你從新的應用場景著手分析規劃。
關于這個問題,我也分享個人的觀點,僅供參考。
第一步:先把大數據存起來,用起來。
現在看過很多傳統企業請各類咨詢人士做的大數據戰略規劃,我沒資格評價這些 規劃的可行性和問題所在,但我覺得對于接受新生事物,首先要做的就是先嘗個鮮,而不是知道它的未來會怎樣。如果小試牛刀的結果不好,那么調整重頭再來的成 本也比較小。所以我的建議,首先找個方案,把你準備分析處理的數據用新的辦法存起來,然后再試著在上面做些簡單的查詢,比較之類的應用,看看效果好不好, 領導買不買單。如果效果好了,那么再試著在這上面實現新的業務應用場景,解決一部分業務人員的某些實際需求;效果好的話再試著做第二個應用,第三個分 析。。。。。。慢慢的讓越來越多人看到這些新數據新應用的價值。
第二步:考慮新的大數據平臺和原有數據平臺的互通,聯合問題。
這里有兩個方面:把舊的應用分析運行在新的大數據平臺上。把數據從原先的RDBMS數據源抽取到新的大數據平臺上,利用新的大數據分析方法實現傳統的業務分析邏輯。這么做有可能會分析更多的數據產生更好的分析結果,也有可能會發現效率還不如原先的RDBMS方案。
把大數據平臺上的數據抽取到舊有數據倉庫中分析展現。這個方向主要還是為了保證舊有用戶的SQL使用習慣,區別是抽入舊數據倉庫的不是外部表,而是經過清洗整理的有價值的數據。
通過這兩個方面的嘗試,基本就可以把哪些應用可以遷移,哪些不可以遷移搞清楚了。為下一步打下扎實的基礎。
第三步:數據源整合,分析應用場景定制。
有了前兩步的基礎,基本你就可以很清楚你能夠處理哪些類型的數據,以及他們會為你帶來哪些業務價值了。接下來就可以發動“總攻”了。
總攻第一步,就是整合數據源,把將會涉及到的各類型數據分類,用各自最合適的方法儲存起來整理好。然后,把應用、展現工具根據所涉及數據源的不同, 應用場景的差異,和不同的數據存儲架構做耦合,定制化應用場景,使每個應用都可以充分利用到底層架構的性能和擴展能力。對于需要跨數據源的應用場景,選定 中間處理層方案,保證中間處理層方案的定制化,不會因其存在影響底層架構的性能和上層分析應用的實現。
這樣的步驟,沒辦法一下子讓企業領導看到“未來10年以后的IT架構宏偉藍圖”,但可操作性比較強,而且一步不對修改調整的機會也比較大。這種思路屬于互聯網和新興行業那種“小步快跑”的思維模式,先走幾步看看,如果不行也有了寶貴的經驗教訓,花的代價也不算很大。
大致上來說,我所能感受到的,行業用戶對于大數據的困惑就是以上所說的三個方面。之所以會有這些困惑,歸根結底還是因為大數據的處理方式和以前的傳統方式太不同了。
以Hadoop為代表的大數據處理體系,其實是采取了一種粗放的方式處理海量的數據,機器學習的原理很多時候也是依靠大量的樣本而不是精確的邏輯。 舉個例子,我們常說的“清明時節雨紛紛”,根本沒有邏輯和科學公式去推導出這個結論。之所以會有這個結論,是無數勞動人民通過多年觀察,從“海量的”清明 氣候樣本中發現,每到這幾天總是下雨比較多。而為什么清明這幾天會下雨,卻沒有人去仔細分析。大數據的處理方式類似,它依托前人留下的經驗,歷史數據,歸 納總結,而不是去依賴一些復雜的公式演算。其所依仗的,就是“樣本”多,而且能夠通過技術手段快速高效的分析整理海量的樣本。而之前因為沒辦法處理這么多 樣本,只能靠先進高精尖的數學模型。所以,想用好大數據,一是要調整思路,盡量用簡單的方式去處理大量的數據;二是在某些情況下可能需要考慮通過多采樣等 方式把數據“變大”。
所以,企業要想用好大數據,在沙海里淘金,就應該大膽的拋棄掉原有的一套成熟的架構和方案。從零開始,真正的去思考這么多數據,這些個新方法對于企 業能夠有什么意義,產生什么價值。然后,就是把想法一個個在Hadoop,MPP等等架構上實現,落地,一旦發覺有問題了就馬上調整,從頭再來。而不是先 像以前那樣看看別的人都怎么做,然后做幾十頁“看上去很美“的PPT,畫一個”未來十年“的美麗的大餅了事。要多向互聯網和新興行業學習,改變思路,掛鉤 業務,活在當下,小步快跑。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25