
大數據和云計算關系
關于大數據和云計算的關系人們通常會有誤解。而且也會把它們混起來說,分別做一句話直白解釋就是:云計算就是硬件資源的虛擬化;大數據就是海量數據的高效處理。
雖然上面的一句話解釋不是非常的貼切,但是可以幫助你簡單的理解二者的區別。另外,如果做一個更形象的解釋,云計算相當于我們的計算機和操作系統,將大量的硬件資源虛擬化之后再進行分配使用,在云計算領域目前的老大應該算是Amazon,可以說為云計算提供了商業化的標準,另外值得關注的還有VMware(其實從這一點可以幫助你理解云計算和虛擬化的關系),開源的云平臺最有活力的就是Openstack了;
大數據相當于海量數據的“數據庫”,而且通觀大數據領域的發展也能看出,當前的大數據處理一直在向著近似于傳統數據庫體驗的方向發展,Hadoop的產生使我們能夠用普通機器建立穩定的處理TB級數據的集群,把傳統而昂貴的并行計算等概念一下就拉到了我們的面前,但是其不適合數據分析人員使用(因為MapReduce開發復雜),所以PigLatin和Hive出現了(分別是Yahoo!和facebook發起的項目,說到這補充一下,在大數據領域Google、facebook、twitter等前沿的互聯網公司作出了很積極和強大的貢獻),為我們帶來了類SQL的操作,到這里操作方式像SQL了,但是處理效率很慢,絕對和傳統的數據庫的處理效率有天壤之別,所以人們又在想怎樣在大數據處理上不只是操作方式類SQL,而處理速度也能“類SQL”,Google為我們帶來了Dremel/PowerDrill等技術,Cloudera(Hadoop商業化最強的公司,Hadoop之父cutting就在這里負責技術領導)的Impala也出現了。
整體來看,未來的趨勢是,云計算作為計算資源的底層,支撐著上層的大數據處理,而大數據的發展趨勢是,實時交互式的查詢效率和分析能力,借用Google一篇技術論文中的話,“動一下鼠標就可以在秒級操作PB級別的數據”難道不讓人興奮嗎?(田原)
在談大數據的時候,首先談到的就是大數據的4V特性,即類型復雜,海量,快速和價值。IBM原來談大數據的時候談3V,沒有價值這個V。而實際我們來看4V更加恰當,價值才是大數據問題解決的最終目標,其它3V都是為價值目標服務。在有了4V的概念后,就很容易簡化的來理解大數據的核心,即大數據的總體架構包括三層,數據存儲,數據處理和數據分析。類型復雜和海量由數據存儲層解決,快速和時效性要求由數據處理層解決,價值由數據分析層解決。
數據先要通過存儲層存儲下來,然后根據數據需求和目標來建立相應的數據模型和數據分析指標體系對數據進行分析產生價值。而中間的時效性又通過中間數據處理層提供的強大的并行計算和分布式計算能力來完成。三層相互配合,讓大數據最終產生價值。
數據存儲層
數據有很多分法,有結構化,半結構化,非結構化;也有元數據,主數據,業務數據;還可以分為GIS,視頻,文件,語音,業務交易類各種數據。傳統的結構化數據庫已經無法滿足數據多樣性的存儲要求,因此在RDBMS基礎上增加了兩種類型,一種是hdfs可以直接應用于非結構化文件存儲,一種是nosql類數據庫,可以應用于結構化和半結構化數據存儲。
從存儲層的搭建來說,關系型數據庫,NoSQL數據庫和hdfs分布式文件系統三種存儲方式都需要。業務應用根據實際的情況選擇不同的存儲模式,但是為了業務的存儲和讀取方便性,我們可以對存儲層進一步的封裝,形成一個統一的共享存儲服務層,簡化這種操作。從用戶來講并不關心底層存儲細節,只關心數據的存儲和讀取的方便性,通過共享數據存儲層可以實現在存儲上的應用和存儲基礎設置的徹底解耦。
數據處理層
數據處理層核心解決問題在于數據存儲出現分布式后帶來的數據處理上的復雜度,海量存儲后帶來了數據處理上的時效性要求,這些都是數據處理層要解決的問題。
在傳統的云相關技術架構上,可以將hive,pig和hadoop-mapreduce框架相關的技術內容全部劃入到數據處理層的能力。原來我思考的是將hive劃入到數據分析層能力不合適,因為hive重點還是在真正處理下的復雜查詢的拆分,查詢結果的重新聚合,而mapreduce本身又實現真正的分布式處理能力。
mapreduce只是實現了一個分布式計算的框架和邏輯,而真正的分析需求的拆分,分析結果的匯總和合并還是需要hive層的能力整合。最終的目的很簡單,即支持分布式架構下的時效性要求。
數據分析層
最后回到分析層,分析層重點是真正挖掘大數據的價值所在,而價值的挖掘核心又在于數據分析和挖掘。那么數據分析層核心仍然在于傳統的BI分析的內容。包括數據的維度分析,數據的切片,數據的上鉆和下鉆,cube等。
數據分析我只關注兩個內容,一個就是傳統數據倉庫下的數據建模,在該數據模型下需要支持上面各種分析方法和分析策略;其次是根據業務目標和業務需求建立的KPI指標體系,對應指標體系的分析模型和分析方法。解決這兩個問題基本解決數據分析的問題。
傳統的BI分析通過大量的ETL數據抽取和集中化,形成一個完整的數據倉庫,而基于大數據的BI分析,可能并沒有一個集中化的數據倉庫,或者將數據倉庫本身也是分布式的了,BI分析的基本方法和思路并沒有變化,但是落地到執行的數據存儲和數據處理方法卻發生了大變化。
談了這么多,核心還是想說明大數據兩大核心為云技術和BI,離開云技術大數據沒有根基和落地可能,離開BI和價值,大數據又變化為舍本逐末,丟棄關鍵目標。簡單總結就是大數據目標驅動是BI,大數據實施落地式云技術。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24