
大數據數據庫技術簡介與分類分析
說起大數據生態,不得不提大數據生態系統圖,而大數據行業卻不斷的發生著巨變,目前的這張圖應該還算比較新了。
創業者們蜂擁至這個行業,這個行業正變得越來越擁擠。Hadoop似乎已經奠定了其作為整個大數據生態系統的關鍵部分,Spark是另一個基于內存計算的開源分布式計算框架,它試圖填補Hadoop的弱項,提供更快的數據分析和良好的編程接口。
分析工具領域變得異?;钴S,數據應用領域正如預測一樣逐漸成為重心。一些類別如數據庫無論是NoSQL還是NewSQL和社交數據分析正日趨成熟。
今天就先讓我們從眾多內容當中,先挑選一塊和大家探討探討,先從數據庫說起吧。
從大的角度講,可以簡單的將數據庫分為兩類:
●傳統SMP架構的數據庫,主要指代的是傳統的關系型數據庫,例如DB2、Postgrel,MySQL等。
●新型數據庫,主要指代為支持大規模數量集,高并發要求,高可擴展性等孕育而生的新型數據庫。包括目前大數據生態當中主流MPP,NoSQL,NewSQL數據庫等
傳統數據庫和新型數據庫的一個主要區別是SMP架構VS分布式/并行
●SMP(Symmetric Multi-Processor)
SMP是對稱多處理器結構的簡稱,指代多個CPU對稱工作,無主次或從屬關系。各個CPU共享相同的物理內存,每個CPU訪問內存中的任何地址的路徑是相同的(訪問的時間是相同的),因此SMP也被稱為一致存儲器訪問結構(UMA: Uniform Memory Access)。
●NUMA(Non-Uniform Memory Access)
NUMA是非對稱的多處理結構,剛好與SMP相對,多個CPU工作時,對內存的訪問路徑不同。NUMA架構的提出主要是解決SMP架構下多CPU擴展的問題。
●MPP(Massive Parallel Processing)
和NUMA不同,MPP提供了另一種進行系統擴展的方式。它由多個SMP服務器通過一定的節點互聯網絡進行連接,協同工作,完成相同的任務,從用戶的角度來看是一個服務器系統。
SMP和NUMA都主要指向單一的計算機系統,而MPP則有點集群的意思了
●原子性(Atomic)
整個事務要么成功,要么失敗,杜絕部分成功
●一致性(Consistent)
事務的運行并不改變數據庫中數據的一致性。例如,完整約束了a+b=10,一個事務改變了a,那么b也應該隨之改變
●獨立性(lsolated)
也稱作隔離性,指兩個以上的事務不會出現交錯執行的狀態,因為這樣不可能會導致數據不一致
●持久性(Durable)
事務執行成功以后,該事務所對數據庫做的更改便是持久的保存在數據庫之中,不會無緣無故的回滾
傳統基于關系模型的數據庫遵從ACID基本理論,而新型分布式數據庫則并不完全遵從該理論
●一致性(Consistent)
即數據的?一致性,簡單的說就是數據復制到N臺機器,如果有更新,要N臺機器的數據一起更新
●可用性(Availability)
在集群中一部分節點故障后,集群整體還能響應客戶端的讀寫請求
●分區容錯性(Tolerance)
分區發生但不影響整個系統的運行
基于傳統關系型模型數據庫更關注CA,新型NoSQL數據庫更關心CP,AP
根據體系架構來分類
從數據庫的體系架構來看,可以將數據庫分為:
●SMP Database
這類數據大多指代的是基于傳統關系型數據庫模型的數據庫,比如IBM的DB2,Postgres,MySQL等
●MPP Database
基于MPP體系架構的數據庫,例如Teradata, Greenplum, Netezza等
●Distribute Database
嚴格來講MPP也應該屬于分布式數據庫,但這里更多指的是新型NoSQL和NewSQL數據庫,例如Hbase, Cassandra, Hive, mongoDB等
根據數據庫對SQL的支持情況,可以將數據庫分為:
●SQL Database
而SQL數據又可以細分為:
●NoSQL Database
而NoSQL數據庫本身又是非常寬泛的,其又可以分為多種類型:
無論是「OldSQL」,「NewSQL」還是「NoSQL」,都是大數據解決方案中經常提及的名詞。那么面對傳統的SQL數據庫, NoSQL數據存儲以及NewSQL數據該如何進行選擇呢?其實,沒有任何一款可以應對所有的應用場景,應該根據應用場景選擇對的數據庫。
對于傳統的SQL數據庫來說,它已經被使用了多年,成為了很多應用服務過程中依賴的核心組件。如果對于自身的應用來說它的運行和性能表現是可接受的,那么其實是不需要考慮替換的。沒有必要的替換或更新只會引入更多的工作量,更大的風險。對于傳統SQL數據庫而言,其優勢主要體現在:
●提供了系統運行多年的穩定性和可靠性,對標準SQL的支持能力
●與ORM的兼容度
●擁有更加豐富的事務處理功能
●即席查詢的能力
●成熟而穩定的商業生態
傳統SQL在過去一直處于市場的壟斷地位,但是隨著存儲,處理和分析的數據量指數倍的快速增長,對傳統SQL數據庫形成了非常大的挑戰,其劣勢主要體現在:
●設計架構決定了很難進行擴展,性能瓶頸往往局限在單機的處理能力上
●傳統SQL數據庫系統設計遵循的往往是通?用標準”one size fits all”,因此在很多專用場景下也不是最優的
●復雜的性能調優參數,需要在性能,數據安全,資源使用等多方面平衡,調優成本非常高
對于NoSQL數據庫來說,它在目前的大數據生態和真實應用場景中已經越來越多的被廣泛的應用。對非結構,半結構化數據的支持使得在很多特定場景下的開發非常簡單,對于對SQL弱依賴的業務,NoSQL的引入不但降低了本身的成本而且增加了系統的擴展性和性能。其優勢主要體現在:
●大多NoSQL設計遵從最終一致性,因此具有更高的可用性
●同時基于最終一致性的系統相比于傳統的OLAP關系型數據庫具有更好的負載擴展性,支持更大的數據集
●很多NoSQL系統對于非關系性數據,例如log messages, XML and JSON documents進行了更多的優化
盡管NoSQL數據庫技術目前發展非常迅速,應用也越來越廣,但是其還是有自身的局限性:
●NoSQL數據庫基本上不支持事務,也不遵從ACID。因此對于嚴格依賴ACID的應用并不適用
●對OLAP-style的查詢并不能直接進行很好的支持,需要更多應用開發量
NewSQL也是目前比較流行的術語,與NoSQL相比還比較新。NewSQL系統基本上是基于關系數據庫模型的,對SQL的支持非常好,與此同時嘗試解決傳統SQL數據庫面臨的問題。NewSQL數據庫的設計目的不僅具有NoSQL對海量數據的存儲能力,還保持了傳統數據庫支持ACID和SQL等特征。NewSQL的主要優勢是:
●減少了應用研發和設計的復雜度,提供了強一致性和全事務支持
●對SQL的支持以及相應的標準工具
●無需應用層面大的改進便可以在數據和查詢模型的基礎上提供類似NoSQLstyle集群方案的擴展性和性能
于此同時,NewSQL也存在其自身的劣勢:
目前還沒有NewSQL系統具備像傳統SQL數據庫系統那樣的通用性
●由于NewSQL自身in-memory的系統架構設計,在海量數據的支持上還是面臨很多技術和成本的挑戰
對于MPP和Hadoop而言,很多人都會把兩者放在一起進行比較,可實際上這兩者本身應該不太具有可比性,因為并不完全是同類的產品,之所以會比較,可能是因為在特定的應用場景下,我們不知道也不清楚該如何從他們之中進行選擇。
無論是MPP數據庫還是Hadoop,其基礎架構都是以分布式為基礎的。MPP數據庫本質上是分布式并行關系型數據庫系統,而Hadoop并不是一個簡單的單一系統或技術,而是一個生態系統,由多個組件和不同的功能構建起來。
MPP數據庫的主要架構特點是:
●分布式,基于網格計算技術
●Shared-nothing
●DAS(direct-attached storage)存儲特質
●數據分區以及本地處理
●數據壓縮
●高性能網絡鏈接
對于MPP數據庫,它比較擅長的是:
●關系型數據
●批處理
●即席數據查詢分析
●低并發場景
●ANSI SQL支持度高
而與之不同的是,Hadoop?比較擅長的是:
●一次寫多次度
●100+以上節點集群規模
●支持關系型和非關系型數據
●具有非常高的并發性
●批處理和分析負載
●具有非常好的擴展性
下表對MPP和Hadoop進行了對比分析
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25