
開源大數據查詢分析引擎現狀
大數據查詢分析是云計算中核心問題之一,自從Google在2006年之前的幾篇論文奠定云計算領域基礎,尤其是GFS、Map-Reduce、 Bigtable被稱為云計算底層技術三大基石。GFS、Map-Reduce技術直接支持了Apache Hadoop項目的誕生。Bigtable和Amazon Dynamo直接催生了NoSQL這個嶄新的數據庫領域,撼動了RDBMS在商用數據庫和數據倉庫方面幾十年的統治性地位。FaceBook的Hive項 目是建立在Hadoop上的數據倉庫基礎構架,提供了一系列用于存儲、查詢和分析大規模數據的工具。當我們還浸淫在GFS、Map-Reduce、 Bigtable等Google技術中,并進行理解、掌握、模仿時,Google在2009年之后,連續推出多項新技術,包括:Dremel、 Pregel、Percolator、Spanner和F1。其中,Dremel促使了實時計算系統的興起,Pregel開辟了圖數據計算這個新方 向,Percolator使分布式增量索引更新成為文本檢索領域的新標準,Spanner和F1向我們展現了跨數據中心數據庫的可能。在Google的第 二波技術浪潮中,基于Hive和Dremel,新興的大數據公司Cloudera開源了大數據查詢分析引擎Impala,Hortonworks開源了 Stinger,Fackbook開源了Presto。類似Pregel,UC Berkeley AMPLAB實驗室開發了Spark圖計算框架,并以Spark為核心開源了大數據查詢分析引擎Shark。由于某電信運營商項目中大數據查詢引擎選型需 求,本文將會對Hive、Impala、Shark、Stinger和Presto這五類主流的開源大數據查詢分析引擎進行簡要介紹以及性能比較,最后進 行總結與展望。Hive、Impala、Shark、Stinger和Presto的進化圖譜如圖1所示。
圖1. Impala、Shark、Stinger和Presto的進化圖譜
當前主流引擎簡介
基于Map-Reduce模式的Hadoop擅長數據批處理,不是特別符合即時查詢的場景。實時查詢一般使用MPP (Massively Parallel Processing)的架構,因此用戶需要在Hadoop和MPP兩種技術中選擇。在Google的第二波技術浪潮中,一些基于Hadoop架構的快速 SQL訪問技術逐步獲得人們關注?,F在有一種新的趨勢是MPP和Hadoop相結合提供快速SQL訪問框架。最近有四個很熱門的開源工具出 來:Impala、Shark、Stinger和Presto。這也顯示了大數據領域對于Hadoop生態系統中支持實時查詢的期望??傮w來 說,Impala、Shark、Stinger和Presto四個系統都是類SQL實時大數據查詢分析引擎,但是它們的技術側重點完全不同。而且它們也不 是為了替換Hive而生,Hive在做數據倉庫時是非常有價值的。這四個系統與Hive都是構建在Hadoop之上的數據查詢工具,各有不同的側重適應 面,但從客戶端使用來看它們與Hive有很多的共同之處,如數據表元數據、Thrift接口、ODBC/JDBC驅動、SQL語法、靈活的文件格式、存儲 資源池等。Hive與Impala、Shark、Stinger、Presto在Hadoop中的關系如圖2所示。Hive適用于長時間的批處理查詢分 析,而Impala、Shark、Stinger和Presto適用于實時交互式SQL查詢,它們給數據分析人員提供了快速實驗、驗證想法的大數據分析工 具??梢韵仁褂?a href='/map/hive/' style='color:#000;font-size:inherit;'>Hive進行數據轉換處理,之后使用這四個系統中的一個在Hive處理后的結果數據集上進行快速的數據分析。下面,從問題域出發簡單介紹 Hive、Impala、Shark、Stinger和Presto:
1) Hive,披著SQL外衣的Map-Reduce。Hive是為方便用戶使用Map-Reduce而在外面封裝了一層SQL,由于Hive采 用了SQL,它的問題域比Map-Reduce更窄,因為很多問題,SQL表達不出來,比如一些數據挖掘算法,推薦算法、圖像識別算法等,這些仍只能通過 編寫Map-Reduce完成。
2) Impala:Google Dremel的開源實現(Apache Drill類似),因為交互式實時計算需求,Cloudera推出了Impala系統,該系統適用于交互式實時處理場景,要求最后產生的數據量一定要少。
3) Shark/Spark:為了提高Map-Reduce的計算效率,Berkeley的AMPLab實驗室開發了Spark,Spark可看 做基于內存的Map-Reduce實現,此外,伯克利還在Spark基礎上封裝了一層SQL,產生了一個新的類似Hive的系統Shark。
4) Stinger Initiative(Tez optimized Hive):Hortonworks開源了一個DAG計算框架Tez,Tez可以理解為Google Pregel的開源實現,該框架可以像Map-Reduce一樣,可以用來設計DAG應用程序,但需要注意的是,Tez只能運行在YARN上。Tez的一 個重要應用是優化Hive和PIG這種典型的DAG應用場景,它通過減少數據讀寫IO,優化DAG流程使得Hive速度提供了很多倍。
5) Presto:FaceBook于2013年11月份開源了Presto,一個分布式SQL查詢引擎,它被設計為用來專門進行高速、實時的數 據分析。它支持標準的ANSI SQL,包括復雜查詢、聚合(aggregation)、連接(join)和窗口函數(window functions)。Presto設計了一個簡單的數據存儲的抽象層,來滿足在不同數據存儲系統(包括HBase、HDFS、Scribe等)之上都可 以使用SQL進行查詢。
圖2. Hive與Impala、Shark、Stinger、Presto在Hadoop中的關系
當前主流引擎架構
Hive是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供完整的SQL查詢功能,可以將SQL語句轉換為 Map-Reduce任務進行運行,十分適合數據倉庫的統計分析。其架構如圖3所示,Hadoop和Map-Reduce是Hive架構的根基。Hive 架構包括如下組件:CLI(Command Line Interface)、JDBC/ODBC、Thrift Server、Meta Store和Driver(Complier、Optimizer和Executor)。
圖3. Hive架構
Impala架構
Impala是Cloudera在受到Google的Dremel啟發下開發的實時交互SQL大數據查詢工具,它可以看成是Google Dremel架構和MPP (Massively Parallel Processing)結構的結合體。Impala沒有再使用緩慢的Hive&Map-Reduce批處理,而是通過使用與商用并行關系數據庫中 類似的分布式查詢引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分組成),可以直接從HDFS或HBase中用SELECT、JOIN和統計函數查詢數據,從而大大降低了延遲,其架構如圖4所 示,Impala主要由Impalad,State Store和CLI組成。Impalad與DataNode運行在同一節點上,由Impalad進程表示,它接收客戶端的查詢請求(接收查詢請求的 Impalad為Coordinator,Coordinator通過JNI調用java前端解釋SQL查詢語句,生成查詢計劃樹,再通過調度器把執行計 劃分發給具有相應數據的其它Impalad進行執行),讀寫數據,并行執行查詢,并把結果通過網絡流式的傳送回給Coordinator,由 Coordinator返回給客戶端。同時Impalad也與State Store保持連接,用于確定哪個Impalad是健康和可以接受新的工作。Impala State Store跟蹤集群中的Impalad的健康狀態及位置信息,由state-stored進程表示,它通過創建多個線程來處理Impalad的注冊訂閱和 與各Impalad保持心跳連接,各Impalad都會緩存一份State Store中的信息,當State Store離線后,因為Impalad有State Store的緩存仍然可以工作,但會因為有些Impalad失效了,而已緩存數據無法更新,導致把執行計劃分配給了失效的Impalad,導致查詢失敗。 CLI提供給用戶查詢使用的命令行工具,同時Impala還提供了Hue,JDBC,ODBC,Thrift使用接口。
圖4. Impala架構
Shark架構
Shark是UC Berkeley AMPLAB開源的一款數據倉庫產品,它完全兼容Hive的HQL語法,但與Hive不同的是,Hive的計算框架采用Map-Reduce,而 Shark采用Spark。所以,Hive是SQL on Map-Reduce,而Shark是Hive on Spark。其架構如圖4所示,為了最大程度的保持和Hive的兼容性,Shark復用了Hive的大部分組件,如下所示:
1) SQL Parser&Plan generation: Shark完全兼容Hive的HQL語法,而且Shark使用了Hive的API來實現query Parsing和 query Plan generation,僅僅最后的Physical Plan execution階段用Spark代替Hadoop Map-Reduce;
2) metastore:Shark采用和Hive一樣的meta信息,Hive里創建的表用Shark可無縫訪問;
3) SerDe: Shark的序列化機制以及數據類型與Hive完全一致;
4) UDF: Shark可重用Hive里的所有UDF。通過配置Shark參數,Shark可以自動在內存中緩存特定的RDD(Resilient Distributed Dataset),實現數據重用,進而加快特定數據集的檢索。同時,Shark通過UDF用戶自定義函數實現特定的數據分析學習算法,使得SQL數據查詢 和運算分析能結合在一起,最大化RDD的重復使用;
5) Driver:Shark在Hive的CliDriver基礎上進行了一個封裝,生成一個SharkCliDriver,這是shark命令的入口;
6) ThriftServer:Shark在Hive的ThriftServer(支持JDBC/ODBC)基礎上,做了一個封裝,生成了一個SharkServer,也提供JDBC/ODBC服務。
圖5. Shark架構
Spark是UC Berkeley AMP lab所開源的類Hadoop Map-Reduce的通用的并行計算框架,Spark基于Map-Reduce算法實現的分布式計算,擁有Hadoop Map-Reduce所具有的優點;但不同于Map-Reduce的是Job中間輸出和結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark 能更好地適用于數據挖掘與機器學習等需要迭代的Map-Reduce的算法。其架構如圖6所示:
圖6. Spark架構
與Hadoop的對比,Spark的中間數據放到內存中,對于迭代運算效率更高,因此Spark適用于需要多次操作特定數據集的應用場合。需要反復操作的 次數越多,所需讀取的數據量越大,受益越大,數據量小但是計算密集度較大的場合,受益就相對較小。Spark比Hadoop更通用,Spark提供的數據 集操作類型有很多種(map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等),而Hadoop只提供了Map和Reduce兩種操作。Spark可以直接對HDFS進行數據的讀寫,同樣支持 Spark on YARN。Spark可以與Map-Reduce運行于同集群中,共享存儲資源與計算,數據倉庫Shark實現上借用Hive,幾乎與Hive完全兼容。
Stinger架構
Stinger是Hortonworks開源的一個實時類SQL即時查詢系統,聲稱可以提升較Hive 100倍的速度。與Hive不同的是,Stinger采用Tez。所以,Hive是SQL on Map-Reduce,而Stinger是Hive on Tez。Tez的一個重要作用是優化Hive和PIG這種典型的DAG應用場景,它通過減少數據讀寫IO,優化DAG流程使得Hive速度提供了很多倍。 其架構如圖7所示, Stinger是在Hive的現有基礎上加了一個優化層Tez(此框架是基于Yarn),所有的查詢和統計都要經過它的優化層來處理,以減少不必要的工作 以及資源開銷。雖然Stinger也對Hive進行了較多的優化與加強,Stinger總體性能還是依賴其子系統Tez的表現。而Tez是 Hortonworks開源的一個DAG計算框架,Tez可以理解為Google Pregel的開源實現,該框架可以像Map-Reduce一樣,用來設計DAG應用程序,但需要注意的是,Tez只能運行在YARN上。
圖7. Stinger架構
Presto架構
2013年11月Facebook開源了一個分布式SQL查詢引擎Presto,它被設計為用來專門進行高速、實時的數據分析。它支持標準的 ANSI SQL子集,包括復雜查詢、聚合、連接和窗口函數。其簡化的架構如圖8所示,客戶端將SQL查詢發送到Presto的協調器。協調器會進行語法檢查、分析 和規劃查詢計劃。調度器將執行的管道組合在一起,將任務分配給那些里數據最近的節點,然后監控執行過程??蛻舳藦妮敵龆沃袑祿〕?,這些數據是從更底層 的處理段中依次取出的。Presto的運行模型與Hive有著本質的區別。Hive將查詢翻譯成多階段的Map-Reduce任務,一個接著一個地運行。 每一個任務從磁盤上讀取輸入數據并且將中間結果輸出到磁盤上。然而Presto引擎沒有使用Map-Reduce。它使用了一個定制的查詢執行引擎和響應 操作符來支持SQL的語法。除了改進的調度算法之外,所有的數據處理都是在內存中進行的。不同的處理端通過網絡組成處理的流水線。這樣會避免不必要的磁盤 讀寫和額外的延遲。這種流水線式的執行模型會在同一時間運行多個數據處理段,一旦數據可用的時候就會將數據從一個處理段傳入到下一個處理段。 這樣的方式會大大的減少各種查詢的端到端響應時間。同時,Presto設計了一個簡單的數據存儲抽象層,來滿足在不同數據存儲系統之上都可以使用SQL進 行查詢。存儲連接器目前支持除Hive/HDFS外,還支持HBase、Scribe和定制開發的系統。
圖8. Presto架構
性能評測總結
通過對Hive、Impala、Shark、Stinger和Presto的評測和分析,總結如下:
1) 列存儲一般對查詢性能提升明顯,尤其是大表是一個包含很多列的表。例如,從Stinger(Hive 0.11 with ORCFile)VS Hive,以及Impala的Parquet VS Text file;
2) 繞開MR計算模型,省去中間結果的持久化和MR任務調度的延遲,會帶來性能提升。例如,Impala,Shark,Presto要好于Hive和Stinger,但這種優勢隨著數據量增加和查詢變復雜而減弱;
3) 使用MPP數據庫技術對連接查詢有幫助。例如,Impala在兩表,多表連接查詢中優勢明顯;
4) 充分利用緩存的系統在內存充足的情況下性能優勢明顯。例如,Shark,Impala在小數據量時性能優勢明顯;內存不足時性能下降嚴重,Shark會出現很多問題;
5) 數據傾斜會嚴重影響一些系統的性能。例如,Hive、Stinger、Shark對數據傾斜比較敏感,容易造成傾斜;Impala受這方面的影響似乎不大;
對于Hive、Impala、Shark、Stinger和Presto這五類開源的分析引擎,在大多數情況下,Imapla的綜合性能是最穩定的,時間 性能也是最好的,而且其安裝配置過程也相對容易。其他分別為Presto、Shark、Stinger和Hive。在內存足夠和非Join操作情況 下,Shark的性能是最好的。
總結與展望
對大數據分析的項目來說,技術往往不是最關鍵的,關鍵在于誰的生態系統更強,技術上一時的領先并不足以保證項目的最終成功。對于Hive、 Impala、Shark、Stinger和Presto來講,最后哪一款產品會成為事實上的標準還很難說,但我們唯一可以確定并堅信的一點是,大數據分 析將隨著新技術的不斷推陳出新而不斷普及開來,這對用戶永遠都是一件幸事。舉個例子,如果讀者注意過下一代Hadoop(YARN)的發展的話就會發現, 其實YARN已經支持Map-Reduce之外的計算范式(例如Shark,Impala等),因此將來Hadoop將可能作為一個兼容并包的大平臺存 在,在其上提供各種各樣的數據處理技術,有應對秒量級查詢的,有應對大數據批處理的,各種功能應有盡有,滿足用戶各方面的需求。
除了Hive、Impala、Shark、Stinger和Presto這樣的開源方案外,像Oracle,EMC等傳統廠商也沒在坐以待斃等著自己的市 場被開源軟件侵吞。像EMC就推出了HAWQ系統,并號稱其性能比之Impala快上十幾倍,而Amazon的Redshift也提供了比Impala更 好的性能。雖然說開源軟件因為其強大的成本優勢而擁有極其強大的力量,但是傳統數據庫廠商仍會嘗試推出性能、穩定性、維護服務等指標上更加強大的產品與之 進行差異化競爭,并同時參與開源社區、借力開源軟件來豐富自己的產品線、提升自己的競爭力,并通過更多的高附加值服務來滿足某些消費者需求。畢竟,這些廠 商往往已在并行數據庫等傳統領域積累了大量的技術和經驗,這些底蘊還是非常深厚的??偟膩砜?,未來的大數據分析技術將會變得越來越成熟、越來越便宜、越來 越易用;相應的,用戶將會更容易更方便地從自己的大數據中挖掘出有價值的商業信息。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25