熱線電話:13121318867

登錄
首頁大數據時代這幾種分布式計算框架,你必須知道!
這幾種分布式計算框架,你必須知道!
2020-07-10
收藏

對于大數據的處理問題,計算機科學界有兩大方向:一是集中式計算,另外一種是分布式計算。小編今天給大家整理的是幾種主流的分布式計算框架,希望對大家有所幫助。

Hadoop是基礎,它的HDFS能夠存儲文件,Yarn進行資源管理,在Hadoop的基礎上運行MapReduce、Spark、Tez等計算框架。

MapReduce:是一種離線計算框架,將一個算法抽象成Map和Reduce兩個階段來處理,主要適用于大批量的密集型計算,但是因為是批量執行,因此時效性比較低。

Spark:類似于Hadoop MapReduce,是UC Berkeley AMP lab所開源的通用型并行計算框架,Spark通過map reduce算法,實現分布式計算,保留了 Hadoop MapReduce 所擁有的的優點;但是與MapReduce不同的地方是,時效性很高,Job中間輸出和結果都能夠保存在內存中,不再需要對HDFS進行讀寫,從而對有迭代計算需求和高時效性要求的系統提供了更多的支持,經常被應用于能夠容忍小延時的推薦與計算系統。

Storm:Storm是一個免費開源、分布式、高容錯的實時計算系統。Storm能夠很容易的計算持續不斷地流量,在實時處理上,很好地彌補了Hadoop批處理的不足。由于Storm一開始就是為實時處理而設計的,而且它理論上支持所有語言,只要少量代碼就能完成適配器,經常用于在實時分析、性能監測、持續計算、在線機器學習、分布式遠程調用以及ETL等時效性要求較高的領域。

Tez: 是基于Hadoop Yarn之上的DAG計算框架,直接源于MapReduce框架,它把Map Reduce過程拆分為若干個子過程,同時將多個Map Reduce任務合并成一個較大的DAG任務,減少了Map Reduce之間的文件存儲,同時對其子過程進行合理組合,這也減少了運行任務的時間。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢