熱線電話:13121318867

登錄
首頁精彩閱讀Hadoop生態系統與體系結構
Hadoop生態系統與體系結構
2014-12-23
收藏

介紹

    企業一直在處理快速增長的數據量(也稱為大數據)的存儲和管理問題。原有的存儲經擴展后綴讓能勉強跟上計算容量增長的步伐,但是用來分析該大數據以得出寶貴見解的工具卻落入后了。Hadoop是一款經專門設計的創新性開源大數據分析引擎,旨在最大程度地縮短從企業的數據集到處寶貴見解的時間。本文為系列的第二篇,介紹Hadoop軟件生態系統與體系結構。

更多信息

Hadoop版本:

    Hadoop的版本由開源Apached Foundationapache.org中維護。其他所有版本都是擴展Apache Hadoop或根據其構建的派生版本。下面是目前提供的常見Hadoop版本列表:

  • Apache Hadoop
  • Cloudera CDH3
  • Greenplum HD
  • Horonworks數據平臺

    以上列表并未詳盡列出目前提供的所有Hadoop版本,而只是簡單列出了流行的選擇。有關目前提供的Hadoop版本的詳細列表,請訪問:Distributions and Commercial Support

Hadoop生態系統:

    以下是客戶為使用Hadoop分析數據而運行的軟件堆棧。生態系統組件是Hadoop堆棧之上的附加組件,面向分析工作流提供附加功能和優勢。該領域中一些流行的選擇包括:

<a href='/map/hadoop/' style='color:#000;font-size:inherit;'>Hadoop</a>_2_1.png

 

  • Hive:一個類似于SQL的查詢接口,適用于HDFS中存儲的數據。
  • HBase:一個面向隨機讀/寫列的高性能結構化存儲系統,位于HDFS之上。
  • Pig:高級數據流語言和執行框架,適合于并行計算
  • Manhout:使用Hadoop的可擴展的計算機學習算法
  • RRHIPE):細分并重組大型復雜數據集的統計分析

    以上并未詳盡力促所有的Hadoop生態系統組件。

Hadoop體系結構

    下面是一個體系結構圖,其中顯示了在一個Hadoop計算集群上運行的所有核心Hadoop組件。

 

<a href='/map/hadoop/' style='color:#000;font-size:inherit;'>Hadoop</a>_2_2.png

 

該計算環境中發生的常規交互包括:

  1. 必須將數據接收到HDFS層內。
  2. 使用MapReduce對數據進行計算或分析。
  3. HDFS或其他基礎架構中存儲或導出結果,以適應整個Hadoop工作流。

    上述體系結構還表明NameNode是該環境中的獨立組件,如果它有任何問題,則整個Hadoop環境都將變得不可用。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢