熱線電話:13121318867

登錄
首頁精彩閱讀Hadoop 2.0:大數據的新突破在即-數據分析師
Hadoop 2.0:大數據的新突破在即-數據分析師
2014-11-17
收藏

Hadoop 2.0:大數據的新突破在即-CDA數據分析師


以往 Hadoop 似乎就是大數據的代名詞。不過最近隨著大數據應用的深入,大家已經越來越傾向于僅僅把它看成是大數據的一個存儲工具了。


不過這并不一定就是壞事。把 Hadoop 當作廉價有效的存儲正好是 Hadoop 下一階段演進的的完美起點。今年夏天就要亮相的 Hadoop 2.0 將會令數據倉庫中的信息以及非結構化數據池前所未有地容易訪問。

Hadoop大桶

自成為大數據工具以來,Hadoop 就是一個非常棒的數據存儲系統,但是需要開發 Java 應用來訪問數據的 MapReduce 學習起來卻比較困難。

當然,還有別的辦法可以從 Hadoop 中獲取信息。Hbase數據是 Hadoop 的一部分,它可以讓用戶按照數據庫范式來處理數據。Hive數據倉庫則可以讓你用類 SQLHiveSQL 查詢語言來創建查詢并轉化為 MapReduce 任務。不過 Hadoop 仍受限于單線程性。MapReduce 任務、Hive 查詢、Hbase 操作,等等,這些都要輪流進行。


這就是許多大數據供應商傾向于僅將 Hadoop 當作數據容器的原因,為了提高效率,他們在此基礎上再開發自己的工具來獲取或分析其中的數據。盡管把 Hadoop 形容為一個大桶很形象,但是 Hadoop 用戶當中已經有人把它看作是數據大湖甚至數據海洋了。不過光是規模大還是不行的,那些限制影響到了 Hadoop 的賣點。


Hadoop 的開發社區也意識到這個問題,隨著 Hadoop 即將迭代到新的版本,上述限制即將在很大程度上被解除。

YARN解決方案


Hadoop 2.0 發布經理 Arun Murthy 看來,其最重要的變化是 MapReduce 框架升級為Apache YARN,這將擴展 Hadoop 中可以應用的軟件種類和應用程度。Arun Murthy 本人就是 YARN 項目主管,他指出,Hadoop 1.0 和 2.0 的區別在于,前者所有的事情都是面向批處理的,而后者則允許多個應用同時在內部訪問數據。


相對于當前 MapReduce 系統能處理的事情,把這些功能分開使得 Hadoop 集群資源的管理更加強大。其主要管理方式類似于操作系統對任務的處理,也就是說不再有一次一項操作的限制了。

有了 YARN,開發者就能夠直接在 Hadoop 內部來開發應用,而不是像許多第三方工具所做的那樣,在外面把數據篩選出來。

Murthy 稱,現在已經有供應商對在 YARN 框架內開發應用表現出興趣。Murthy 估計,Hadoop 2.0 的強力 beta 版有可能會在今年 6 月或 7 月推出,正式版則可能在 8 月發布。

如果 YARN 的確能履行其承諾的話,開發者將可以在原生的 Hadoop 平臺里方便地接觸到許多的數據大湖大海,令搜尋有用信息的任務更加流暢和便捷。屆時,大數據會變得更加有用、更加大眾化。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢