熱線電話:13121318867

登錄
首頁精彩閱讀Hadoop系列文章之二:三足鼎立
Hadoop系列文章之二:三足鼎立
2014-12-26
收藏

      上次說到了Hadoop是目前最流行的大數據工具,其核心是HDFS來存儲數據和MapReduce來處理數據,但它又不僅僅如此。后來,圍繞著 Hadoop相繼出現了一系列的應用。比如存儲結構化數據的HBase,用于和傳統數據實現數據遷移的Spooq,SQL接口Hive,用于工作調度的 Ozzie,以腳本取代代碼完成MapReduce的Pig,機器學習工具集Mahout等等。羽翼漸豐的Hadoop已經一步步從“工具”發展成為“平臺”和“生態系統”??墒?,一條技術鴻溝卻橫在了眾多企業面前。一方面,無論是金融還是電信,各個領域的大公司都有海量數據處理的需求。而另一方面,他們的IT部門大都不具備部署、維護大規模Hadoop集群,和開發Hadoop應用的能力。而他們以前倚重的IBM,Oracle也沒有這樣的能力。

  正是看到了這一點,以Hadoop為核心的一些咨詢公司相繼成立。經過市場洗禮,目前呈現出Cloudera,Hortonworks和MapR三足鼎立之勢。三家的產品我都使用過,以后兩家為主。下面就分別談談各家的優勢和劣勢。

  Cloudera 成立于2008年,是三家中成立最早的,目前為止客戶資源最多,技術儲備時間最長,規??偭孔畲?。背后有Intel做堅強后盾。其產品線以企業級的平臺管理和監控著稱,其Hadoop用戶界面Hue也十分友好。當然,Cloudera的許可證價格不菲,都是按年按機器收錢,這一點和Oracle沒什么區別,可能和CEO的Oracle前高管的背景有關。

  Hortonworks 成立比較晚,是從Yahoo中剝離出去的,也算是嫡系正統。和其他兩家最大的不同是,Hortonworks堅持百分百開源的理念,完全只靠咨詢服務賺錢。我是開源的擁護者,也十分看好它未來的發展。個人認為Hortonworks的拳頭產品是Hadoop自動部署工具Ambrari和資源管理器 YARN。其中YARN的意義甚至超過了Hadoop本身,這一點會在以后的文章中討論。另外,Hortonworks在12月份剛剛IPO,希望充裕的資金有助于加速它對開源項目的貢獻。

  MapR 和原生的Hadoop相距最遠。它完全重寫了文件系統和HBase實現,從而大幅提高了系統性能。它的讀寫性能都數倍于原生Hadoop。重新實現同時也簡化了Hadoop的安全框架。但問題是和原生的HDFS和HBase不可能完全兼容,使得它在產品配套更新方面總是慢半拍。應用開發者也往往要付出額外的精力去考慮兼容Hadoop。當然,權衡投入產出比,這樣的付出也許是值得的。最近MapR剛剛宣布其MapR Database可以免費使用,大概也是看到了自己的優秀產品在接受度上的尷尬。此外,MapR和Google走得很近,也等到了Google風投的資助,其產品通過腳本程序可以很方便地部署到Google計算引擎。很榮幸MapR接受了我對其腳本的小小補充。

  大數據市場是一塊大蛋糕,三家公司應該會愉快地玩耍一段時間(除非被其他巨頭吃掉)。至于長遠來看,誰會是最大贏家,以及Hadoop還能火多久,取決于市場,資金和技術等諸多因素的影響。技術層面來看,我們也許可以從近兩年的發展略窺端倪,請看下篇Hadoop之技術未來。

原文鏈接:http://blog.csdn.net/tongqqiu/article/details/42138295

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢