熱線電話:13121318867

登錄
首頁精彩閱讀Hadoop系列文章之三:技術未來
Hadoop系列文章之三:技術未來
2014-12-26
收藏
Hadoop的未來如何,一個重要的影響因素是技術的更新和進步。從最近幾年Hadoop和其他大數據相關技術的發展,我們可以看出一些端倪。 

數據存儲 – 前景樂觀 

    從文件存儲技術來看,HDFS穩定而健壯,已然是海量文件存儲的實際標準。當然也有一些分布式文件存儲技術值得關注,如GlusterFS, Tachyon等等。但對HDFS尚不構成實質性的威脅。 

    相 比文件存儲的一家獨大,結構化數據的存儲,目前呈現出的是百花齊放的局面。我們之前提到過,在Hadoop生態系統中,結構化數據存儲最成熟的實現是 HBase。你可以把它想象成更靈活,可擴展性更強的MySQL。相比其他NoSQL數據庫如MongoDB和Cassandra的風風火火,HBase 相對低調。但個人認為HBase適用的范圍更廣,前景依然十分樂觀。對于NoSQL數據庫,我就不展開討論了,有興趣的可以參考NoSQL精粹一書。 

數據處理 – 面臨挑戰 

    從 數據處理來看,MapReduce已不再熱門。最本質的原因是MapReduce的模型過于簡單。其后果是使得編程十分困難。一個簡單的word count程序也需要編寫很多MapReduce代碼。雖然有Pig和Cascade等等更高層語言工具的支持,但MapReduce編程總是一件頭疼的 事情。另外,簡單地模型使得特定數據處理的性能優化十分困難。特別是像機器學習這樣需要反復多遍處理數據的應用,文件讀寫成為瓶頸。目前,Spark以其 簡單高效的特性,大有取代MapReduce,成為通用數據處理引擎之勢。當然,Hadoop自己也推出了一些新的數據處理引擎,如 MRv2(YARN)、Tez,但未來恐怕還是Spark的。 

資源調配 – 充滿機遇 

    老 的MapReduce 的另一個問題是它的資源配給機制存在性能缺陷。為從根本上解決舊 MapReduce 框架的性能瓶頸,從 0.23.0 版本開始,Hadoop 的 MapReduce 框架完全重構。新的 Hadoop MapReduce 框架命名為 MapReduceV2 或者叫 YARN。 

    雖 然YARN是為了MapReduce而生的,但是它實際上也是一個獨立的資源管理框架,所以理論上YARN上可以運行任何分布式應用,YARN只是配給 CPU,內存等資源。實際上,Spark,Storm等非Hadoop系的應用都支持在YARN的框架中運行。這使得YARN成為Hadoop“招安”其 他大數據應用成為可能。當然,YARN也不是穩坐泰山,Mesos是一個不可忽視的競爭者,Mesosphere很快就要發布他們的數據中心操作系統,看 看它的Demo就知道未來資源調配是這么回事了。 

    Hadoop對文件存儲和資源調配支持的發展趨勢,我們可以想象,未來Hadoop應該像今天操作系統一樣,成為更底層的基礎設施。 

結語 

    Hadoop 作為大數據的平臺和生態系統,已經過了瘋漲期,步入穩步理性增長的階段。未來,和其他技術一樣,面臨著自身新陳代謝和周遭新技術的挑戰。開源社區能夠繁榮 的不二法門是有更好的程序,更多人使用,更多人貢獻,如此良性循環。希望Hadoop的持續繁榮,可以使各個領域的中小企業也能夠輕松愉快地處理海量的數據。 
 
原文鏈接:http://blog.csdn.net/tongqqiu/article/details/42138329

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢