熱線電話:13121318867

登錄
首頁精彩閱讀Hadoop系列文章之一:小象誕生
Hadoop系列文章之一:小象誕生
2014-12-26
收藏

       提及Hadoop這一大數據存儲和處理工具,自然要從它的爸爸Doug Cutting說起。Doug Cutting不僅僅是Hadoop的創始人,還是大名鼎鼎的搜索引擎工具Lucene的開創者。一個程序員能有一個開源軟件為千萬人所用,而且歷久彌新,已經是十分難得。兼具多個的就更是寥寥了。有類似經歷的如Linus Torvalds,即是Linux發明者同時也開發了Git。

  2002 年,Doug Cutting和他的小伙伴Mike Cafarella開始開發一個網絡搜索引擎:Nutch。但是,他們很快意識到最初的實現無法擴展。幸而在2003到2004年,Google的兩篇文章GFS(分布文件系統)和MapReduce(分布計算)橫空出世。很快Nutch實現算法被移植到使用MapReduce和NDFS (Nutch Distributed File System)來運行。近十年來,Google的不少分布式計算和存儲的文章給了工業界啟發,很多開源的項目都來自于此。除了GFS, MapReduce,還有BigTable,Chubby。比起直接開源,Google(至少早起)似乎更喜歡寫文章:)當然,聰明的如Doug這般,這點光亮已經足夠他燦爛了。

  很快,大家就意識到NDFS和MapReduce的價值遠遠不只是搜索領域,在2006年2月,他們從Nutch轉移出來成為一個獨立的Lucene子項目,稱為Hadoop。Hadoop這個名字不是一個縮寫,它是一個虛構的名字。Doug Cutting如此解釋:“個名字是我孩子給他的棕黃色大象玩具命名的。我的命名標準就是簡短,容易發音和拼寫,沒有太多的意義,并且不會被用于別處?!?Hadoop這頭小象就此誕生??梢钥吹?,一個優秀軟件的誕生也不是一朝一夕的事情,Hadoop就經歷了4年的技術積累。

  Doug Cutting也在2006年加入雅虎。正是因為開源和Yahoo的大力支持,Hadoop后來一直順風順水,2008年1月,Hadoop已成為 Apache頂級項目,2008年4月,Hadoop打破世界紀錄,成為最快排序1TB數據的系統。運行在一個910節點的群集,Hadoop在209秒內排序了1 TB的數據(還不到三分半鐘)。當然江山代有才人出,如今Spark 用190個節點,234分鐘sort 1000TB的數據。對于spark這個后起之秀,以后另談。

  經歷了初期的快速增長,Doug意識到很多行業,而不僅僅是像Google,Yahoo這樣的大型互聯網公司需要Hadoop,這促使他之后加盟了 Cloudera,提供專業的Hadoop維護和咨詢服務。而后,Hadoop的世界逐漸出現了三足鼎立的局面。欲知后事如何,且聽下回分解。

原文鏈接:http://blog.csdn.net/tongqqiu/article/details/42138235


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢