
大數據和Hadoop生態圈,Hadoop發行版和基于Hadoop的企業級應用
你可能聽別人說過,我們生活在“大數據”的環境中。技術驅動著當今世界的發展,計算能力飛速增長,電子設備越來越普遍,因特網越來越容易接入,與此同時,比以往任何時候都多的數據正在被傳輸和收集。
企業正在以驚人的速度產生數據。僅Facebook每天就會收集 250 TB 的數據。Thompson Reuters News Analytics (湯普森路透社新聞分析)顯示,現在數字數據的總量比2009年的1ZB(1ZB等同于一百萬 PB)多了兩倍多,到 2015 年有可能將達到7.9ZB,到 2020 年則有可能會達到35ZB。其他調查機構甚至做出了更高的預測。
隨著企業產生并收集的數據量增多,他們開始認識到數據分析的重要性。但是,他們必須先有效地管理好自己擁有的大量信息。這會產生新的挑戰:怎樣才能存儲大量的數據?怎樣處理它們?怎樣高效地分析它們?既然數據會增加,又如何構建一個可擴展的解決方案?
不僅研究人員和數據科學家要面對大數據的挑戰。幾年前,在Google+ 大會上,計算機書籍出版者Tim O’Reilly引用過Alistair Croll的話,“這些產生了大量的無明顯規律數據的公司,正在被那些產生了相對較少的有規律數據的新創公司取代……”。簡而言之,Croll想要說,除非你的企業“理解”你擁有的數據,否則你的企業無法與那些“理解”自身數據的公司抗衡。
企業已經意識到:大數據與商業競爭、態勢感知、生產力、科學和創新等密切相關,分析這些大數據能夠獲得巨大的效益。因為商業競爭正在驅動大數據分析,所以大多數企業認同O’Reilly和Croll的觀點。他們認為當今企業的生存依賴于存儲、處理和分析大量信息的能力,依賴于是否掌控了接受大數據挑戰的能力。
如果你閱讀這本書,你將會熟悉這些挑戰,熟悉Apache的Hadoop,并且知道Hadoop可以解決哪些問題。本章主要介紹大數據的前景和挑戰,并且概述Hadoop及其組件生態圈??梢岳眠@些組件構建可擴展、分布式的數據分析解決方案。
由于“人力資本”是一個無形的、對成功至關重要的因素,所以多數企業都認為他們的員工才是他們最有價值的財產。其實還有另外一個關鍵因素——企業所擁有的“信息”。信息可信度、信息量和信息可訪問性可以增強企業信息能力,從而使企業做出更好的決策。
要理解企業產生的大量的數字信息是非常困難的。IBM指出在過去僅僅兩年的時間里產生了世界90%的數據。企業正在收集、處理和存儲這些可能成為戰略資源的數據。十年前,Michael Daconta, Leo Obrst, and Kevin T.Smith (Indianapolis: Wiley, 2004)寫的一本書《The Semantic Web: A Guide to the Future of XML, Web Services, and Knowledge Management》中有句格言“只有擁有最好的信息,知道怎樣發現信息,并能夠最快利用信息的企業才能立于不敗之地”。
知識就是力量。問題是,隨著收集的數據越來越多,傳統的數據庫工具將不能管理,并且快速處理這些數據。這將導致企業“淹沒”在自己的數據中:不能有效利用數據,不能理解數據之間的聯系,不能理解數據潛在的巨大力量。
人們用“大數據”來描述過于龐大的數據集,這些數據集一般無法使用傳統的用于存儲、管理、搜索和分析等過程的工具來處理。大數據有眾多來源,可以是結構型的,也可以是非結構型的;通過處理和分析大數據,可以發現內部規律和模式,從而做出明智選擇。
什么是大數據的挑戰?怎么存儲、處理和分析如此大的數據量,從而從海量數據中獲取有用信息?
分析大數據,需要大量的存儲空間和超級計算處理能力。在過去的十年中,研究人員嘗試了各種的方法來解決數字信息增加帶來的問題。首先,把重點放在了給單個計算機更多的存儲、處理能力和內存等上面,卻發現單臺計算機的分析能力并不能解決問題。隨著時間的推移,許多組織實現了分布式系統(通過多臺計算機分布任務),但是分布式系統的數據分析解決方案往往很復雜,并且容易出錯,甚至速度不夠快。
在2002年,Doug Cutting和Mike Cafarella開發一個名為Nutch的項目(專注于解決網絡爬蟲、建立索引和搜索網頁的搜索引擎項目),用于處理大量信息。在為Nutch項目解決存儲和處理問題的過程中,他們意識到,需要一個可靠的、分布式計算方法,為Nutch收集大量網頁數據。
一年后,谷歌發表了關于谷歌文件系統(GFS)和MapReduce的論文,MapReduce是一個用來處理大型數據集的算法和分布式編程平臺。當意識到集群的分布式處理和分布式存儲的前景后,Cutting和Cafarella把這些論文作為基礎,為Nutch構建分布式平臺,開發了我們所熟知的Hadoop分布式文件系統(HDFS)和MapReduce。
在2006年,Yahoo在為搜索引擎建立大量信息的索引的過程中,經歷了“大數據”挑戰的掙扎之后,看到了Nutch項目的前景,聘請了Doug Cutting,并迅速決定采用Hadoop作為其分布式架構,用來解決搜索引擎方面的問題。雅虎剝離出來Nutch項目的存儲和處理部分,形成Apache基金的一個開源項目Hadoop,與此同時Nutch的網絡爬蟲項目保持自己獨立性。此后不久,雅虎開始使用Hadoop分析各種產品應用。該平臺非常有效,以至于雅虎把搜索業務和廣告業務合并成一個單元,從而更好地利用Hadoop技術。
在過去的10年中,Hadoop已經從搜索引擎相關的平臺,演變為最流行通用的計算平臺,用于解決大數據帶來的挑戰。它正在快速成為下一代基于數據的應用程序的基礎。市場研究公司IDC預計,到2016年,Hadoop驅動的大數據市場將超過23億美元。自從2008年建立第一家以Hadoop為中心的公司Cloudera之后,幾十家基于Hadoop的創業公司吸引了數億美元的風險投資。簡而言之,Hadoop為企業提供了一個行之有效的方法,來進行大數據分析。
1.1.1 Hadoop:迎接大數據挑戰
Apache的Hadoop通過簡化數據密集型、高度并行的分布式應用的實現,以此迎接大數據的挑戰。世界各地的企業、大學和其它組織都在使用Hadoop,Hadoop把任務分成任務片,分布在數千臺計算機上,從而進行快速分析,并分布式存儲大量的數據。Hadoop利用大量廉價的計算機,提供了一個可擴展強,可靠性高的機制;并利用廉價的方式來存儲大量數據。Hadoop還提供了新的和改進的分析技術,從而使大量結構化數據的復雜分析變為可能。
Hadoop與以前的分布式方法的區別:
此外,Hadoop隱藏了復雜的分布式實現過程,提供了一種簡單的編程方法。從而,Hadoop得以提供強大的數據分析機制,包括以下內容:
對于大多數Hadoop用戶而言,Hadoop最重要的特征是,將業務規劃和基礎設施維護進行了清晰的劃分。為那些專注于商業業務的用戶,隱藏了Hadoop的基礎設施的復雜性,并提供了一個易于使用的平臺,從而使復雜的分布式計算的問題簡單化。
1.1.2 商業界的數據科學
Hadoop的存儲和處理大數據的能力經常與“數據科學”掛鉤。雖然該詞是由彼得·諾爾在20世紀60年代提出的,但是直到最近才引起人們廣泛關注。美國雪域大學杰弗里·斯坦頓德教授把“數據科學”定義為“一個專注于搜集、分析、可視化、管理和大量信息保存的新興領域”。
通常將“數據科學”這一術語用在商業業務分析中,與實際中的“大數據”學科有很大的不同。在數據科學中,業務分析師通過研究現有商業運作模式,來提升業務。
數據科學的目標是從數據提取出數據的真正含義。數據科學家基于數學、統計分析、模式識別、機器學習、高性能計算和數據倉庫等來工作,通過分析數據來發現事物發展趨勢,并基于收集到的信息開發新業務。
在過去的幾年中,許多數據庫和編程方面的業務分析師成為了數據科學家。他們在Hadoop生態圈中,使用高級的SQL工具(比如:Hive或者實時Hadoop查詢工具)進行數據分析,以做出明智的業務決策。
不只是“一個大數據庫”
在本書后面會深入講解Hadoop,但在此之前,讓我們先消除這樣的誤區——Hadoop僅僅是數據分析師使用的工具。因為對于那些熟悉數據庫查詢的人,Hadoop工具(如Hive和實時Hadoop查詢)提供了較低的門檻,所以一些人認為Hadoop僅僅是以數據庫為中心的工具。
此外,如果你正在試圖解決的問題超出了數據分析的范疇,并涉及到真正的“科學數據”的問題,這時,SQL數據挖掘技術將明顯變得不再實用。例如,大多數問題的解決,需要用到線性代數和其它復雜的數學應用程序,然而,這些問題都不能用SQL很好地解決。
這意味著,使用Hadoop工具是解決這類問題的最好辦法。利用Hadoop的MapReduce編程模型,不但解決了數據科學的問題,而且明顯簡化了企業級應用創建和部署的過程??梢酝ㄟ^多種方式做到這一點——可以使用一些工具,這些工具往往要求開發者具備軟件開發技能。例如,通過使用基于Oozie的應用程序進行協調(在本書后面將詳細介紹Oozie),可以簡化多個應用程序的匯集過程,并非常靈活地鏈接來自多個工具的任務。在本書中,你會看到Hadoop在企業中的實際應用,以及什么時候使用這些工具。
目前Hadoop的開發,主要是為了更好地支持數據科學家。Hadoop提供了一個強大的計算平臺,擁有高擴展性和并行執行能力,非常適合應用于新一代功能強大的數據科學和企業級應用。并且,Hadoop還提供了可伸縮的分布式存儲和MapReduce編程模式。企業正在使用Hadoop解決相關業務問題,主要集中在以下幾個方面:
類似的例子數不勝數。企業正在逐步使用Hadoop進行數據分析,從而作出更好的戰略決策??偠灾?,數據科學已經進入了商界。
不僅僅是針對商業的大數據工具
雖然這里的大多數例子針對于商業,但是Hadoop也被廣泛應用在科學界和公有企業。
最近一項由美國科技基金會進行的研究指出,醫療研究人員已經證明,大數據分析可以被用于分析癌癥患者的信息,以提高治療效果(比如,蘋果創始人喬布斯的治療過程)。警察部門正在使用大數據工具,來預測犯罪可能的發生時間和地點,從而降低了犯罪率。同樣的調查也表明,能源方面的官員正在利用大數據工具,分析相關的能量損耗和潛在的電網故障問題。
通過分析大數據可以發現模型和趨勢,提高效率,從而用新方法來作出更好的決策。
架構師和開發人員通常會使用一種軟件工具,用于其特定的用途軟件開發。例如,他們可能會說,Tomcat是Apache Web服務器,MySQL是一個數據庫工具。
然而,當提到Hadoop的時候,事情變得有點復雜。Hadoop包括大量的工具,用來協同工作。因此,Hadoop可用于完成許多事情,以至于,人們常常根據他們使用的方式來定義它。
對于一些人來說,Hadoop是一個數據管理系統。他們認為Hadoop是數據分析的核心,匯集了結構化和非結構化的數據,這些數據分布在傳統的企業數據棧的每一層。對于其他人,Hadoop是一個大規模并行處理框架,擁有超級計算能力,定位于推動企業級應用的執行。還有一些人認為Hadoop作為一個開源社區,主要為解決大數據的問題提供工具和軟件。因為Hadoop可以用來解決很多問題,所以很多人認為Hadoop是一個基本框架。
雖然Hadoop提供了這么多的功能,但是仍然應該把它歸類為多個組件組成的Hadoop生態圈,這些組件包括數據存儲、數據集成、數據處理和其它進行數據分析的專門工具。
隨著時間的推移,Hadoop生態圈越來越大,圖1-1給出了Hadoop核心組件。
圖1:Hadoop生態圈的核心組成組件
從圖1-1的底部開始,Hadoop生態圈由以下內容組成:
HDFS—— Hadoop生態圈的基本組成部分是Hadoop分布式文件系統(HDFS)。HDFS是一種數據分布式保存機制,數據被保存在計算機集群上。數據寫入一次,讀取多次。HDFS為HBase等工具提供了基礎。
MapReduce——Hadoop的主要執行框架是MapReduce,它是一個分布式、并行處理的編程模型。MapReduce把任務分為map(映射)階段和reduce(化簡)。開發人員使用存儲在HDFS中數據(可實現快速存儲),編寫Hadoop的MapReduce任務。由于MapReduce工作原理的特性, Hadoop能以并行的方式訪問數據,從而實現快速訪問數據。
Hbase——HBase是一個建立在HDFS之上,面向列的NoSQL數據庫,用于快速讀/寫大量數據。HBase使用Zookeeper進行管理,確保所有組件都正常運行。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25