熱線電話:13121318867

登錄
首頁職業發展解讀IBM基于Hadoop的數據分析平臺_數據分析師
解讀IBM基于Hadoop的數據分析平臺_數據分析師
2014-11-24
收藏

解讀IBM基于Hadoop的數據分析平臺_數據分析師

毫無疑問,大數據成了2012年的熱門詞。根據國外統計機構的報告,大數據處理在今年的市場規模已經達到700億美元并且正以每年15-20%的速度增長。幾乎所有主要的大科技公司都對大數據感興趣,對該領域的產品及服務進行了大量投入。其中包括了IBM、Oracel、EMC、HP、Dell、SGI、日立、Yahoo等,而且這個列表還在繼續。

    IBM也在2011年中旬對外發布了針對大數據處理和分析技術:在SmartCloud平臺上新增基于Apache Hadoop的服務InfoSphere BigInsights分析軟件。在日前舉行的中國程序員、數據庫工程師“2011 IBM DB2 遷移之星大賽”媒體活動上。IBM軟件集團大中華區信息管理軟件總經理盧偉權、IBM中國開發中心信息管理總經理朱輝就相關話題分享了自己的看法。

3年前布局Hadoop研發

      據介紹,IBM對Hadoop的研究開始于2~3年前。截止到目前,研究成果涉及作業調度、查詢語言等多個方面。作為典型應用成果,IBM InfoSphere大數據分析平臺包括BigInsights和Streams,二者互補,Biglnsights對大規模的靜態數據進行分析,它提供多節點的分布式計算,可以隨時增加節點,提升數據處理能力。Streams采用內存計算方式分析實時數據。InfoSphere大數據分析平臺還集成了數據倉庫、數據庫、數據集成、業務流程管理等組件。

BigInsight整體框架圖

     BigInsights基礎版和企業版均包含了Apache Hadoop和大量的開源軟件技術,具體包含的開源項目:

  • Apache Hadoop包括Hadoop Distributed File System (HDFS)、MapReduce框架和通用的實用工具,是一種適用于數據密集型應用的軟件框架,可用于開發分布式計算環境
  • Pig是用于Hadoop的一種高級編程語言和運行時環境
  • Jaql是基于JavaScript Object Notation (JSON)的一種高級查詢語言,也支持SQL
  • Hive是一種數據倉庫基礎架構,設計用于支持批量查詢和分析Hadoop管理的文件
  • HBase是一種以列為主的數據存儲環境,設計用于支持Hadoop中的稀疏填充的大型表格
  • Flume是一種用來數據收集并將其加載到Hadoop中的工具
  • Lucene是一種文本搜索和索引技術
  • Avro是一種數據序列化技術
  • ZooKeeper是分布式應用程序的一種協作服務
  • Oozie是工作流/作業編排技術

    除了開源技術,BigInsights還包含了IBM開發的定制技術:一個文本分析引擎、一個用于商業分析數據挖掘工具,以實現與企業軟件的整合和Hadoop增強的效果。

IBM中國開發中心信息管理總經理朱輝

      在IBM中國開發中心信息管理總經理朱輝看來,BigInsights并沒有替代OLAP(Online Analytical Processing)或OLTP(Online Transaction Processing)應用程序,但它可以整合其中,用于“過濾大量原始數據并合并結果,將結果以結構化數據的形式保存在DBMS或數據倉庫中”。IBM的Hadoop解決方案已經問世了,客戶可以進行測試。

Hadoop無法單一解決大數據問題

     此外,朱輝認為目前面臨的大數據分析和處理問題,業界需要一整套全面的解決方案?!爱斍叭魏我环N單一的產品都無法完整解決面臨的大數據的問題和挑戰?,F在行業當中大家聽得最多的是Hadoop,但我不認為基于任何一個例如Hadoop這樣的單一產品就能夠解決目前的問題。傳統的數據倉庫在這當中仍然扮演一個非常重要的角色,至少是海量數據巨大的產生源?!?

     此外,據當天與會的IBM Big Data開發資深經理王遠洪介紹,IBM CDL(中國開發實驗室)的研發人員參與了BigInsights項目的全球研發,并積極幫助國內客戶在本地驗證IBM基于Hadoop的數據分析平臺項目。

IBM軟件集團大中華區信息管理軟件總經理盧偉權

     在當天的活動中,IBM軟件集團大中華區信息管理軟件總經理盧偉權介紹了本次中國程序員、數據庫工程師“2011 IBM DB2 遷移之星大賽”活動情況。此次大賽于2011年9月20日在北京正式拉開帷幕,分為預賽、復賽、決賽三個階段。預賽采取了網上答題的方式進行,選取成績最好的100名選手進入復賽;進入復賽的選手則根據地域、興趣自行組隊,按照組委會公布的應用相關的方向和領域,向組委會提交團隊的Proposal,由評委最終選出進入決賽環節的10支隊伍,參加3月14日于北京進行的總決賽。除獲得獎金、證書等獎勵外,競賽優勝隊伍還將獲得參觀IBM美國實驗室的機會。

    在早些時候,甲骨文也曾宣布其大數據系統Big Data Appliance將能夠支持Hadoop,而且微軟也暗示將在Azure云平臺和 Windows Server上對Hadoop進行支持。此外,亞馬遜的Elastic MapReduce云服務也是基于Hadoop??梢韵嘈?,大數據的解決 方案會受到業界的極大關注。(本文來自:CDA數據分析師

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢