
大數據項目部署的五大愿景
如果你正在嘗試構建大數據應用或分析系統,你可能會清楚的意識到該領域缺少哪些功能。筆者將人們對大數據的愿景歸納為五大需求,分別是SQL(或SQL-like)分析、快速部署、高級分析、實時分析和網絡分析選件。
好消息是人們正在努力應對這些問題,SQL分析選件就是其中之一。大批數據管理和數據分析專家們對SQL非常熟悉,自然想要利用SQL知識搞清楚Hadoop集群和NoSQL數據庫中的數據。Apache Hadoop軟件的發行商都在規劃、測試,甚至已經發布了SQL(或SQL-like)分析選件,用于分析存在于Hadoop集群里的數據。這些發行商包括Cloudera、EMC、Hortonworks、IBM、MapR和Teradata等。在NoSQL陣營中,10gen公司已經對MongoDB的分析能力進行了改進,大數據廠商Acunu對Cassandra也做了同樣的改進。
部署和管理Hadoop集群和NoSQL數據庫對于大多數IT組織而言是一種全新的體驗,但似乎每個軟件更新帶來的部署和管理新特性都能夠讓生活變得更輕松。與此同時,EMC、HP、IBM、Oracle和Teradata等廠商計劃或已經提供了一些工具,旨在幫助企業進行Hadoop快速部署。其他廠商將重點放在Hadoop框架組件的使用,如WibiData,提供簡化HBase的開源庫、模型和工具。
收集和利用大數據的重點是進行預測分析和其他高級分析,進而得到更明智的商業決策。但是在數據人才短缺的今天,企業正在尋求一種更簡便的方式支持復雜的分析過程。很多廠商和企業都在研究機器學習,這是因為它不依賴于專家,而是依賴數據和計算能力收集客戶行為數據,并挖掘數據背后的商業模式。
大數據的3V原理的其中一個V是velocity(速度),但是很難用“實時”一詞來形容Hadoop,其弊端在于MapReduce的分析方法。MapR和HStreaming等廠商開始為Hadoop增加實時分析功能,其他廠商可能會效仿,尤其是那些事件流處理廠商。
排在第五位的大數據愿景是更簡便的網絡分析。目前,企業友好型圖形分析數據庫和工具不斷涌現,它們采用了很多與Facebook相同的真正大規模的技術。這里提到的工具和技術很少有30年以上的歷史,不會像關系型數據庫和SQL查詢工具那樣成熟。但是有明確的跡象表明,大數據管理和分析的痛點正在迅速緩解。
通過很多關于大數據人才短缺的故事和報告,就可以得到這樣一個結論:大數據領域最迫切的需求是了解數據類型的數據科學家,他們也知道如何通過編寫自定義代碼、MapReduce作業和算法在大數據中獲取洞察力。但是,為何不讓擅長關系型數據庫、商業智能(BI)和分析工具的SQL專家處理更多繁重的工作呢?SQL專家的數量遠遠大于數據科學家,并且大多數SQL專家更急于擴大自己的職業潛力。
推動在Hadoop之上提供SQL分析能力,大數據的人才短缺只是其中一個原因。另一個原因是Apache Hive——Hadoop中的數據倉庫,它提供SQL-like查詢功能的有限子集,但是Hive是將SQL查詢轉化成MapReduce任務,這導致Hive的性能緩慢。
為了應對Hadoop之上SQL查詢范圍更廣、速度更快的需求,很多相關項目和方案陸續發布,如Cloudera Impala、EMC Pivotal HD中的HAWQ查詢特性、Hortonworks Stinger、IBM Big SQL、MapR支持的Apache Drill、Teradata SQL-H等。
即使是NoSQL陣營也在為更好的SQL-like查詢功能而努力。去年10gen公司為其MongoDB NoSQL數據庫新增了一個實時數據統計框架,該框架讓用戶直接在MongoDB中查詢數據,而不需要編寫或者運行編譯的、面向批處理的MapReduce作業。Acunu公司也在做類似的工作,它已開發出一種SQL-like的AQL(Annotator Query Language)語言支持Cassandra查詢。
SQL查詢功能的發展僅僅是個開端。BI、分析工具和大數據平臺自身分析系統的脫穎而出,如Datameer、Hadapt、Karmasphere和Platfora等,它們提供了Hadoop之上的分區查詢、分析、數據可視化和監控能力。
包含Hadoop和NoSQL數據庫在內的大數據平臺一直在努力簡化其部署和管理功能,每次軟件升級都會帶來新的管理特性和新的內置功能,例如10gen公司在最新發布的MongoDB中新增了內置文本搜索功能和預置監控功能。Hortonwork Hadoop發行版針對微軟Windows的版本嵌入Active Directory(活動目錄)、System Center和虛擬化技術,用以簡化大數據的部署和管理。
在構建Hadoop集群的過程中,雖然沒有太多硬件方面的抱怨,但是EMC、IBM、Oracle和Teradata等硬件廠商推出Hadoop一體機,使Hadoop的部署更快速、更便捷。商用硬件的成本很高,但是Oracle稱如果算上每個組件的價格、配置和調整的時間、維護和升級工作、可以直接運行的Cloudera軟件,以及Oracle NoSQL數據庫,一體機的成本比自己部署價格更低。
真正復雜的Hadoop管理常常出現在軟件層面,而非硬件配置。例如HBase——Hadoop架構中日益重要的NoSQL數據庫,很多開發者認為很難在HBase中建模和分析數據。WibiData公司提供開源庫、模型和工具,使HBase中的數據更容易存儲、提取和分析。該理念是將HBase運行中的技術難點可重復化,因此在解決商業問題時節省大量工程師和數據科學家等人力資源,這一準則也可以應用于其他大數據平臺。
開發算法和預測模型是專業數據科學家的工作,但是他們既數量稀少,又需要支付高額報酬。因此,人才短缺是大數據、分析和商業智能廠商開發機器學習方法的原因之一。在光學字符識別、垃圾郵件過濾和計算機安全威脅檢測等應用程序中證實,機器學習使用的學習算法是數據本身訓練而來的。如果展示該算法掃描成千上萬個文本字符、未經請求的電子郵件消息、病毒程序和惡意軟件等,的確能夠找到更多實例。
隨著機器學習的發展,訓練模型還能繼續在新的數據中學習。例如Amazon.com和Netflix公司利用算法發現顧客交易規律,并向他們推薦感興趣的書或電影。每當新書或者電影發行時,這些公司可以利用算法洞察數據中的偏好模式,推薦給相關顧客。
Apache Mahout是全球領先的部署機器學習基礎集群、分類、Hadoop協同過濾算法的項目,該技術同樣是由R統計編程語言支持的。支持或嵌入機器學習技術的廠商還包括Alpine數據實驗室、Birst、Causata、Lionsolver、Revolution Analytics等。
大數據分析上的另一個需求是實時性能。兩家初創廠商正試圖抓住這一機遇,分別是市場分析廠商Causata和實時Hadoop分析廠商HStreaming。
對于Causata而言,“實時”意味著在50毫秒以內作出決策。當你的顧客仍然在訪問網站和手機客戶端時,需要以這種速度更改內容、橫幅廣告和市場報價。Causata利用Hadoop的HBase NoSQL數據庫進行存儲,包括點擊流、活動響應數據和CRM記錄等與市場相關的數據。HBase并不擅長實時查詢,因此Causata在專有查詢引擎上運行基于Java的算法用以提升性能。
HStreaming所用的流處理技術類似于金融交易系統中的事件處理引擎,以及IBM(InfoSphere Streams)、Progress Software (Apama)、SAP (Sybase Aleri)、Tibco (Complex Event Processing)等技術。HStreaming能夠直接從不間斷數據源中提取數據,如視頻監控攝像頭、發射塔、傳感器等。該技術還提供了一種提取、轉換、加載(ETL)的形式,將數據存儲在Hadoop中,用于隨后的分析。HStreaming在視頻監控、網絡優化和移動廣告領域擁有最多應用,在這三種場景下,實時洞察力和行動力是必須的。
與HStreaming采取不同的策略,Hadoop軟件和服務提供商MapR宣布與Informatica成為合作伙伴,并將成為第一個也是唯一一個擁有實時能力的Hadoop軟件發行商,能夠在大數據平臺中以接近實時的速度傳送數據。MapR的Hadoop發行版的特色是無鎖存儲服務層,能夠與Informatica消息傳遞軟件共同運行,不斷將大規模數據傳送至Hadoop。結合即將推出的SQL-on-Hadoop選件,如MapR-favored Drill,大數據又將增加一個快速分析的選擇。
社交網絡為大數據貢獻了規模性和多樣性的數據,社交網絡本身使用圖形數據庫和分析工具,通過研究“節點(nodes)”發現用戶關系網。這些節點代表人、公司、地點等,而邊緣(edges)代表各個節點中復雜的關系。
美國世紀投資公司利用圖形分析預測公司基金投資的業績,該公司使用的開源R統計編程語言和iGraph包由Revolution Analytics(分析力革命公司)提供軟件和支持,由此創建的圖形分析應用能夠跟蹤制造商和供應商之間的資金流。
如同蘋果公司與其芯片和屏幕的供應商或者汽車制造商與其零部件供應商之間的關系。美國世紀投資公司結合這些采購關系的公共和私有數據,運用圖形分析獲得對供應商更清晰的認識,這些預測比基于公共財政報告數據的預測更準確。
其他支持圖形分析的開源技術還有Neo4j,這是Neo Technologies公司開發和支持的一款圖形數據庫。Neo4j適用于IT和電信網絡場景應對安全接入挑戰、在主數據管理應用中觀察數據之間關系的變化,以及在推薦引擎應用中根據好友的行為和關系計算客戶的需求。除此之外,開源圖形分析項目還包括Google Pregel和Apache Giraph,人們對圖形分析的興趣與日俱增。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25