熱線電話:13121318867

登錄
首頁職業發展史上最實用!大數據實施系統計劃_數據分析師考試
史上最實用!大數據實施系統計劃_數據分析師考試
2015-07-18
收藏

史上最實用!大數據實施系統計劃_數據分析師考試


大數據——這個詞看起來比較深奧,一般非專業人士聽著覺得相對復雜,覺得可能需要很大成本來部署和實施。然而幸運地是市面上已經有一些云服務來幫助我們讓大數據變得更簡單。另外,如果你選擇合適的工具,也往往會使你的大數據之路起到事半功倍的效果。

  

  因此在實際應用上,大數據的實際實施系統可以有很多種方式。通過你的預算和思考規劃,你將能使用最便捷、最實用、又最低成本的大數據實施系統。

  在選擇據具體大數據工具之前,你最好回答三個問題:

  1. 你的數據有多大?

  2. 你希望你的數據查詢要多快?

  3. 你想要怎樣展現數據?

  第一個問題決定你需要什么樣的大數據存儲系統,第二個問題決定你需要什么樣的查詢或者執行引擎。第三個問題決定了你需要怎樣功能的相關數據可視化工具。第三個問題相對簡單,市面上的數據可視化工具特色明顯:大數據魔鏡可視化效果達500種以上,展現效果絢麗,適合需要多種展現方式的數據;Tableau可視化效果少,但數據展示功能依然很強,能夠直觀展示普通可視化需求的數據。

  下面是基于對前兩個問題的不同回答,推薦采用的一些工具。

  1. 超大數據(幾百TB),查詢時間容忍度很高(幾小時)

  這個是批處理(batch processing)適用的場景。一個可行的方案是:AWS S3 + Apache Spark。你可以執行Spark任務,讀取S3中的數據,然后將計算結果存成CSV文件,最后用Excel分析或者可視化結果。

  2. 中等規模數據(幾十TB),希望查詢快速響應(幾秒鐘)

  這個通常是交互式查詢適用的場景。一個可行的方案是:AWS Redshift + Tableau。Redshift提供低延遲查詢處理,Tableau提供很好的數據可視化功能,二者結合起來可以輕松的分析大量數據,只是需要一定的成本。需要提醒的是,你最好提前規劃好Redshift集群的規模和容量,減少隨機動態調整, 因為在Redshift中,擴展集群(scale up or scale out)是個比較痛苦的過程。

  3. 中等規模數據(幾十TB),一定的查詢響應容忍度(幾分鐘),低成本

  這個場景適用于預算有限的情況,或者你不想在AWS Redshift和Tableau上投入太多。你將需要對大數據比較了解的開發人員,從而可以自己搭建企業內部的大數據集群。一個可行的解決方案是:Apache Cassandra + Presto Query Engine + H2 Console (from H2 Database Engine)。

  Cassandra提供高可靠性大數據存儲系統,并且比較容易部署。Presto提供分布式SQL執行引擎,可以運行在Cassandra之上,并提供JDBC支持。H2 Console是一個簡單但是有效的Web界面,用來查詢JDBC數據源。利用這些工具組合,你不需要任何編程工作,就可以在企業內部搭建起一個端到端大數據解決方案。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢