熱線電話:13121318867

登錄
首頁精彩閱讀企業必須考慮的關于大數據架構的6大問題
企業必須考慮的關于大數據架構的6大問題
2017-06-01
收藏

企業必須考慮的關于大數據架構的6大問題

大數據在業務價值方面承諾了很多,但企業可能難以確定如何部署需要利用的架構和工具。從描述性統計,到預測建模,到人工智能的一切都是由大數據提供支持。而組織希望通過大數據來實現這一目標,并將決定其需要推出的工具。

在5月8日召開的2017年戴爾EMC世界會議上,戴爾EMC數據分析的主要系統工程師Cory Minton發表了演示文稿,解釋了組織在部署大數據時必須做出的最大決定。在做出決定開始之前,每個企業都要問這六個問題:

1.購買與構建?

要問的第一個問題是組織是否要購買大型數據系統或從頭開始構建。Teradata,SAS,SAP和Splunk的熱門產品可以買到并簡單實現,而Hortonworks,Cloudera,Databricks,Apache Flink可用于構建大型數據系統。

Minton表示,購買提供更短的時間,以及商品使用的簡單性和良好的價值。然而,這種簡單性通常會帶來更高的成本,而這些工具通常在低多樣性數據方面效果最佳。如果組織與供應商存在現有的關系,則可以更容易地分析新產品并嘗試使用大型數據工具。

許多用于構建大數據系統的流行工具價格低廉或可以免費使用,并且它們可以更容易地利用獨特的價值流。其建設路徑為大規模和多樣化提供了機會,但這些工具可能非常復雜?;ゲ僮餍酝枪芾韱T面臨的最大問題之一。

2.批量與流數據?

Minton說,由Oracle,Hadoop MapReduce和Apache Spark等產品提供的批量數據是描述性的,可以處理大量的數據。他們也可以安排,并經常被用來建立一個數據科學家進行實驗的產品平臺。

像Apache Kafka,Splunk和Flink這樣的產品可以提供能夠捕獲的流數據功能,以創建潛在的預測模型。Minton表示,使用流式傳輸數據,其速度勝過數據保真度,但也提供了巨大的規模和多樣性。這對于認同DevOps文化的組織更為有用。

3.Kappa vs. lambda架構?

Twitter是lambda架構的一個例子。其數據被分為兩個路徑,其中一個路徑被饋送到速度層進行快速分析,而另一個路徑導致批處理和服務層。Minton表示,這種模式使組織能夠訪問批量和流媒體的見解,并平衡有損流。他說,這里的挑戰是人們必須管理兩個代碼和應用程序基礎。

Kappa架構將所有內容都視為流,但它是一個旨在實時保持數據保真度和流程的實時處理。所有數據都將寫入不可變日志,以檢查更改。其硬件高效,代碼較少,這是Minton推薦給開始實施大數據的組織的一種模式。

4.公共云vs私有云?

大數據的公共和私有云需要許多相同的考慮。對于初學者來說,一個組織必須考慮到最適合他們的人才工作的環境。另外,還應該考慮數據來源,安全性和合規性需求,以及彈性消費模型。

5.虛擬化與物理性?

幾年前,虛擬化基礎設備與物理基礎設施的爭論更加激烈,Minton說。然而,虛擬化已經發展到可與物理硬件進行競爭,在大數據部署方面也變得類似。它歸結為組織的管理員更舒適,適用于其現有的基礎設施。

6.DAS vs. NAS?

Minton說,直接連接存儲(DAS)以前是部署Hadoop集群的唯一方式。然而,現在IP網絡增加了帶寬,網絡連接存儲(NAS)選項對于大數據更為可行。

使用DAS很容易上手,而且該模型與軟件定義的概念一致。它是為了處理性能和存儲方面的線性增長而開發的,并且它與流式傳輸數據相當。

網絡連接存儲(NAS)可以很好地處理多協議需求,提供大規模的效率,并且還可以滿足安全性和合規性需求。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢