熱線電話:13121318867

登錄
首頁精彩閱讀大數據實例:高負載低延遲動態算法解析 _數據分析師
大數據實例:高負載低延遲動態算法解析 _數據分析師
2014-11-18
收藏
大數據實例:高負載低延遲動態算法解析 _數據分析師

這篇文章由Datasalt的創始人Ivan de Prado和Pere Ferrera提供,Datasalt是一家專注于大數據的公司,推出了Pangool和Spoilt SQL Big Data等開源項目。在這篇文章中,通過BBVA信用卡支付的例子詳解了云計算中的低延時方案。

  以下為文章全文:

  使用信用卡進行支付的款項是巨大的,但是很明顯,通過分析所有的交易,我們也可以從數據中得到內在的價值。比如客戶忠誠度、人口統計數據、活動的受歡迎程度、商店的建議和許多其他的統計數據,這對商家和銀行來說都是非常有用的,可以改進他們與市場的聯系。在Datasalt,我們已經與BBVA銀行合作開發了一個系統,該系統能夠對多年的數據進行分析,并為網絡應用程序和移動應用程序提供不同的方案和統計資料。

  我們除了需要對面處理大數據輸入這個主要挑戰外,還要面對大數據的輸出,甚至輸出量比輸入量還要大。并且需要在高負載下提供更快捷的輸出服務。

  我們開發的解決方案中有一個每月只需幾千美元的基礎設施成本,這要感謝使用的云(AWS)、Hadoop和Voldemort。在下面的內容中,我們將解釋所提出的架構的主要特點。

  數據、目標和首要決定

  該系統利用BBVA的信用卡在世界各地的商店交易信息作為輸入源的分析。很明顯,為了防止隱私問題,數據是匿名的、客觀的和分離的,信用卡號碼被切割。任何因此而產生的見解總是聚集,所以從中得不出任何個人信息。

  我們計算每個店和每個不同的時間段的許多統計資料和數據。以下是其中的一些:

  每家店鋪的付款金額的直方圖

  客戶端的保真度

  客戶端人口統計

  商店的建議(在這購買的客戶還購買了)、過濾的位置和商店類別等

  該項目的主要目標是通過低延遲的網絡和移動應用提供所有這些信息到不同的代理(商店、客戶)。因此,一個苛刻的要求是要能夠在高負載下能夠提供亞秒級延遲的服務。因為這是一個研究項目,還需要在代碼和要求需要處理方面有一個高度的靈活性。

  由于更新的數據只能每一次并不是一個問題,我們選擇了一個面向批處理的架構(Hadoop)。并且我們使用Voldemort作為只讀存儲服務于Hadoop產生的見解,這是一個既簡單又超快的鍵/值存儲。

  平臺

  該系統以Amazon Web Services為基礎建立。具體地說,我們用S3來存儲原始輸入數據,用Elastic MapReduce(亞馬遜提供的Hadoop)分析,并用EC2服務于結果。使用云技術使我們能夠快速迭代和快速交付功能原型,而這正是我們需要那種項目。

  體系架構

  該架構具有三個主要部分:

  數據存儲:用戶保持原始數據(信用卡交易)和得到的Voldemort商店。

  數據處理Hadoop的工作流程在EMR上運行,執行所有計算并通過Voldemort創建所需要的數據存儲。

  數據服務:一個Voldemort集群從數據處理層提供預先計算好的數據。

  每一天,銀行上傳在那一天發生的所有交易到S3上的一個文件夾中。這可以讓我們保留所有的歷史數據每天所有的信用卡執行的交易。所有的這些數據都被輸入處理層,所以我們每天都會重新計算一切,之后再處理這些數據,我們就能夠非常靈活。如果需求變更或如果我們找到一個愚蠢的錯誤,我們只需要在下一批中更新項目代碼和所有的固定數據就可以了。這讓我們作出了一個開發的決定:

  一個簡化代碼的基礎架構

  靈活性和適應性的變化

  易于操作的人為錯誤(剛剛修復的錯誤,并重新啟動的過程)

  每天,控制器都會在EMR上啟動一個新的Hadoop集群以及啟動處理流程。這個流程由約16組MapReduce工作組成,計算各種方案。最后的一部分流程(Voldemort索引)負責構建稍后會部署到Voldemort的數據存儲文件。一旦流程結束,得出的數據存儲文件就會上傳到S3上??刂破麝P閉Hadoop集群,并發送一個部署請求給Voldemort。然后,Voldemort會從S3上下載新的數據存儲,并執行一個熱交換,完全取代舊的數據。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢