熱線電話:13121318867

登錄
首頁精彩閱讀讓你的大數據應用具備更高性能
讓你的大數據應用具備更高性能
2015-09-04
收藏

讓你的大數據應用具備更高性能


大數據應用在大型企業中變得越來越常見。企業具備歷史數據分析和趨勢預測的能力,能夠為自身創造可觀價值;此外,商業智能分析不僅可以避免出現運輸中斷、資源短缺,還能減少服務水平協議SLA和預測客戶所需的產品和服務。BI能夠給企業帶來巨額紅利。

隨著購物節的臨近,利用客戶交互的明顯增加,可以預期到你的企業將會開展更多的BI活動。通過優化大數據應用,提高性能,IT企業應該積極為更大數據量和更多的分析活動做好準備

從哪里開始

DBA、支持人員應將他們的努力集中在以下幾個領域:災難恢復,數據倉庫性能和數據組織以及大數據的應用中的數據存儲。

災難恢復

大多數IT人員認為災難恢復并不屬于性能調優的范疇。在大數據環境下,這一誤解又有所加深,因為人們普遍認為建立在大數據應用上的數據分析,相對于計算工資,總帳,訂單輸入,運輸和客戶服務之類的應用來說,并不十分重要。

但是,大數據應用在過去的幾年里已經日趨成熟,企業所使用的業務分析功能也隨之日臻完善。曾經的臨時查詢現在被作為常規報表來執行;額外的歷史數據允許查詢對大量數據進行比較和分析,通過進行負載均衡,商業分析軟件可以讓你的大數據應用得以更加方便快捷的執行查詢。這使得今天的大數據應用提供了大量的可操作數據,可以提供更好的客戶服務,消耗更低的成本并獲得更高的利潤。

這意味著,即使大數據應用遭遇一次很小的中斷,都可能在你的用戶群中產生連鎖反應,報表無法按時交付、查詢無法正常運行、以及那些基于商業分析結果的決策被延遲等。

DBA應該經常審核DR計劃,以保證大數據應用在其控制之下。他們需要關注下列幾種情況。

審核恢復過程。一年中最忙的時候就是遭到災難性故障的時候。中斷將會顯著的影響企業的營利,特別是在事務頻繁的時期。DBA應該協助恢復過程,避免浪費時間和精力。

驗證恢復時間。很多DR計劃包括一個目標恢復時間,表示可以完全恢復的最晚時間點。對于數據庫來說,這可能意味著從備份文件恢復數據,并將日志從備份時間調整到恢復時間點。在高峰時期,數據和事務量較大;因此,恢復時間可能延長。為了降低這種風險,DBA應該考慮實施更頻繁的關鍵數據庫備份。由于在數據表恢復過程中,通常需要花時間來重建索引,DBA應該將DB2的備份和恢復能力考慮在內。

數據倉庫性能

一般來說,大數據的存儲和分析或存在于企業數據倉庫(EDW)內部,或者與其相關。要整合各地的大數據解決方案,你需要為每一部分的EDW過程設置接口。下面是一個關于EDW子系統的總結,涉及大數據對它們的影響,以及如何提前制定性能計劃。

數據獲取和采集。包括一個在數據轉移到EDW之前,用于暫存數據的方案,以避免硬件故障造成的延誤。還應確定這些新資產和流程將如何影響你的災難恢復計劃。開發人員喜歡在旺季開始之前實現新功能或加固操作系統。其中一些增強數據可能需要傳遞到你的數據倉庫,隨后為大數據應用可能執行的查詢提供服務。在此之前你要確定,這些新應用或者改動后的應用可能需要一個業務分析組件,

數據轉換和遷移??焖龠w移大量數據可能需要額外的資源,甚至特殊的軟件或硬件。你的網絡有能力將日益增長的數據從操作系統遷移到數據倉庫,并最終部署到大數據應用中么?

數據訪問和分析。隨著數據持續填滿倉庫,在倉庫和大數據的應用合并后,用戶可以運行分析軟件。捕獲數據訪問路徑和數據分布統計信息并留作分析。你需要確定是否有足夠的系統資源(CPU、磁盤存儲、網絡容量等)來支持預期的查詢工作負載。

數據歸檔。大量的數據分析,龐大的數據量可能會占用寶貴的存儲介質,使一些進程運行緩慢。IT和業務合作伙伴必須決定如何以及何時將舊的大數據存檔清除,以及它是否必須保留以供日后使用。

大數據的組織和存儲

供應商銷售的第一大數據應用通常是即插即用型的。幾乎沒有調優選項。主要的原因是,應用依賴一個專有的,混合的硬件和軟件解決方案,該解決方案使用大規模并行存儲和I / O,以實現對分析查詢的快速應答。

客戶對于大數據分析的需求日益成熟,供應商解決方案需要提供多個同步存儲和檢索數據的方法。其結果是供應商設計并實現了可選數據存儲和檢索選項。一個例子是指定關鍵記錄如何存儲的能力。設想一個大數據應用,實現了一百個獨立的磁盤驅動器。原始的應用通常將記錄隨機分散到這些驅動器。一些分析查詢可以在邏輯上分成一百個獨立的查詢,每個查詢訪問一個驅動器,所有查詢的結果合并成最終的答案,比相同的序列數據庫查詢快上一百倍。

然而,考慮一個基于鍵的,需要連接兩個表的查詢。隨機分布在一百個磁盤驅動器的兩個表將不再具備性能優勢,因為行連接操作與兩個表存儲在同一個磁盤驅動器上時已經完全不同了。

目前很多大數據應用解決方案包含選項和算法以支持跨驅動器的表查詢,存儲是按鍵值排序的,并不是隨機分布。通過在每一個磁盤驅動器存儲相同范圍的鍵值行,行連接操作將在同一個驅動器上執行。因此按鍵值指定數據分布的能力提供了巨大性能提升。

考慮到這一點,以下是一些建議,可用于大數據應用的性能調優。

檢查數據分布統計信息。使用RunStats程序來收集表鍵和數據分布信息。特別是主鍵和外鍵索引,因為表連接通常會基于這些列。

審查數據訪問路徑。在本質上分析查詢是臨時的,數據表最有可能使用相同或相似的訪問路徑加被訪問。捕獲和分析這些訪問路徑尋找常見的連接方法。這一信息,加上數據分布統計信息,將幫助您確定數據表應如何按鍵值分布在大數據應用中。

存儲數據訪問路徑以進行分析。作為上面的建議的延伸,你應該有一個方法用于捕獲和儲存分析查詢的訪問路徑。方法返回結果應展示出表和索引是如何被訪問,以及使用了哪些索引,執行了哪些排序等等。查詢獲取更多的數據,數據量增加返過來審查你的歷史訪問路徑并比較。數據量增加引起的變化,觀察訪問路徑的變化都可能表明性能出了問題。

總結

通過審核數據恢復流程,提高數據倉庫的性能,評估當前大數據應用性能的優化選項,可以讓你的大數據應用為即將到來高峰做好準備。大數據應用的數據組織方式對性能有這十分顯著的影響;此外,你還應該仔細考慮可能發生的故障,為災難做好準備,即使大數據應用上一個小的中斷都可能對企業利益造成重大影響。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢