
讓你的大數據應用具備更高性能
大數據應用在大型企業中變得越來越常見。企業具備歷史數據分析和趨勢預測的能力,能夠為自身創造可觀價值;此外,商業智能分析不僅可以避免出現運輸中斷、資源短缺,還能減少服務水平協議SLA和預測客戶所需的產品和服務。BI能夠給企業帶來巨額紅利。
隨著購物節的臨近,利用客戶交互的明顯增加,可以預期到你的企業將會開展更多的BI活動。通過優化大數據應用,提高性能,IT企業應該積極為更大數據量和更多的分析活動做好準備
DBA、支持人員應將他們的努力集中在以下幾個領域:災難恢復,數據倉庫性能和數據組織以及大數據的應用中的數據存儲。
大多數IT人員認為災難恢復并不屬于性能調優的范疇。在大數據環境下,這一誤解又有所加深,因為人們普遍認為建立在大數據應用上的數據分析,相對于計算工資,總帳,訂單輸入,運輸和客戶服務之類的應用來說,并不十分重要。
但是,大數據應用在過去的幾年里已經日趨成熟,企業所使用的業務分析功能也隨之日臻完善。曾經的臨時查詢現在被作為常規報表來執行;額外的歷史數據允許查詢對大量數據進行比較和分析,通過進行負載均衡,商業分析軟件可以讓你的大數據應用得以更加方便快捷的執行查詢。這使得今天的大數據應用提供了大量的可操作數據,可以提供更好的客戶服務,消耗更低的成本并獲得更高的利潤。
這意味著,即使大數據應用遭遇一次很小的中斷,都可能在你的用戶群中產生連鎖反應,報表無法按時交付、查詢無法正常運行、以及那些基于商業分析結果的決策被延遲等。
DBA應該經常審核DR計劃,以保證大數據應用在其控制之下。他們需要關注下列幾種情況。
審核恢復過程。一年中最忙的時候就是遭到災難性故障的時候。中斷將會顯著的影響企業的營利,特別是在事務頻繁的時期。DBA應該協助恢復過程,避免浪費時間和精力。
驗證恢復時間。很多DR計劃包括一個目標恢復時間,表示可以完全恢復的最晚時間點。對于數據庫來說,這可能意味著從備份文件恢復數據,并將日志從備份時間調整到恢復時間點。在高峰時期,數據和事務量較大;因此,恢復時間可能延長。為了降低這種風險,DBA應該考慮實施更頻繁的關鍵數據庫備份。由于在數據表恢復過程中,通常需要花時間來重建索引,DBA應該將DB2的備份和恢復能力考慮在內。
一般來說,大數據的存儲和分析或存在于企業數據倉庫(EDW)內部,或者與其相關。要整合各地的大數據解決方案,你需要為每一部分的EDW過程設置接口。下面是一個關于EDW子系統的總結,涉及大數據對它們的影響,以及如何提前制定性能計劃。
數據獲取和采集。包括一個在數據轉移到EDW之前,用于暫存數據的方案,以避免硬件故障造成的延誤。還應確定這些新資產和流程將如何影響你的災難恢復計劃。開發人員喜歡在旺季開始之前實現新功能或加固操作系統。其中一些增強數據可能需要傳遞到你的數據倉庫,隨后為大數據應用可能執行的查詢提供服務。在此之前你要確定,這些新應用或者改動后的應用可能需要一個業務分析組件,
數據轉換和遷移??焖龠w移大量數據可能需要額外的資源,甚至特殊的軟件或硬件。你的網絡有能力將日益增長的數據從操作系統遷移到數據倉庫,并最終部署到大數據應用中么?
數據訪問和分析。隨著數據持續填滿倉庫,在倉庫和大數據的應用合并后,用戶可以運行分析軟件。捕獲數據訪問路徑和數據分布統計信息并留作分析。你需要確定是否有足夠的系統資源(CPU、磁盤存儲、網絡容量等)來支持預期的查詢工作負載。
數據歸檔。大量的數據分析,龐大的數據量可能會占用寶貴的存儲介質,使一些進程運行緩慢。IT和業務合作伙伴必須決定如何以及何時將舊的大數據存檔清除,以及它是否必須保留以供日后使用。
供應商銷售的第一大數據應用通常是即插即用型的。幾乎沒有調優選項。主要的原因是,應用依賴一個專有的,混合的硬件和軟件解決方案,該解決方案使用大規模并行存儲和I / O,以實現對分析查詢的快速應答。
客戶對于大數據分析的需求日益成熟,供應商解決方案需要提供多個同步存儲和檢索數據的方法。其結果是供應商設計并實現了可選數據存儲和檢索選項。一個例子是指定關鍵記錄如何存儲的能力。設想一個大數據應用,實現了一百個獨立的磁盤驅動器。原始的應用通常將記錄隨機分散到這些驅動器。一些分析查詢可以在邏輯上分成一百個獨立的查詢,每個查詢訪問一個驅動器,所有查詢的結果合并成最終的答案,比相同的序列數據庫查詢快上一百倍。
然而,考慮一個基于鍵的,需要連接兩個表的查詢。隨機分布在一百個磁盤驅動器的兩個表將不再具備性能優勢,因為行連接操作與兩個表存儲在同一個磁盤驅動器上時已經完全不同了。
目前很多大數據應用解決方案包含選項和算法以支持跨驅動器的表查詢,存儲是按鍵值排序的,并不是隨機分布。通過在每一個磁盤驅動器存儲相同范圍的鍵值行,行連接操作將在同一個驅動器上執行。因此按鍵值指定數據分布的能力提供了巨大性能提升。
考慮到這一點,以下是一些建議,可用于大數據應用的性能調優。
檢查數據分布統計信息。使用RunStats程序來收集表鍵和數據分布信息。特別是主鍵和外鍵索引,因為表連接通常會基于這些列。
審查數據訪問路徑。在本質上分析查詢是臨時的,數據表最有可能使用相同或相似的訪問路徑加被訪問。捕獲和分析這些訪問路徑尋找常見的連接方法。這一信息,加上數據分布統計信息,將幫助您確定數據表應如何按鍵值分布在大數據應用中。
存儲數據訪問路徑以進行分析。作為上面的建議的延伸,你應該有一個方法用于捕獲和儲存分析查詢的訪問路徑。方法返回結果應展示出表和索引是如何被訪問,以及使用了哪些索引,執行了哪些排序等等。查詢獲取更多的數據,數據量增加返過來審查你的歷史訪問路徑并比較。數據量增加引起的變化,觀察訪問路徑的變化都可能表明性能出了問題。
通過審核數據恢復流程,提高數據倉庫的性能,評估當前大數據應用性能的優化選項,可以讓你的大數據應用為即將到來高峰做好準備。大數據應用的數據組織方式對性能有這十分顯著的影響;此外,你還應該仔細考慮可能發生的故障,為災難做好準備,即使大數據應用上一個小的中斷都可能對企業利益造成重大影響。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25