
大數據需不需要備份和災難恢復
大數據應用的發展趨勢是在擁有大存儲容量的同時配備用于執行數據分析的融合硬件設備與分析軟件包。這些應用通常不會用于處理運營數據;相反,用戶會通過查詢數據來分析過去的產品銷售、預測趨勢和確定未來的客戶購買模式。大數據應用通常并不會被定位為關鍵業務系統,雖然它們也支持銷售和營銷決策,但是并不會顯著影響一些核心運營業務,如客戶管理、訂單、庫存和配送等。
那么,為什么許多領先的企業IT部門都迅速將大數據整合到他們的災難恢復計劃中呢?這些數據量如此之大,會不會給備份帶來影響呢?即便是備份了數據,從備份恢復數據是否會花費幾天(幾周或更長時間)呢?帶著這些問題,我們來看一下如何進行大數據的災難恢復。
數據太大,無法備份
災難恢復最佳實踐包括在指定的時間里將重要數據及時恢復到一致狀態的能力。這段時間稱為恢復時間目標(RTO),它必須在業務所依賴的運營數據的限制范圍之內(最多幾個小時)。但是,遇到大數據時該怎么辦?大多數公司認為大數據的備份與恢復并不重要。其中包括以下這些原因。
運營系統更重要。在發生災難之后,最高優先級的工作是恢復那些支持運營系統的數據。這些系統包括會計、訂單條目、支付受理、工資等,它們是保證公司正常運營的必要條件。在這些數據恢復之后,第二優先級的工作是支持這些系統的運行。
大數據并不是關鍵業務系統。預測和趨勢分析可能是營銷的重要手段,但是這些分析及其相關的查詢和用戶報表都基于歷史數據,而非實時數據。
大數據的體量非常巨大,一個大數據應用所存儲的數據量可能是所有運營數據之和的數十倍。這是因為大數據應用工作在數據的歷史快照上。十年的歷史數據就會包含幾千天的快照。它備份在什么介質上,備份需要多長時間,然后需要的備份存儲有多大?
備份與恢復流程需要I/O通道容量。在短時間內遷移大容量的數據要求使用較大的容量。備份與恢復會耗盡I/O通道,唯一可行的替代方法是安裝足夠的附加容量去處理這些任務。
當大數據成為關鍵業務系統
上面介紹的原因并非適用于所有公司。有一些關注客戶的系統也會使用大數據分析,這意味著大數據應用將屬于運營處理的一部分。在其他企業中,大數據開始成為一種簡單的查詢和報表工具。有一些專用查詢會慢慢體現其重要作用,然后變成一些常規報表。這些有用的報表會受到管理層的關注,他們會因此將這些報表變成一些重要的操作。最終,管理層會逐漸依賴這些報表來作出運營決策。因此,他們的大數據應用就會逐漸向關鍵業務系統靠攏。
大數據應用發展成為關鍵業務系統的趨勢是不可避免的。這些應用的安裝和配置過程代價高昂且耗費時間,同時也需要由高素質的技術人員來完成。此外,查詢數據的業務分析師很少會親自處理數據。通常他們會使用一些專門用于查詢和分析大數據的分析軟件包。這些軟件同樣非常昂貴,同時只有經過大量培訓的技術人員才能高效使用這些軟件。
公司在大數據應用投入了大量的金錢。公司迫切希望從他們的投資中獲取有價值的回報。從數據分析得到的報表可能產生更好的客戶服務、更快的產品周轉速度和更高的收益。而收益恰恰就意味著關鍵業務。
大數據備份方法
如果準備在災難恢復計劃過程中恢復全部或部分大數據應用,那么可以考慮選擇下面這些備份方法。
最重要的是要記?。捍髷祿饕菤v史數據和靜態數據。運營數據快照會被提取到一個分段集結區域,進行整理和轉換,然后再加載到企業數據倉庫和大數據應用中。在此之后,它們都不會更新。這意味著在每一個快照上只需要運行一次備份流程。
最常用的備份方法主要有:
·數據復制。這是一個常用的備份方法。當數據加載到數據倉庫或大數據應用程序時,它們會同步傳輸到一個備份流程中,其中會載入大數據應用程序的一個備份副本。這個流程通常發生在災難恢復站點中,然后在發生災難時它仍然保有一份最新的數據。
·虛擬快照。這是一個硬件解決方案,它允許在存儲介質上創建整個系統的虛擬備份。數據庫寫操作會在中斷一小段時間,這時管理存儲子系統的硬件會對所有文件執行內部復制操作。這個復制流程可能非???,有時會在幾秒鐘內完成。在復制完成之后,數據庫管理系統又會重新允許執行寫操作。
快照提供了超快速的恢復時間,它的假定前提是可以恢復到創建快照的指定時間點。除此之外,恢復到非快照創建的時間點需要有一些方法能夠將所有最新數據庫變化(日志捕捉)應用到快照中。另一個問題是存儲容量??煺湛赡芤髮斍笆褂玫拇鎯颖?。而且,當災難發生時,當時的快照會作為當前數據,但是還必須分配另一個快照區域,以備應付新的災難事件。
·本地與遠程副本。這是一個經典方法,它由磁盤備份和包含物理磁盤驅動器或數據庫的陣列備份構成。DBA使用供應商工具訪問那些通常存儲為一種壓縮私有格式的數據。這些備份會快速地執行和加載,因為它們采用的是內部數據格式。
恢復自動化與測試
災難計劃的另一個重要部分是保證恢復在規定的RTO內完成。對于大數據而言,這通常意味著要使用標準流量或供應商工具實現恢復自動化。聰明的DBA會盡可能自動化更多的任務,從而最大可能減少相對較慢的人為干預。這其中就包括要避免以下行為:
·人工處理備份存儲(例如,移動和操作磁帶);
·輸入命令行;
·檢查紙質報表或文檔。
在實現恢復自動化之后,要定期測試、測試再測試。記住,大數據總是在不斷地增長,而且隨著數據量的增加,備份和恢復時間也會增加。
總結
大數據無論部署還是使用都非常耗費時間、金錢和資源。許多公司迫切希望從這些大投入中獲取回報,查詢和報表能夠提供一些寶貴的洞察力,幫助執行決策、應付變化和獲得收益。大數據應用最終會變成關鍵業務系統。在此之前,一定要保證自己的IT基礎架構能夠備份和恢復這些數據。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25