熱線電話:13121318867

登錄
首頁精彩閱讀大數據需不需要備份和災難恢復
大數據需不需要備份和災難恢復
2018-01-05
收藏

大數據需不需要備份和災難恢復

大數據應用的發展趨勢是在擁有大存儲容量的同時配備用于執行數據分析的融合硬件設備與分析軟件包。這些應用通常不會用于處理運營數據;相反,用戶會通過查詢數據來分析過去的產品銷售、預測趨勢和確定未來的客戶購買模式。大數據應用通常并不會被定位為關鍵業務系統,雖然它們也支持銷售和營銷決策,但是并不會顯著影響一些核心運營業務,如客戶管理、訂單、庫存和配送等。
    那么,為什么許多領先的企業IT部門都迅速將大數據整合到他們的災難恢復計劃中呢?這些數據量如此之大,會不會給備份帶來影響呢?即便是備份了數據,從備份恢復數據是否會花費幾天(幾周或更長時間)呢?帶著這些問題,我們來看一下如何進行大數據的災難恢復。

大數據

數據太大,無法備份
    災難恢復最佳實踐包括在指定的時間里將重要數據及時恢復到一致狀態的能力。這段時間稱為恢復時間目標(RTO),它必須在業務所依賴的運營數據的限制范圍之內(最多幾個小時)。但是,遇到大數據時該怎么辦?大多數公司認為大數據的備份與恢復并不重要。其中包括以下這些原因。
    運營系統更重要。在發生災難之后,最高優先級的工作是恢復那些支持運營系統的數據。這些系統包括會計、訂單條目、支付受理、工資等,它們是保證公司正常運營的必要條件。在這些數據恢復之后,第二優先級的工作是支持這些系統的運行。
    大數據并不是關鍵業務系統。預測和趨勢分析可能是營銷的重要手段,但是這些分析及其相關的查詢和用戶報表都基于歷史數據,而非實時數據。
    大數據的體量非常巨大,一個大數據應用所存儲的數據量可能是所有運營數據之和的數十倍。這是因為大數據應用工作在數據的歷史快照上。十年的歷史數據就會包含幾千天的快照。它備份在什么介質上,備份需要多長時間,然后需要的備份存儲有多大?
    備份與恢復流程需要I/O通道容量。在短時間內遷移大容量的數據要求使用較大的容量。備份與恢復會耗盡I/O通道,唯一可行的替代方法是安裝足夠的附加容量去處理這些任務。
   當大數據成為關鍵業務系統
    上面介紹的原因并非適用于所有公司。有一些關注客戶的系統也會使用大數據分析,這意味著大數據應用將屬于運營處理的一部分。在其他企業中,大數據開始成為一種簡單的查詢和報表工具。有一些專用查詢會慢慢體現其重要作用,然后變成一些常規報表。這些有用的報表會受到管理層的關注,他們會因此將這些報表變成一些重要的操作。最終,管理層會逐漸依賴這些報表來作出運營決策。因此,他們的大數據應用就會逐漸向關鍵業務系統靠攏。
    大數據應用發展成為關鍵業務系統的趨勢是不可避免的。這些應用的安裝和配置過程代價高昂且耗費時間,同時也需要由高素質的技術人員來完成。此外,查詢數據的業務分析師很少會親自處理數據。通常他們會使用一些專門用于查詢和分析大數據的分析軟件包。這些軟件同樣非常昂貴,同時只有經過大量培訓的技術人員才能高效使用這些軟件。
    公司在大數據應用投入了大量的金錢。公司迫切希望從他們的投資中獲取有價值的回報。從數據分析得到的報表可能產生更好的客戶服務、更快的產品周轉速度和更高的收益。而收益恰恰就意味著關鍵業務。
   大數據備份方法
    如果準備在災難恢復計劃過程中恢復全部或部分大數據應用,那么可以考慮選擇下面這些備份方法。
    最重要的是要記?。捍髷祿饕菤v史數據和靜態數據。運營數據快照會被提取到一個分段集結區域,進行整理和轉換,然后再加載到企業數據倉庫和大數據應用中。在此之后,它們都不會更新。這意味著在每一個快照上只需要運行一次備份流程。
   最常用的備份方法主要有:
   ·數據復制。這是一個常用的備份方法。當數據加載到數據倉庫或大數據應用程序時,它們會同步傳輸到一個備份流程中,其中會載入大數據應用程序的一個備份副本。這個流程通常發生在災難恢復站點中,然后在發生災難時它仍然保有一份最新的數據。
   ·虛擬快照。這是一個硬件解決方案,它允許在存儲介質上創建整個系統的虛擬備份。數據庫寫操作會在中斷一小段時間,這時管理存儲子系統的硬件會對所有文件執行內部復制操作。這個復制流程可能非???,有時會在幾秒鐘內完成。在復制完成之后,數據庫管理系統又會重新允許執行寫操作。
    快照提供了超快速的恢復時間,它的假定前提是可以恢復到創建快照的指定時間點。除此之外,恢復到非快照創建的時間點需要有一些方法能夠將所有最新數據庫變化(日志捕捉)應用到快照中。另一個問題是存儲容量??煺湛赡芤髮斍笆褂玫拇鎯颖?。而且,當災難發生時,當時的快照會作為當前數據,但是還必須分配另一個快照區域,以備應付新的災難事件。
   ·本地與遠程副本。這是一個經典方法,它由磁盤備份和包含物理磁盤驅動器或數據庫的陣列備份構成。DBA使用供應商工具訪問那些通常存儲為一種壓縮私有格式的數據。這些備份會快速地執行和加載,因為它們采用的是內部數據格式。
    恢復自動化與測試
    災難計劃的另一個重要部分是保證恢復在規定的RTO內完成。對于大數據而言,這通常意味著要使用標準流量或供應商工具實現恢復自動化。聰明的DBA會盡可能自動化更多的任務,從而最大可能減少相對較慢的人為干預。這其中就包括要避免以下行為:
   ·人工處理備份存儲(例如,移動和操作磁帶);
   ·輸入命令行;
   ·檢查紙質報表或文檔。
    在實現恢復自動化之后,要定期測試、測試再測試。記住,大數據總是在不斷地增長,而且隨著數據量的增加,備份和恢復時間也會增加。
   總結
    大數據無論部署還是使用都非常耗費時間、金錢和資源。許多公司迫切希望從這些大投入中獲取回報,查詢和報表能夠提供一些寶貴的洞察力,幫助執行決策、應付變化和獲得收益。大數據應用最終會變成關鍵業務系統。在此之前,一定要保證自己的IT基礎架構能夠備份和恢復這些數據。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢