熱線電話:13121318867

登錄
首頁精彩閱讀數據倉庫的數據存儲和管理
數據倉庫的數據存儲和管理
2018-09-10
收藏


數據倉庫的真正關鍵是數據的存儲和管理。數據倉庫的組織管理方式決定了它有別于傳統數據庫的特性,同時也決定了其對外部數據表現形式要采用什么產品和技術來建立數據倉庫核心,則需要從數據倉庫的技術特點著手分析。

數據倉庫遇到的第一個問題是對大量數據的存儲和管理。這里所涉及的數據量比傳統事務處理大得多,且隨時間的推移而累積,從現有技術和產品來看,只有關系數據庫系統能夠擔當此任。關系數據庫經過近30年的發展,在數據存儲和管理方面已經非常成熟,非其他數據管理系統可比。目前不少關系數據庫系統已支持數據分割技術,能夠將一個大的數據庫表分散在多個物理存儲設備中,進一步增強了系統管理大數據量的擴展能力。采用關系數據庫管理數百個GB甚至TB的數據已是一件平常的事情,一些廠商還專門考慮大數據量的系統備份問題,好在數據倉庫對聯機備份的要求并不高。

數據倉庫要解決的第二個問題是并行處理。在傳統聯機事務處理應用中,用戶訪問系統的特點是短小而密集.對于一個多處理機系統來說,能夠將用戶的請求進行均衡分擔是關鍵,這便是并發操作。而在數據倉庫系統中,用戶訪問系統的特點是龐大而稀疏,每一個查詢和統計都很復雜,但訪問的頻率并不是很高。此時系統需要有能力將所有的處理機調動起來為這一個復雜的查詢請求服務,將該請求并行處理。因此,并行處理技術在數據倉庫中比以往更加重要。

數據倉庫要解決的第三個問題是針對決策支持查詢的優化。這個問題主要針對關系數據庫而言,因為其他數據管理環境連基本的通用查詢能力都還不完善。在技術上,針對決策支持的優化涉及數據庫系統的索引機制、查詢優化器、連接策略、數據排序和采樣等諸多部分。普通關系數據庫采用B樹類的索引,對于性別、年齡、地區等具有大量重復值的字段幾乎沒有效果。而擴充的關系數據庫則引入了位圖索引機制,以二進制位表示字段的狀態,將查詢過程變為篩選過程,單個計算機的基本操作便可篩選多條記錄。由于數據倉庫中各數據表的數據量往往極不均勻,普通查詢優化器所得出的最佳查詢路徑可能不是最優的。因此,面向決策支持的關系數據庫在查詢優化器上也做了改進,同時根據索引的使用特性增加了多重索引掃描的能力。

以關系數據庫建立的數據倉庫在應用時會遇到大量的表間連接操作,而連接操作對于關系數據庫來說是一個耗時的操作。擴充的關系數據庫中對連接操作可以做預先的定義,我們稱之為連接索引,它使得數據庫在執行查詢時可直接獲取數據而不必實_施具體的連接操作,數據倉庫的查詢常常只需要數據庫中的部分記錄,如最大的前50家客戶等。普通關系數據庫沒有提供這樣的查詢能力,只好將整個表的記錄進行排序,從而耗費了大量的時間。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢