熱線電話:13121318867

登錄
首頁精彩閱讀為什么要對數據倉庫進行分層設計?
為什么要對數據倉庫進行分層設計?
2024-01-03
收藏

(以下文章來源于大飛談技術 ,作者常大飛)

為了清晰數據結構,方便數據血緣跟蹤,減少重復開發,簡化復雜問題,屏蔽原始數據的異常與業務的影響,在設計數據倉庫體系時通常需要對其邏輯分層。

1. 清晰數據結構一般我們將數據倉庫分為ODS層(原始數據層)、DWD層(明細數據層)、DWS層(數據匯總層)和ADS層(數據應用層)。每一個分層都有它自己的作用域,并且我們在設計數據倉庫時會為每個分層的表設置各自的命名規范,這樣我們在使用表的時候能更方便的定位和理解數據。另外,數據倉庫的數據是來源于不同的業務系統,比如客戶信息同時存在于CRM系統、訂單系統、營銷系統等,取數時該如何決策呢?數據倉庫會對相同主題的數據進行統一建模,把復雜的數據關系梳理成條理清晰的數據模型。

2. 數據血緣跟蹤通過數據倉庫中的邏輯分層,確定每一層的數據來源,如果有一張來源表出問題了,我們能夠快速準確地定位問題,并清楚的知道它的影響范圍。同時我們會制定每一層的調用規范:

  • 禁止反向調用
  • ODS層數據只能被DWD層調用
  • DWD層數據可以被DWS和ADS層調用
  • DWS層數據只能被ADS調用
  • 數據應用可以調用DWD、DWS和ADS層,但建議優先考慮使用匯總度高的數據
  • 常規數據流向:ODS-DWD-DWS-ADS
3. 數據復用數據的逐層加工,下層包含了上層數據加工所需要的全量數據,這樣的加工方式避免了每個數據開發人員都重新從源系統中抽取數據進行加工。通過匯總層的引入,面向不同主題的數據集市可以共用匯總層數據,實現了計算結果的復用,節省了數據開發人員的時間和精力。

4. 復雜問題簡單化將一個復雜的任務分解成多個步驟完成,每一層只處理單一的步驟,比較簡單且容易理解,便于維護數據的準確性。當數據出現問題之后,可以不用修復所有的數據,只需要從有問題的步驟開始修復。

5. 屏蔽原始數據異常對業務的影響數據倉庫對接的源系統眾多,且每個源系統的表命名、字段命名、字段含義等各有不同,通過數據倉庫的分層設計,從底層來規范和屏蔽所有這些復雜性,保證下游數據用戶使用數據的便捷和規范。如果源系統發生變更,只需要再相應的數據倉庫層來處理,對下游用戶透明,無感。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢