熱線電話:13121318867

登錄
首頁大數據時代這些基本的維度表技術,你都了解嗎?
這些基本的維度表技術,你都了解嗎?
2020-08-10
收藏

上一篇文章給大家分享了一些關于維度表事實表的內容,今天給大家帶來的是關于維度表技術的一些內容,希望對大家有所幫助。

一、維度表結構

1.每個維度表都包含單一的主鍵列。

2.維度表的主鍵可以作為與之關聯的任何事實表的外鍵。

3.維度表通常比較寬,是扁平型非規范表,包含大量的低粒度的文本屬性。

二、常見維度表技術

1.維度代理鍵

DW/BI需要申明對所有的維度的主鍵的空置,無法采用自然鍵或者附加日期的自然鍵。最好是建立無語意的整型主鍵。

2.自然鍵、持久鍵、超自然鍵

自然鍵,例如員工編號

持久鍵,有時也被叫做超自然持久鍵。數據倉庫為員工編號創建一個單一鍵,這個單一鍵保持永久性不會發生變化。

最后的持久鍵應該獨立于原始的業務過程。

3.下鉆

商業分析的基本方法:

上卷(roll-up):上卷是沿著維的層次向上聚集匯總數據。 例如,對產品銷售數據,沿著時間維上卷,可以求出所有產品在所有地區每月 (或季度或年或全部)的銷售額。

下探(drill-down):下探是上卷的逆操作,它是沿著維的層次向下,查看更詳細的數據。

3.空值屬性

推薦采用標識性標識空值,例如unknown。因為不同數據庫對空值處理不同。

4.日歷日期維度

用YYYYMMdd更容易劃分。

5.維度子集

一些需求是不需要最細節的數據的,那么此時事實數據需要關聯特定的維度,這些特定維度包含在從細節維度選擇的行中,因此就叫做維度子集。

細節維度和維度子集具有相同的屬性或內容,具有一致性。

(1)建立包含屬性子集的子維度

例如需要上鉆到子維度。

(2)建立包含行子集的子維度

在兩個維度處于同一細節粒度的情況下,如果其中一個僅僅是行的子集,那么就會產生另外一種一致性維度構造子集。

在某些版本的Hive中,對ORC表使用overwrite會出錯,為了保持兼用性,通常會使用truncate 。

(3)使用視圖實現維度子集

這種方式存在著兩個主要問題:一是新創建的子維度是物理表,因此需要額外的存儲空間;二是存在數據不一致的潛在風險。

通常的解決方法是在基本維度上建立視圖生成子維度。

優點:

a.可以簡單實現,不需要修改原來腳本的邏輯;

b.因為視圖不真正存儲數據,因此不會占用存儲空間;

c.將數據不一致的可能消除掉。

缺點:

a.如果基本維度和子維度表數據量相差懸殊的話,性能比物理表差很多;

b.如果定義視圖查詢,并且視圖很多,可能對元數據存儲系統造成壓力,嚴重影響查詢性能。

6.層次維度

通常我們使用grouping__id 二進制序列,rollup,collect_set,concat_ws等函數。

層次關系方法:固定深度層次進行分組和鉆取查詢,遞歸層次結構數據裝載、展開與平面化,多路徑層次和參差不齊處理

7.退化維度

除了業務主鍵外沒有其他內容的維度表。

8.雜項維度

包含數據具有很少可能值的維度。有時與其為每個標志或屬性定義不同的維度,不如建立單獨的講不同維度合并到一起的雜項維度。

9.維度合并

如果幾個相關維度的基數都很小,或者具有多個公共屬性時,可以考慮合并。

10.分段維度

包含連續的分段度量值,通常用作客戶維度的行為標記時間序列,分析客戶行為。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢