悉數那些“巨型”數據倉庫-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀悉數那些“巨型”數據倉庫

悉數那些“巨型”數據倉庫

2018-08-15

收藏

悉數那些“巨型”數據倉庫

最早的商業列式數據庫是在1995年發布的Sybase IQ,但是一直到1999年左右才慢慢穩定到能夠投入生產環境?，F在的大多數分析型數據庫都是在2003-2005年從Postgresql 分支出來的。其中尤其是Vertica 為代表的列數據庫已經在大規模數據倉庫環境中證明其特別為數據倉庫環境設計的思路在一些領域具有競爭優勢。這篇文章解釋介紹列式數據庫的幾大特點。
　　高效的儲存空間利用率
　　傳統的行式數據庫由于每個列的長度不一，為了預防更新的時候不至于出現一行數據跳到另一個block 上去，所以往往會預留一些空間。而面向列的數據庫由于一開始就完全為分析而存在，不需要考慮少量的更新問題，所以數據完全是密集儲存的。
　　行式數據庫為了表明行的id 往往會有一個偽列rowid 的存在。列式數據庫一般不會保存rowid.
　　列式數據庫由于其針對不同列的數據特征而發明的不同算法使其往往有比行式數據庫高的多的壓縮率，普通的行式數據庫一般壓縮率在3:1 到5:1 左右，而列式數據庫的壓縮率一般在8:1到30:1 左右。（InfoBright 在特別應用可以達到40:1 , Vertica 在特別應用可以達到60:1 , 一般是這么高的壓縮率都是網絡流量相關的）
　　列式數據庫由于其特殊的IO 模型所以其數據執行引擎一般不需要索引來完成大量的數據過濾任務（Sybase IQ 除外） .這又額外的減少了數據儲存的空間消耗。
　　列式數據庫不需要物化視圖，行式數據庫為了減少IO 一般會有兩種物化視圖，常用列的不聚合物化視圖和聚合的物化視圖。列式數據庫本身列是分散儲存所以不需要第一種，而由于其他特性使其極為適合做普通聚合操作。（另外一種物化視圖是不能實時刷新的，比如排名函數，不規則連接connect by 等等，這部分列數據庫不包括。）
　　不可見索引
　　列式數據庫由于其數據的每一列都按照選擇性進行排序，所以并不需要行式數據庫里面的索引來減少IO 和更快的查找值的分布情況。如下圖所示：當數據庫執行引擎進行where 條件過濾的時候。只要它發現任何一列的數據不滿足特定條件，整個block 的數據就都被丟棄。最后初步的過濾只會掃描可能滿足條件的數據塊。

（from InfoBright : Blazing Queries Using an Open Source Columnar Database for High Performance Analytics and Reporting ）
　　另外在已經讀取了可能的數據塊之后，對于類似age < 65 或 job = 'Axx' 的，列式數據庫并不需要掃描完整個block,因為數據已經排序了。如果讀到第一個age=66 或者 Job = 'Bxx' 的時候就會停止掃描了。這相當與行式數據庫索引里的范圍掃描。[page]
　　數據迭代（Tuple Iteration）
　　現在的多核CPU 提供的L2 緩存在短時間執行同一個函數很多次的時候能更好的利用CPU 的二級緩存和多核并發的特性。而行式數據庫由于其數據混在一起沒法對一個數組進行同一個簡單函數的調用，所以其執行效率沒有列式數據庫高。
　　壓縮算法
　　列式數據庫由于其每一列都是分開儲存的。所以很容易針對每一列的特征運用不同的壓縮算法。常見的列式數據庫壓縮算法有Run Length Encoding , Data Dictionary , Delta Compression , BitMap Index , LZO , Null Compression 等等。根據不同的特征進行的壓縮效率從10W:1 到10:1 不等。而且數據越大其壓縮效率的提升越為明顯。
　　延遲物化
　　列式數據庫由于其特殊的執行引擎，在數據中間過程運算的時候一般不需要解壓數據而是以指針代替運算，直到最后需要輸出完整的數據時。

（from McKnight : Columnar Database : Data Does the Twist and Analytics Shout）
　　傳統的行式數據庫運算，在運算的一開始就解壓縮所有數據，然后執行后面的過濾，投影，連接，聚合操作
　　而列式數據庫的執行計劃卻是這樣的。

（from McKnight : Columnar Database : Data Does the Twist and Analytics Shout）[page]

在整個計算過程中，無論過濾，投影，連接，聚合操作，列式數據庫都不解壓數據直到最后數據才還原原始數據值。這樣做的好處有減少CPU 消耗，減少內存消耗，減少網絡傳輸消耗，減少最后儲存的需要。
　　列式數據庫優缺點
　　列式數據庫從一開始就是面向大數據環境下數據倉庫的數據分析而產生，它跟行式數據庫相比當然也有一些前提條件和優缺點。
　　列式數據庫優點：
　　極高的裝載速度（最高可以等于所有硬盤IO 的總和，基本是極限了）
　　適合大量的數據而不是小數據
　　實時加載數據僅限于增加（刪除和更新需要解壓縮Block 然后計算然后重新壓縮儲存）
　　高效的壓縮率，不僅節省儲存空間也節省計算內存和CPU.
　　非常適合做聚合操作。
　　缺點：
　　不適合掃描小量數據
　　不適合隨機的更新
　　批量更新情況各異，有的優化的比較好的列式數據庫（比如Vertica）表現比較好，有些沒有針對更新的數據庫表現比較差。
　　不適合做含有刪除和更新的實時操作。
　　常見誤區
　　一個常見的誤區認為如果每次掃描較多行或者全列全表掃描的時候，行式數據庫比列式數據庫更有優勢。事實上這只是行式數據庫認識上的一個誤區，即認為列式數據庫的主要優勢在于其列分開儲存，而忽略了列式數據庫上面提到的其他幾大特征，這個才是列式數據庫高性能的核心。

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

特征數據倉庫數據分析大數據

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇Python 爬取了馬蜂窩的出行數據，告訴你這個夏天哪里最值得去

下一篇T檢驗、F檢驗和統計學意義（P值或sig值）

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊