
OLAP的多維數據分析
聯機分析處理(OLAP)的概念最早是由關系數據庫之父E.F.Codd于1993年提出的。當時,Codd認為聯機事務處理(OLTP)已不能滿足終端用戶對數據庫查詢分析的需要,SQL對大數據庫進行的簡單查詢也不能滿足用戶分析的需求。用戶的決策分析需要對關系數據庫進行大量計算才能得到結果,而查詢的結果并不能滿足決策者提出的需求。因此Codd提出了多維數據庫和多維分析的概念,即OLAP。
一、OLAP的概念
根據OLAP產品的實際應用情況和用戶對OLAP產品的需求,人們提出了一種對OLAP更簡單明確的定義,即共享多維信息的快速分析。
(1)快速性
用戶對OLAP的快速反應能力有很高的要求。系統應能在5秒內對用戶的大部分分析要求做出反應。如果終端用戶在30秒內沒有得到系統響應就會變得不耐煩,因而可能失去分析主線索,影響分析質量。對于大量的數據分析要達到這個速度并不容,因此就更需要一些技術上的支持,如專門的數據存儲格式、大量的事先運算、特別的硬件設計等。
(2)可分析性
OLAP系統應能處理與應用有關的任何邏輯分析和統計分析。盡管系統需要事先編程 ,但并不意味著系統已定義好了所有的應用。用戶無需編程就可以定義新的專門計算,將其作為分析的一部分,并以用戶理想的方式給出報告。用戶可以在OLAP平臺上進行數據分析,也可以連接到其他外部分析工具上,如時間序列分析工具、成本分配工具、意外報警、數據開采等。
(3)多維性
多維性是OLAP的關鍵屬性。系統必須提供對數據分析的多維視圖和分析,包括對層次維和多重層次維的完全支持。事實上,多維分析是分析企業數據最有效的方法,是OLAP的靈魂。
(4)信息性
不論數據量有多大,也不管數據存儲在何處,OLAP系統應能及時獲得信息,并且管理大容量信息。這里有許多因素需要考慮,如數據的可復制性、可利用的磁盤空間、OLAP產品的性能及與數據倉庫的結合度等。
二、OLAP的多維數據概念
多維結構是決策支持的支柱,也是OLAP的核心。OLAP展現在用戶面前的是一幅幅多維視圖。
1.維
假定某某是個百貨零售商,有一些因素會影響他的銷售業務,如商品、時間、商店或流通渠道,更具體一點,如品牌、月份、地區等。對某一給定的商品,也許他想知道該商品在哪個商店和哪段時間的銷售情況。對某一商店,也許他想知道哪個商品在哪段時間的銷售情況。在某一時間,也許他想知道哪個商店哪種產品的銷售情況。因此,他需要決策支持來幫助制定銷售政策。這里,商店、時間和產品都是維。各個商店的集合是一維,時間的集合是一維,商品的集合是一維。維就是相同類數據的集合,也可以理解為變量。而每個商店、每段時間、每種商品都是某一維的一個成員。每個銷售事實由一個特定的商店、特定的時間和特定的商品組成。
維有自己固有的屬性,如層次結構(對數據進行聚合分析時要用到)、排序(定義變量時要用到)、計算邏輯(是基于矩陣的算法,可有效地指定規則)。這些屬性對進行決策支持是非常有用的。
2.多維性
人們很容易理解一個二維表(如通常的電子表格),對于三維立方體同樣也容易理解。 OLAP通常將三維立方體的數據進行切片,顯示三維的某一平面。如一個立方體有時間維、商品維、收入維,其圖形很容易在屏幕上顯示出來并進行切片。但是要加一維(如加入商店維),則圖形很難想象,也不容易在屏幕上畫出來。要突破三維的障礙,就必須理解邏輯維和物理維的差異。OLAP的多維分析視圖就是沖破了物理的三維概念,采用了旋轉、嵌套、切片、鉆取和高維可視化技術,在屏幕上展示多維視圖的結構,使用戶直觀地理解、分析數據,進行決策支持。
三、OLAP的多維數據結構
數據在多維空間中的分布總是稀疏的、不均勻的。在事件發生的位置,數據聚合在一起,其密度很大。因此,OLAP系統的開發者要設法解決多維數據空間的數據稀疏和數據聚合問題。事實上,有許多方法可以構造多維數據。
1.超立方結構
超立方結構(Hypercube)指用三維或更多的維數來描述一個對象,每個維彼此垂直。數據的測量值發生在維的交叉點上,數據空間的各個部分都有相同的維屬性。這種結構可應用在多維數據庫和面向關系數據庫的OLAP系統中,其主要特點是簡化終端用戶的操作。
超立方結構有一種變形,即收縮超立方結構。這種結構的數據密度更大,數據的維數更少,并可加入額外的分析維。
2.多立方結構
在多立方結構(Multicube)中,將大的數據結構分成多個多維結構。這些多維結構是大數據維數的子集,面向某一特定應用對維進行分割,即將超立方結構變為子立方結構。它具有很強的靈活性,提高了數據(特別是稀疏數據)的分析效率。
一般來說,多立方結構靈活性較大,但超立方結構更易于理解。終端用戶更容易接近超立方結構,它可以提供高水平的報告和多維視圖。但具有多維分析經驗的MIS專家更喜歡多立方結構,因為它具有良好的視圖翻轉性和靈活性。多立方結構是存儲稀疏矩陣的一個更有效方法,并能減少計算量。因此,復雜的系統及預先建立的通用應用傾向于使用多立方結構,以使數據結構能更好地得到調整,滿足常用的應用需求。許多產品結合了上述兩種結構,它們的數據物理結構是多立方結構,但卻利用超立方結構來進行計算,結合了超立方結構的簡化性和多立方結構的旋轉存儲特性。
3. 活動數據的存儲
用戶對某個應用所提取的數據稱為活動數據,它的存儲有以下三種形式:
(1)關系數據庫
如果數據來源于關系數據庫,則活動數據被存儲在關系數據庫中。在大部分情況下, 數據以星型結構或雪花結構進行存儲。
(2)多維數據庫
在這種情況下,活動數據被存儲在服務器上的多維數據庫中,包括來自關系數據庫和終端用戶的數據。通常,數據庫存儲在硬盤上,但為了獲得更高的性能,某些產品允許多維數據結構存儲在RAM上。有些數據被提前計算,計算結果以數組形式進行存儲。
(3)基于客戶的文件
在這種情況下,可以提取相對少的數據放在客戶機的文件上。這些數據可預先建立, 如Web文件。與服務器上的多維數據庫一樣,活動數據可放在磁盤或RAM上。這三種存儲形式有不同的性能,其中關系數據庫的處理速度大大低于其他兩種。
4.OLAP數據的處理方式
OLAP有三種數據處理方法。事實上,多維數據計算不需要在數據存儲位置上進行。
(1)關系數據庫
即使活動的OLAP數據存儲在關系數據庫中,采用在關系數據庫上完成復雜的多維計算也不是較好的選擇。因為SQL的單語句并不具備完成多維計算的能力,要獲得哪怕是最普通的多維計算功能也需要多重SQL。在許多情況下,一些OLAP工具用SQL做一些計算,然后將計算結果作為多維引擎輸入。多維引擎在客戶機或中層服務器上做大部分的計算工作 ,這樣就可以利用RAM來存儲數據,提高響應速度。
(2)多維服務引擎
大部分OLAP應用在多維服務引擎上完成多維計算,并且具有良好的性能。因為這種方式可以同時優化引擎和數據庫,而服務器上充分的內存為有效地計算大量數組提供了保證。
(3)客戶機
在客戶機上進行計算,要求用戶具備性能良好的PC機,以此完成部分或大部分的多維計算。對于日益增多的瘦型客戶機,OLAP產品將把基于客戶機的處理移到新的Web應用服務器上。
四、多維數據庫
多維數據庫(Multi-Dimesional Database,MDD)可以簡單地理解為:將數據存放在一個n維數組中,而不是像關系數據庫那樣以記錄的形式存放。因此它存在大量稀疏矩陣,人們可以通過多維視圖來觀察數據。多維數據庫增加了一個時間維,與關系數據庫相比,它的優勢在于可以提高數據處理速度,加快反應時間,提高查詢效率。目前有兩種MDD 的OLAP產品:基于多維數據庫的MOLAP和基于關系數據庫的ROLAP。R OLAP建立了一種新的體系,即星型結構。 MDD并沒有公認的多維模型,也沒有像關系模型那樣標準地取得數據的方法(如SQL、 API等)?;贛DD的OLAP產品,依據決策支持的內容使用范圍也有很大的不同。在低端,用戶使用基于單用戶或小型LAN的工具來觀察多維數據。這些工具的功能性和實用性可能相當不錯,但由于受到規模的限制,它們不具備OLAP的所有特性。這些工具使用超立方結構,將模型限制在n維形態。當模型足夠大且稀疏數據沒有控制好時,這種模型將會不堪一擊。這些工具使用數據庫的大小是以MB來計量的,而不是以GB計量的,因此只能進行只讀操作,且具備有限的復雜計算。在高端,OLAP工具用4GL提供了完善的開發環境、統計分析、時間序列分析、財政報告、用戶接口、多層體系結構、圖表等許多其他功能。盡管不同的OLAP工具都使用了它們自己的多維數據庫,但它們在不同程度上也利用了關系數據庫作為存儲媒體。因為關系數據庫和OLAP工具同時在高端服務器上處理,所以速度和效率仍然很快。純多維數據庫引擎也被開發出來。盡管這些工具缺乏4GL及充分的開發環境,但卻有比高端MDD工具所使用的數據庫更為復雜的數據庫。這些工具也具有統計分析、財務分析和時間序列分析等功能,并有自己的API,允許其對前端的開發環境開放。
MDD能提供優良的查詢性能。存儲在MDD中的信息比在關系數據庫中的信息具有更詳細的索引,可以常駐在內存中。MDD的信息是以數組形式存放的,所以它可以在不影響索引的情況下更新數據。因此MDD非常適合于讀寫應用。
五、 OALP的多維數據分析
1. 切片和切塊
在多維數據結構中,按二維進行切片,按三維進行切塊,可得到所需要的數據。如在" 城市、產品、時間"三維立方體中進行切塊和切片,可得到各城市、各產品的銷售情況
2. 鉆取
鉆取包含向下鉆取和向上鉆取操作, 鉆取的深度與維所劃分的層次相對應。
3.旋轉
通過旋轉可以得到不同視角的數據。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25