
教你輕松掌握數據倉庫的規劃和構建策略
數據倉庫作為決策支持系統(DSS)的基礎,具有面向主題的、集成的、不可更新的、隨時間不斷變化的特性。這些特點說明了數據倉庫從數據組織到數據處理,都與原來的數據庫有很大的區別,這也就需要在數據倉庫系統設計時尋求一個適合于數據倉庫設計的方法。在一般的系統開發規劃中,首先需要確定系統的功能,這些系統的功能一般是通過對用戶的需求分析得到的。從數據倉庫的應用角度來看,DSS分析員一般是企業中的中高層管理人員,他們對決策支持的需求不能預先做出規范的說明,只能給設計人員一個抽象地描述。
這就需要設計人員在與用戶不斷的交流溝通中,將系統的需求逐步明確,并加以完善。因此數據倉庫的開發規劃過程實際上是一個用戶和設計人員對其不斷了解、熟悉和完善的過程。 數據倉庫的開發應用規劃是開發數據倉庫的首要任務。只有制定了正確的數據倉庫規劃,才能使組織主要力量有序地實現數據倉庫的開發應用。在數據倉庫規劃中一般需要經歷這樣幾個過程:選擇實現策略、確定數據倉庫的開發目標和實現范圍、選擇數據倉庫體系結構、建立商業和項目規劃預算。 當數據倉庫規劃完成后,需要編制相應的數據倉庫規劃說明書,說明數據倉庫與企業戰略的關系,以及與企業急需處理的、范圍相對有限的開發機會,重點支持的職能部門和今后數據倉庫開發工作的建議,實際使用方案和開發預算,作為數據倉庫實際開發的依據。
1、選擇數據倉庫實現策略
數據倉庫的開發策略主要有自頂向下、自底向上和這兩種策略的聯合使用。自頂向下策略在實際應用中比較困難,因為數據倉庫的功能是一種決策支持功能。這種功能在企業戰略的應用范圍中常常是很難確定的,因為數據倉庫的應用機會往往超出企業當前的實際業務范圍,而且在開發前就確定目標,會在實現預定目標后就不再追求新的應用,是數據倉庫喪失更有戰略意義的應用。由于該策略在開發前就可以給出數據倉庫的實現范圍,能夠清楚地向決策者和企業描述系統的收益情況和實現目標,因此是一種有效的數據倉庫開發策略。該方法使用時需要開發人員具有豐富的自頂向下開發系統的經驗,企業決策層和管理人員完全知道數據倉庫的預定目標并且了解數據倉庫能夠在那些決策中發揮作用。
自底向上策略一般從某個數據倉庫原型開始,選擇一些特定的為企業管理人員所熟知的管理問題作為數據倉庫開發的對象,在此基礎上進行數據倉庫的開發。因此,該策略常常用于一個數據集市、一個經理系統或一個部門的數據倉庫開發。該策略的優點在于企業能夠以較小的投入,獲得較高的數據倉庫應用收益。在開發過程中,人員投入較少,也容易獲得成效。當然,如果某個項目的開發失敗可能造成企業整個數據倉庫系統開發的延遲。該策略一般用于企業洗碗對數據倉庫的技術進行評價,以確定該技術的應用方式、地點和時間,或希望了解實現和運行數據倉庫所需要的各種費用,或在數據倉庫的應用目標并不是很明確時,數據倉庫對決策過程影響不是很明確時使用。
在自頂向下的開發策略中可以采用結構化或面向對象的方法,按照數據倉庫的規劃、需求確定、系統分析、系統設計、系統集成、系統測試和系統試運行的階段完成數據倉庫的開發。而在自底向上的開發中,則可以采用螺旋式的原型開發方法,使用戶可以根據新的需求對試運行的系統進行修改。螺旋式的原型開發方法要求在較短的時間內快速的生成可以不斷增加功能的數據倉庫系統,這種開發方法主要適合于這樣一些場合:在企業的市場動向和需求無法預測,市場的時機是實現產品的重要組成部分,不斷地改進對與企業的市場調節是必需的;持久的競爭優勢來自連續不斷地改進,系統地改進是基于用戶在使用中的不斷發現。 自頂向下和自底向上策略的聯合使用具有兩種策略的優點,既能快速的完成數據倉庫的開發與應用,還可建立具有長遠價值的數據倉庫方案。但在實踐中往往難以操作,通常需要能夠建立、應用和維護企業模型、數據模型和技術結構的、具有豐富經驗的開發人員,能夠熟練的從具體(如業務系統中的元數據)轉移到抽象(只基于業務性質而不是基于實現系統技術的邏輯模型);企業需要擁有由最終用戶和信息系統人員組成的有經驗的開發小組,能夠清楚地指出數據倉庫在企業戰略決策支持中的應用。
2、確定數據倉庫的開發目標和實現范圍
為確定數據倉庫的開發目標和實現范圍,首先需要對企業管理者等數據倉庫用戶解釋數據倉庫在企業管理中的應用和發展趨勢,說明企業組織和使用數據來支持跨功能系統的重要性,對企業經營戰略的支持,以確定開發目標。在該階段確認與使用數據倉庫有關的業務要求,這些要求應該只支持最主要的業務職能部門,將使用精力集中在收益明顯的業務上,使數據倉庫的應用立即產生效果,不應該消耗太多的精力在各個業務上同時鋪開數據倉庫的應用。
在確定開發目標和范圍以后,應該編制需求文檔,作為今后開發數據倉庫的依據。 數據倉庫開發的首要目標是確定所需要信息的范圍,確定用戶提供決策幫助時,在主題和指標域需要哪些數據源。這就需要定義:用戶需要什么數據?面向主題的數據倉庫需要什么樣的支持數據?為成功地向用戶提交數據,開發人員需要哪些商業知識?哪些背景知識?這就需要定義整體需求,以文件的形式整理現存的記錄系統和系統環境,對使用數據倉庫中數據的候選應用系統進行標識、排序,構造一個傳遞模型,確定尺度、事實及時間標記算法,以便從系統中抽取信息且將他們放入數據倉庫。通過信息范圍確定可為開發人員提供一個良好的分析平臺,和用戶一起分析哪些信息是數據倉庫需要的,進行商業活動需要什么數據。開發人員可以和用戶進一步定義需要,例如數據分級層次、聚合的層次、加載的頻率以及需要保持的時間表等。 數據倉庫開發的另一個重要目標是確定利用哪些方法和工具訪問和導航數據?雖然用戶都需要存取并且檢索數據倉庫的內容,但是所存取的粒度有所不同,有的可能是詳細的記錄,有的可能是比較概括的記錄或十分概括的記錄。用戶要求的數據概括程度不同,將導致數據倉庫的聚集和概括工具的需求不同。
數據倉庫還有具有一定功能來訪問和檢索圖表、預定義的報表、多維數據、概括性數據和詳細記錄。用戶從數據倉庫中獲得信息,應該有電子表格、統計分析器和支持多維分析的分析處理器等工具的支持,以解釋和分析數據倉庫中的內容,產生并且驗證不同的市場假設、建議和決策方案。為將決策建議和各種決策方案向用戶清楚地表達出來,需要利用報表、圖表和圖像等強有力的信息表達工具。 數據倉庫開發的其他目標,是確定數據倉庫內部數據的規模。在數據倉庫中不僅包含當前數據,而且包含多年的歷史數據。數據的概括程度決定了這些數據壓縮和概括的最大限度。如果要讓數據倉庫提供對歷史記錄進行決策查詢的功能,就必須支持對大量數據的管理。數據的規模不僅直接影響決策查詢的時間,而且還將直接影響企業決策的質量。
在數據倉庫的開發目標中,還有:根據用戶對數據倉庫的基本需求,確定數據倉庫中數據的含義;確定數據倉庫內容的質量,以確定使用、分析和建議的可信級別;哪種類型的數據倉庫可以滿足最終用戶的需求,這些數據倉庫應該具有怎樣的功能;需要哪些元數據,如何使用數據源中的數據等。 數據倉庫的開發目標多種多樣,十分復雜,需要開發人員和用戶在開發與使用的過程中不斷交互完善。因此,在規劃中需要確定數據倉庫的開發范圍。使開發人員能夠根據需求和目標的重要性逐步進行,并且在開發中吸取經驗教訓,為數據倉庫在企業中的全部實現提供技術準備。因此,在為數據倉庫確定總體開發方向和目標以后,就必須確定一個有限的能夠很快體現數據倉庫效益的使用范圍。在考慮數據倉庫苦的應用范圍時,主要從使用部門的數量和類型、數據源的數量、企業模型的子集、預算分配以及開發項目所需的時間等角度分析。
在分析這些因素時,可從用戶的角度和技術的角度兩方面進行。 從用戶的角度應該分析哪些部門最先使用數據倉庫?是哪些人員為了什么目的使用數據倉庫?以及數據倉庫首先要滿足哪些決策查詢?因為這些決策查詢往往確定了關于數據維數、報表的種類,這些因素都將確定數據倉庫定義時所需要的數量關系。查詢的格式越具體,越容易提供數據倉庫的維數、聚集和概括的規劃說明。 從技術角度分析,應該確定數據倉庫中元數據庫的規模,數據倉庫的元數據庫是存儲數據倉庫中數據定義的模型。數據定義存儲在倉庫管理器的目錄中,可以作為所有查詢和報表工具構造和查詢數據倉庫的依據。元數據庫的規模直接表示了數據倉庫中必須管理的數據規模。通過對元數據庫規模的管理,實際上就確定了數據倉庫中所需要管理的數據規模。
3、數據倉庫的結構選擇
數據倉庫的結構可以進行靈活的選擇,可將組織所使用的各種平臺進行恰當的分割,把數據源、數據倉庫和最終用戶使用的工作站分割開來進行恰當的設計。
(1)數據倉庫的應用結構
基于業務處理系統的數據倉庫 在這種結構中,將運作的數據用于無需修改數據的只讀應用程序中。具有這種結構的數據倉庫元數據庫是一種虛庫,而不是數據倉庫自身的元數據。在數據倉庫元數據庫的直接指導下,對數據倉庫的查詢就是簡單的從數據庫中抽取數據。
單純數據倉庫
利用在數據倉庫中的數據源凈化、集成、概括和集成等操作,將數據源從業務處理系統中傳輸進集中的數據倉庫,各部門的數據倉庫應用只在數據倉庫中進行。這種結構經常發生在多部門、少用戶使用數據倉庫的情況下。這里的集中僅僅是邏輯上的,物理上可能是分散的。
單純數據集市
數據集市是指在部門中使用的數據倉庫,因為企業中的各個職能部門都有自己的特殊需要,而統一的數據倉庫可能不能滿足這些部門的特殊要求。這種體系結構經常發生在個別部門對數據倉庫的應用感興趣,而組織中其他部門卻對數據倉庫的應用十分冷漠之時,由熱心的部門單獨開發式所采用。
企業各部門擁有滿足自己需要的數據集市,其數據從企業數據倉庫中獲取,而數據倉庫從企業各種數據源中收集和分配。這種體系結構是一種較為完善的數據倉庫體系結構,往往發生在組織整體對數據倉庫應用感興趣之時所采用的體系結構。
(2)數據倉庫的技術平臺結構 單層結構
單層結構主要是在數據源和數據倉庫之間共享平臺,或者讓數據源、數據倉庫、數據集市與最終用戶工作站使用同一個平臺。共享一個平臺可以降低數據抽取和數據轉換的復雜性,但是共享平臺在應用中可能遇到性能和管理方面的問題,這種體系結構一般在數據倉庫規模較小,而組織的業務系統平臺具有較大潛力之時所采用。
客戶/服務器兩層結構
一層為客戶機,一層為服務器,最終用戶訪問工具在客戶層上運行,而數據源、數據倉庫和數據集市位于服務器上,該技術機構一般用于普通規模的數據倉庫。
三層客戶/服務器結構
基于工作站的客戶層、基于服務器的中間層和基于主機的第三層。主機層負責管理數據源和可選的源數據轉換;服務器運行數據倉庫和數據集市軟件,并且存儲倉庫的數據;客戶工作站運行查詢和報表運用程序,且還可以存儲從數據集市或數據倉庫卸載的局部數據。在數據倉庫稍具規模,兩層數據倉庫結構已經不能滿足客戶的需求,要講數據倉庫的數據存儲管理、數據倉庫的應用處理和客戶端應用分開之時,可以采用這種結構。
多層式結構
這是在三層機構基礎上發展起來的數據倉庫結構,在該結構中從最內數據層到最外層的客戶層依次是:單獨的數據倉庫存儲層、對數據倉庫和數據集市進行管理的數據倉庫服務層、進行數據倉庫查詢處理的查詢服務層、完成數據倉庫應用處理的應用服務層和面向最終用戶的客戶層。體系層次可能多達五層,這種體系結構一般用于超規模數據倉庫系統。
4、數據倉庫使用方案和項目規劃預算
數據倉庫的實際使用方案與開發預算,是數據倉庫規劃中最后需要確定的問題。因為數據倉庫主要用于對企業管理人員的決策支持,確保其實用性是十分重要的,因此需要讓最終用戶參與數據倉庫的功能設計。這種參與是通過用戶的實際使用方案進行的,使用方案是一個非常重要的需求模型。實際使用方案必須有助于闡明最終用戶對數據倉庫的要求,這些要求有的只使用適當的數據源就可以得到基本滿足,而有的卻需要來自企業外部的數據源,這就需要通過使用方案將這些不同的要求聯系起來。 實際使用方案還可以將最終用戶的決策支持要求與數據倉庫的技術要求聯系起來。因為當用戶確定最終要求后,為元數據庫的范圍確定一個界限。還可以確定所需要的歷史信息的數量,當根據特定的用戶進行數據倉庫的規劃時,就可確定最終用戶所關心的維度(時間、方位、商業單位和生產企業),因為維度與所需要的概括操作有明顯的關系,必須選擇對最終用戶有實際意義的維度,如:“月”、“季度”、“年”等。最后,還可以確定數據集市/數據倉庫的結構需要,使設計人員確定采用單純數據倉庫結構,還是單純的數據集市結構或者是兩者相結合的結構。
在實際使用開發方案確定后,還需要對開發方案的預算進行估計,確定項目的投資數額。投資方案的確定可以依據以往的軟件開發成本,但是這種預算的評估比較粗糙。另一種方法是參照結構進行成本評估,也就是說,將數據倉庫實際使用方案所確定的構件進行分解,根據各個構件的成本進行預算估算。數據倉庫的構件包含在數據源、數據倉庫、數據集市、最終用戶存取、數據管理、元數據管理、傳輸基礎等部分中,這些構件有的在企業原有信息系統中已經具備,有的可以選擇商品化構件,有的則需要自我開發。根據這些構件的不同來源,可以確定比較準確的預算。 在完成數據倉庫規劃后,就需要編制數據倉庫開發說明書,說明系統與企業戰略目標的關系,以及系統與企業急需處理的范圍相對有限的開發機會,所設想的業務機會的說明以及目標任務概況說明、重點支持的職能部門和今后工作的建議。數據倉庫項目應有明確的業務價值計劃開始,在計劃中需要闡明期望取得的有形和無形的利益。無形利益包含利用數據倉庫使決策完成得更快更好等利益。
業務價值計劃最好由目標業務主管來完成,因為數據倉庫是用戶驅動的,應該讓用戶積極參與數據倉庫的建設,在規劃書中要確定數據倉庫開發目標的實現范圍、體系結構和使用方案及開發預算。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25