熱線電話:13121318867

登錄
首頁精彩閱讀數據模型梳理:一個自下而上的數據治理方法
數據模型梳理:一個自下而上的數據治理方法
2016-04-23
收藏

數據模型梳理:一個自下而上的數據治理方法

一、數據模型梳理背景

我們在傳統企業(如電信、航空、電力、政府等)實施一個個數據治理項目的時候,總會發現基本類似的問題:

●企業內IT系統越來越多,其復雜度也越來越高,沒有人能說明清楚整個系統的數據架構和數據流向,數據架構與業務流程 、應用架構之間的關系不清晰?!昂诎怠睌祿ㄖ复嬖谟谙到y中但無法說明與業務間的關系,后續亦無法對數據進行分析和應用)現象非常明顯。

●數據模型管理能力自身在不斷減弱;開發團隊出于現實壓力,以實現功能為主,對非功能性需求不太在意,導致模型設計質量不高。IT系統出現先實現后優化的現象,優化效果滯后。

●數據模型變更失控,大多數系統都處于積術式疊代開發,新需求就加一堆表,系統數據模型越來越雍腫;數據模型變更長期缺少基線化,大量已經廢棄業務以及相關數據模型仍然存在于數據庫,無人敢動。

●數據無序增長,企業核心業務系統數據無有效的退出機制,業務系統容量無序增長,長期處于“系統擴容-數據膨脹-性能低下-系統擴容”的怪圈之中。

●數據標準缺失,缺少企業級別統一的數據標準,數據模型相關含義令開發和運維人員難以理解;同時,亦使得企業不同應用間的數據集成和數據共享困難。

●數據安全突出,對企業的敏感數據、用戶、訪問權限仍然缺少認識和控制,數據敏感數據泄漏的安全事件屢見不鮮。

●數據質量參差,數據處理環節中產生大量的錯誤和質量差的數據,數據錯誤發現和處理流程不及時,導致更多的后續錯誤。

從這些問題之中亦反映了一個現實:在當今,數據作為一種企業的重要資產而被人們廣泛接納的時候,對于廣大的傳統企業,正是由于企業在觀念和技術上的缺少而導致數據模型管理方面的缺失,使企業連讀懂自身的數據都是如此困難的一件事,更難以談得上后續的數據分析和應用。

二、一種自下而上的數據治理

由上面問題的分析和歸納,在數據治理這個范疇上,我們應該首先解決的是企業對其數據的了解和認知。

由于IT系統數據模型反映了應用關系型數據庫在數據存儲及數據結構,是元數據的主要組成部分。在今天關系型數據庫仍然大行其道的當下,一種清晰并且與系統應用實踐高度一致的數據模型可以促進了各種應用數據的管理、基于角色的有價值數據資產訪問以及持續的數據集成。并且強化了元數據管理,使組織理解它們所擁有的數據,以及數據與業務流程之間的關系,不管數據來自于什么數據,什么樣的產品平臺以及任何地方。

因此,數據模型梳理,也正是傳統企業必需一個自下而上的數據治理方法之一。

經過完整數據模型梳理可以預期可以達到什么樣的效果:

●克服黑暗數據現象,通過清晰的元數據和數據模型管理讓企業可以真正理解和運用自身的數據,并不斷擴大應用和分析數據的范圍和規模。

●明確數據含義,了解數據訪問與業務流程之間的關系,幫助企業業務使用者(不僅包括IT)可以使用數據和應用數據幫助他們更好完成工作,推動全面數據化運營。

●連接和映射更多數據,充分發掘現有的數據之間的關系,擴大數據規模效應,讓數據可以充分發揮其作用和價值。

●為其他的數據資產管理活動,包括數據質量、數據生命周期管理、數據操作、數據安全、主數據管理等提供一個高質量的基礎。

其實,在數據倉庫領域中,元數據管理正是用來解決這個問題的但由于種種原因,實際上傳統企業中元數據管理也不盡如人意,出現元數據與實際環境嚴重脫節,不能反映其真實數據架構等現象。我們在某電信運營商實現數據治理項目時,曾經遇到的最真實情況是,大多數的系統(或者項目)沒有數據模型設計文檔,而其中最核心的業務系統之一的數據模型最新版本是2年前的,進行初步稽核之后,數據模型與實際生產環境對得上的只有40%左右。

三、數據模型梳理實施方法

一般而言,數據模型梳理的實施步驟大致分為三個步驟:

1.物理模型梳理和優化

物理模型梳理的實質在于數據模型從關系數據庫,形成一份穩定的物理模型設計。但它也不等同于單純應用PowerDesigner等工具從數據庫中進行反向工程(reverse engeering)的結果,或者可以這樣講,反向工程只是其中的初始步驟。初始反向工程出來的結果,經過層層的篩選、過濾、合并和優化以后,最終經各方確認后形成物理模型基線,供后續邏輯模型梳理的基礎,以及作為后續數據模型變更作為基線。

2.邏輯模型梳理

邏輯模型梳理的實質,就是在在數據物理模型的基礎上,通過實體關系分析、字段含義梳理,字段取值梳理等手段,形成企業IT系統邏輯模型。在這個階段,需要引入數據架構師,業務專家,DBA,業務人員等不同角色的人員共同努力實現數據邏輯模型的梳理。在相應工具的支持下,以應用系統核心實體和關鍵實體為突破點,逐步展開和梳理邏輯模型梳理的步驟。

由于完全的邏輯模型梳理往往會引發大量的工作量,一般而言,可以因應不同的系統、系統中不同的業務有重點地(分不同層次地)進行邏輯模型梳理。

3.業務數據地圖梳理

最后,在自動化的手段下,以業務專家為主梳理和形成業務與數據之間的關聯關系,并以圖形化、可視化方式展現出來。業務數據地圖,著重體現業務-應用-數據之間的關系和影響。

四、小結

企業進行數據治理的目的在于為企業數據化運營提供一個高質量的數據環境,包括數據完整性,數據安全性,數據一致性,數據標準化,數據準確和及時等。其中,數據模型梳理作為一種有效的自下而上的數據治理方式,可以提供一個關鍵手段來控制表面上變得日益復雜的數據管理環境,使人們可以驅動數據:更有效地管理他們的數據,可以更有效的使用分析,讓數據發揮和創造更大的價值,真正指引企業的整體運營。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢