
大數據時代,數據管理的12條鐵則
在大數據的時代,大家都在重視數據存儲和一系列大數據相關技術,但是很多人忽略了數據是需要管理的,沒有經過管理的數據,只能叫數據,而不能成為信息,無法真正體現出其內在價值。
懂數據技術再加上知道數據該怎么管理,那么很可能就是CDO了。
我今天就來給大家講講如何更有效地管理數據,先舉個小例子:管家還是機器人?
1管家還是機器人?
假設你有一天回到家,看到家里非常臟亂,但是工作了一天的你不想自己動手打掃房間,所以你打算花錢請個管家。
但是管家告訴你,我自己沒辦法幫你打掃,我有一個辦公室,里面有男清潔工和女清潔工,你需要先給這些清潔工制定一系列制度流程,給他們分配好掃地的區域,然后這些清潔工需要拿著抹布、笤帚、垃圾桶,到你家去掃地,之后你還需要給這些清潔工評分,因為我們有KPI機制…
“請管家”實在是太麻煩,但如果你親自來打掃,沒有專用的工具,有些角落無法打掃干凈。
其實你不需要專門設立辦公室,也不需要制定一系列制度流程,不需要準備抹布、笤帚、垃圾桶,也不用評分,沒有KPI綁定——因為你可以直接找一個機器人!
言歸正傳,對于數據治理來說,目前大部分企業還在沿用傳統的數據治理路線,相當于還是在“請管家”,傳統數據治理方式存在著組織架構龐大、管理流程復雜、人工錄入工作多、管理范圍狹窄等諸多弊端:
1. 組織架構龐大
傳統數據治理需要多個部門參與,多個部門之間復雜的從屬關系讓數據治理組織架構變得異常龐大,這樣的組織架構在后期維護和管理上非常不方便,最終影響了數據治理任務分配和執行的效率。
2. 管理流程復雜
傳統數據治理無論是在數據標準的建立、審批、修訂上,還是在IT任務分配與數據質量報告的生成上,都需要經過一系列復雜的流程,這些流程的審批與中間的周轉大大增加了數據治理落地的難度。
3. 人工錄入工作多
傳統數據治理缺乏平臺和工具的支撐,自動化能力缺失,導致大部分數據相關的錄入工作都由人工來完成,涉及到的人員眾多,人工成本過高,效率比較低而且容易出錯,人員管理上也存在一定困難,不利于長期發展。
4. 管理范圍狹窄
傳統數據管理最終的結果往往不盡如人意,傳統數據治理只能管理DW(數據倉庫)中的數據而不是全企業的數據。
傳統數據治理的這些弊端,讓企業無法真正體驗到數據管理帶來的收益,企業應該慢慢摒棄傳統數據治理這種“請管家”的路線。采用敏捷數據管理的方法,尋找適合的“機器人”,簡化數據管理組織架構和流程,以自動化方式代替人工錄入,拓寬數據管理的范疇。
2選擇掃地機器人的12個技術原則
為實現敏捷數據管理,一方面,企業應該明確數據治理的價值導向,其價值應該體現在幫助企業管理數據,打破部門間的壁壘,使數據的管理成為日常工作的一部分;
另一方面,更為重要的是,企業在實現敏捷數據管理的過程中,應該以技術實踐為核心,利用一系列技術手段以最小的工作量,幫助業務部門明確數據脈絡,落地數據標準,提高數據質量,最終管理好企業內的所有數據,實現企業級的數據管理。
在技術實踐上,如何挑選“機器人”,來實現敏捷數據管理,才是企業應該關注的重點。
我對企業數據管理過程中應該遵循的一系列技術原則進行了如下總結,從技術上告訴大家如何對“機器人”進行挑選。
這十二個技術原則分別是:
我們再來好好看看這個機器人的12個特性每個是干什么的?
1. 統一管理企業資產
不會擦地的掃地機器人,不是好清潔工。一個合格的掃地機器人,應該能夠把整個家都收拾整齊,而不只是掃地。
對于敏捷數據管理來說,應該能夠在技術上管理企業內部所有資產,也就是所有的元數據。這是企業實現敏捷數據管理最基礎、最重要的原則。
目前企業元數據管理的技術架構一般都是基于CWM標準,OMG模型規范體系分為M3,M2,M1,M0四層,CWM標準位于M2層,是一個偏上層的規范,這從一定程度上限制了技術架構的擴展性,這種元數據管理技術架構只能管理企業數據相關資產,并不能管理對象、接口、業務、服務等其他企業信息。
為了增強技術架構的擴展性,實現對企業內部所有數據資產的管理,企業元數據管理技術架構需要基于更底層的規范,也就是位于OMG模型規范體系M3層能夠描述CWM標準的MOF規范,基于MOF規范的元數據管理架構能夠幫助企業擴展出其所需要的所有元模型,進而實現企業所有資產的統一管理。
2. 自動獲取資產信息
機器人應該能夠通過“采集器”自動獲取主人的指令,而不是所有的指令都要主人通過按鈕來手工控制。
對于企業來說,要想統一管理所有信息資產,還依靠原來人工錄入資產的方式肯定是不行的。
企業需要從技術上提供各種自動化能力,實現對資產信息的自動獲取,包括自動數據信息采集、自動服務信息采集與自動業務信息采集等。
這要求企業使用的數據管理工具支持一系列的采集器,并且多采用直連的方式來采集相關信息。
3. 識別與管理業務語義
合格的機器人要能夠聽懂主人的指令,最好內置Siri,能夠人機對話。
企業數據管理也一樣,很多業務的語義十分依賴業務人員的人工梳理,難度大效率低,很可能出現因為梳理人員沒有及時梳理,而造成業務語義難以被及時發現和管理的問題。
未來企業將會面臨數字化轉型,從非結構化的文檔中,將大部分業務語義抽取出來,并統一管理,成為未來的發展趨勢(比如對于保險企業來說,可以利用業務語義抽取技術,從相關文檔中自動識別出短期保險的定義)。
這種能力可以通過自然語言分析技術來實現,企業可以通過綜合多個材料中對同一業務的描述,分析出最新與最廣泛認可的業務定義,由業務人員確認之后,識別出業務語義,這樣大大減少了業務人員的工作量,提升了業務人員梳理業務語義的積極性。
4. 業務語義與技術關聯
合格的機器人,需要聽懂主人的語言,并根據主人的不同指示,啟動不同的程序。
對于企業數據管理來說,技術能弄懂業務的前提是技術與業務之間要有對應,讓企業能夠通過技術手段,對業務進行理解和分析。
目前大部分企業還是靠人工梳理對應業務與技術,業務部門負擔很重,若能夠利用數據治理工具提供商的行業實踐積累,形成業務與技術的自動關聯庫,自動完成業務與技術對應,將能大大減少業務人員的工作量,同時提升技術與業務關聯的準確度,消除業務與技術之間的鴻溝。
5. 從需求開始控制數據質量
要想讓房間徹底變干凈,這個機器人不能只是在房間亂了之后再進行打掃,要想真正解決房間衛生問題,機器人需要在主人的日常生活中時刻提醒主人保持良好的衛生習慣,從根源防止衛生問題的出現。
其實數據質量一直是企業的痛點,數據質量不高,分析和挖掘無從談起,但是企業容易犯一個錯誤,就是只對已經產生的數據做檢查,然后再將錯誤數據剔除,這種方法治標不治本,不能從根本上解決問題。
要想真正解決數據質量問題,應該從需求開始,將數據質量的服務集成到需求分析人員、模型設計人員與開發人員的工作環境中,讓大家在日常的工作環境中自動控制數據質量,在數據的全生命周期中控制數據質量。
6. 在集成點檢查數據質量
合格的機器人需要對主人日?;顒又械母鱾€重要時刻進行檢查,比如吃飯之前、睡覺之前等,嚴格控制主人的衛生情況,當房間內的人數比較多時,要通過抽查的方式檢查人們的衛生情況。
在企業大數據治理過程中,對于大數據生產線中的每個集成點,都需要做數據質量的檢查,嚴格控制輸入數據的質量。
但在企業實際場景中,每個集成點的數據量會非常大,把數據一條條拿出來做檢查這種傳統方式是行不通的,應該先對數據進行抽樣,根據抽樣檢查的結果,決定是否采用這批數據。
7. 持續積累檢核規則
主人自己在家時,機器人可以直接根據主人的生活習慣制定出檢查規則,但是當有外來客人時,就需要對這些客人進行抽查,啟動相關程序自動制定出檢查規則并對這些規則進行存儲,形成外來客人的檢查規則庫。
目前企業內的數據主要分為外部數據和內部數據,大數據時代到來讓各企業廣泛采購第三方數據,第三方數據的質量逐漸成為決定企業數據質量的關鍵因素。
對于企業的內部數據,可以通過業務梳理直接獲得質量檢核規則。
但是對于外部第三方數據,需要先對這些數據進行采樣,并應用關聯算法自動發現其中的質量檢核規則,并將這些檢核規則持續積累,形成外部數據的檢核規則庫。
8. 自動化質量評分
無論是主人還是外來客人,進入房間之前,都要先在走廊上接受機器人的衛生打分和整改,衛生條件合格的人才可以進入房間。
在企業數據治理中,應該與數據采集工具、交換工具相連接,對數據湖泊中的數據進行評分和整改,評分和整改通過的數據才能進一步進入大數據平臺。
9. 管理核心數據定義
機器人只需要針對主人身上的關鍵部位制定相應的衛生標準,就可以大體控制主人的衛生情況,并不需要為主人全身各個部位都制定出專門的衛生標準。
在企業數據治理中,數據標準是很重要的內容,但是建立有效的數據標準并落地,是有一定難度的,傳統數據管理的模式需要建立一套規范數據模型,即使企業實際數據模型中有上萬個字段,也需要將每個字段與規范數據模型進行比對,這種方式往往難以落地。
其實只需要在眾多數據中挑選出核心數據,只管理這些核心數據定義,依照核心數據建立標準,就可以實現企業數據治理的目標,還能提升數據治理的效率。
10. 以數據標準添加技術屬性
合格的機器人應該能夠把所有的衛生標準,轉換為機器可以理解的語言,比如主人規定飯桌干凈的標準是飯桌上沒有任何東西,機器人需要將這條標準翻譯成機器語言,相當于為這條標準增加技術屬性,比如“if(things() == false)”之類的。
在企業數據治理中,任何一個數據標準,如何沒有對應的技術手段,都將難以落地,所以企業建立數據標準時,需要加入信息項的英文名稱,來和實際數據庫表中的字段相對應。
在數據標準中加入信息項的英文名稱能給企業數據治理帶來兩方面的好處:
1. 在做模型設計的時候,標準可以直接與模型設計工具集成,設計模型時就可以直接引用標準。
2. 對已有系統,標準能夠通過英文名稱直接和應用系統的相關字段對應,自動發現與不符合標準的字段,并通過元數據直接通知給相應的系統。
11. 隨業務持續更新數據標準
優秀的機器人能夠自動更新衛生標準,隨著時間的積累,讓這些衛生標準越來越符合主人的要求。
對于企業數據治理來說,有很多數據標準建立以后,往往只是一套書,沒有根據企業業務發展及時做出更新,時間長了就成為了擺設。
實際上,數據標準是需要隨著企業的業務變化而不斷進行修訂的,比如在企業拓展新業務的時候,需要增加相應的標準進去,對于沒有價值的標準,也要及時廢棄。
12. 數據管理能力服務化
機器人是用來為主人“服務”的,其作用是幫助主人清理房間,而不是來“管理”主人的。
對于企業數據治理來說,數據管理服務化是企業能否實現敏捷數據管理的重要原則,敏捷數據管理強調企業把所有的技術能力全面共享成為服務,并融入到企業的各個系統中“幫助”各個系統控制數據質量,規范數據,而不是對企業各個部門的人員進行“管理”,這樣就能使數據管理融入到各部門人員的工作環境中,讓大家在日常的工作環境中自動控制數據質量。
3敏捷數據管理實戰案例
以上這些原則我們在某個大型銀行都有落地。 比如管理了所有的元數據,自動化的獲取了資產信息等等,限于時間關系,就不一一贅述。
未來在大數據時代,數據除了要存儲起來,更加重要的是要管理好,相信未來會有更多的企業重視數據的管理。這樣企業的數據湖才能一直清澈下去,而不是成為數據沼澤。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25