
全面解析數據倉庫系統的建設過程和方法
數據倉庫系統的建設過程和方法不同于建設傳統的操作型處理系統的過程和方法,數據倉庫系統建設"數據分析師"有兩個難點:一是如何保證數據質量,使得數據準確可信;二是如何構造應用體系,使之滿足不同角色用戶的分析決策需要。
受生產系統現狀的影響,如數據源的數據不完整、不一致,數據抽取時間點不能同步,本地網之間存在市場競爭及業務規則的差異性,各專業之間統計口徑的不一致等,數據質量問題客觀存在,數據質量問題的管控工作將貫穿數據倉庫系統建設的整個過程。數據倉庫系統應用來源于用戶需求,來源于開發商的商業理解,應用的開發和完善也受到數據質量的制約。因此,數據倉庫系統建設需要實現數據和應用的互動。
數據倉庫對數據質量的要求
數據倉庫對數據質量的要求總體上歸納為:數據完整性,包括數據源是否完整、數據取值是否完整、維度取值是否完整等。數據準確性,包括數據源是否準確、編碼映射關系是否準確、處理邏輯是否準確等。數據核對準確的判斷是要么結果一致,要么不一致但原因是可解釋的。"數據分析師"數據一致性,包括源系統之間同一數據是否一致,源數據與抽取的數據是否一致,數據倉庫內部各處理環節數據是否一致等。
數據邏輯合理性,主要從業務邏輯的角度判斷數據是否正確,如帳目類型的金額、時長、次數的邏輯關系是否滿足等;月租費用不能出現通話次數、通話時長等。數據時效性,包括數據處理(獲取、整理、加載等)的及時性,數據異常檢測的及時性,數據處理回退的及時性等。 數據倉庫服務于經營決策,經營決策依據的數據應該是全面的、真實可靠的、有意義的。數據時效性如果得不到保證,就可能延誤了市場人員的分析,失去商機。 "數據分析師"從數據倉庫的建設過程來看,它本身修復數據以提高數據質量的能力并不是很強,但是它能發現生產系統存在的一些數據質量問題從而提醒用戶哪些數據有質量問題,將數據問題反饋到業務支撐系統中,由后者做數據修正。
源數據質量現狀分析
傳統的業務支撐系統以滿足生產的業務處理為目標,以內部管理需求為出發點,各種支撐系統獨立設計,缺乏對企業整體業務流程的考慮,缺乏對資源的有效利用,在企業內部形成了許多信息孤島。主要體現在: 數據過于分散,手工處理數據和系統處理數據并存,數據格式多樣。 在數據模型上,實體語義定義、屬性定義、命名規則、編碼規則自成體系,難于與其他系統做匹配。 系統間存在同一實體數據記錄數不一致的現象,例如計費系統和九七系統中客戶數量不一致。 存在信息殘缺現象,沒有完整的統一客戶視圖。
在生產系統中存在需要拆分為具有原子性的數據, 源數據的粒度太粗不能滿足分析要求。 在同一省公司,不同本地網出帳時不一樣,造成數據提供時間不統一。 數據質量的改進存在以下難點: 數據量大,數據格式不統一。 數據質量標準不容易制定。"數據分析師"數據清理的邊界不容易定義。 生產系統不斷升級改造、人員崗位調整等因素容易造成前清后亂。 由于數據倉庫系統的數據來源于計費、營賬、客服、網管等多種業務系統,在各種源數據的整合過程中常發現不同系統中的數據不一致,同時源數據的質量問題比較突出。在數據倉庫系統建設初期數據質量不高在所難免,這需要在系統建設和使用過程中不斷進行修正和補充,從而逐步完善并最終解決系統的數據質量問題。
數據質量改進目標
目標是清理、標準化、提高和匹配現有數據。 通過數據整合,建立完整的、準確的、一致的統一客戶視圖,完善企業共享信息數據,并使企業共享信息數據服務于經營分析,為生產系統的改進提供標準。 建立數據整合流程,實現流程定義、流程配置和流程管控。 建立數據整合的規章制度,落實數據質量的分級負責。建立起數據整合隊伍,使數據質量能夠得以持續改進。 數據質量改進是一個持續的過程,在系統建設及應用推廣過程中,需要針對不同重要程度的數據,制定相應的數據質量評測及接受標準。對于階段目標應按照“近期打基礎,中期見成效,長期促戰略”的原則制定。
數據質量改進方法
數據質量控制要從技術、流程和管理三個方面進行。 從技術層面上,生產系統存在的噪音數據、遺漏數據和不一致性數據,需要進行數據清洗;同時需要對源數據做稽核,如總量稽核和分量稽核。 在流程層面上,對于源數據的抽取要遵從一定的業務規則,"數據分析師"數據的抽取和轉換需要很多步驟來完成,這就需要將過程流程化,并且流程可通過配置來實現。 在管理層面上,要求生產系統報送數據,按照“誰提供數據,誰負責”的原則由生產系統保證源數據的完整性、準確性、一致性、時效性。 應用推動數據質量改進 數據整合的目的是為了支撐應用,讓經營分析系統真正能夠被用起來,核心的問題還是要找到應用的“驅動力”。
對中國電信而言,滿足精確化管理、精確資源配置、上市公司信息披露要求是重點。 各地的具體情況不同,因此應遵循“因地制宜、總體規劃、分步實施、迅速受益、不斷完善”的原則進行應用推廣。不追求一步到位,建議以點帶面,通過“亮點”應用帶動相關數據質量整改。例如通過收入分析主題,可以發現量收不匹配的問題,促使生產系統檢查收入的計算規則。 這樣通過應用發現數據中存在的問題,并將問題反饋給生產系統;通過應用讓用戶看到效果,調動起用戶的熱情,并為其樹立起信心;通過應用引起領導的重視,保證資源的有效投入;讓各級部門關注數據問題,讓責任部門有壓力也有動力。
數據質量改進案例分析
從實施中國電信6省營銷分析情況來看,數據質量改進普遍存在如何定義數據質量評價標準、如何實現數據質量管理的閉環過程、如何界定數據質量改進過程中各系統間的功能邊界三個難點問題。 如何定義數據質量評價標準――首先前端、后端、管控部門根據其專業對數據的不同要求,評價標準各有不同(如后端業務支撐部門對數據的要求是保障其系統的正常運行;前端業務部門對數據的要求是真實反映市場情況;管控部門要求數據要和財務報表保持一致)。數據倉庫建設也要結合實際情況,合理制定各階段數據質量評價標準,以保障系統建設的順利進行。
如何實現數據質量管理的閉環過程――在實際操作中,由于沒有形成數據質量的改進閉環,很容易出現“前清后亂”的情況,這需要制定一個完善的數據質量管理流程,以實現數據質量的持續改進。 如何界定數據質量改進過程中各系統間的功能邊界――數據質量問題牽涉到提供源數據的生產系統和數據倉庫系統,在質量改進中必然存在由誰來進行改進的問題,界定改進過程中系統間功能邊界也是數據質量管理的難點問題。 針對這三個問題,通常在各省基本采用以下方法加以解決 建立由管理層牽頭的數據管理機構,推動數據質量的改進工作 數據質量改進與管理的關系密不可分。
在數據質量的管理上,需要建立一個由省公司主管部門牽頭,相關部門和集成商參與的項目小組負責數據質量標準定義和控制。責任人落實到各個分公司的生產系統業務主管或省公司各生產系統業務主管。如果發現有質量問題向各個本地網分公司進行通報,從而保障了數據質量改進的有效推行。
制定可操作的數據質量管理制度 管理部門需要和集成商一起根據實際情況制定可操作的管理制度,主要的管理制度包括,分階段定義的數據質量目標、數據評價辦法、數據管控流程、統一編碼、數據核對規則等。 ◎完善的數據質量控制流程是持續改進的基礎 在進行數據質量改進實施過程中,需要根據數據質量問題的特點制定一套數據質量控制流程,為提高數據質量水平起到了關鍵的作用。
ETL集中監控和元數據管理的技術實現 自行開發了ETL集中監控模塊和元數據管理功能模塊。 在元數據管理中對數據和處理過程做了定義,用戶有了一個數據倉庫地圖。如果數據源或者抽取邏輯發生變化,用戶可以分析對其他元數據的影響。
通過ETL集中監控模塊可以對數據的整體處理流程進行定義;將數據質量評價標準以數據校驗程序化,并作為流程中的一個環節配置到流程中;用戶可以對處理過程實施監控,對于數據異常能夠及時得到告警信息和錯誤報告。 通過以上措施,在數據質量上可以取得以下實際效果: 數據整合過程得以規范化,也減輕了維護人員的工作負擔。 各級人員對數據質量變得敏感,如果發現有質量問題向各個本地網分公司進行通報,從領導到具體責任人都關心數據質量問題,提高了相關人員對數據質量的重視程度和工作責任心。 數據質量穩步提高,例如通過對計費、九七、渠道系統客戶數據的對比、過濾、合并等方法,使得客戶資料逐步趨于完整和一致。
持續改進思路
通過數據清理,將逐漸形成完整和準確的企業數據視圖,為經營分析和生產支撐提供可靠的數據來源。由于數據源系統會不斷升級,同時經營分析系統的數據模型也存在優化和發展。數據質量是一個持續改進、反復迭代、螺旋上升的過程。
數據質量任重道遠,不可能一勞永逸,要作為長期的任務來抓。 例如在客戶資料的清理上,可以按照“先大客戶,然后商業客戶,再次公眾客戶”,在客戶屬性上“先保證客戶消費屬性,后社會屬性”的思路做清理。對每一種客戶類型也可以劃分成幾個階段: 第一階段 整理客戶、用戶、帳戶三戶模型,通過歸并、篩選、補充等方法在現有生產系統上先建立起統一的客戶標識、帳戶標識、用戶(銷售品實例)標識;建立起客戶與用戶之間的對應關系、客戶與帳戶的對應關系,用戶與帳戶之間的對應關系。 第二階段 整理產品/銷售品,定義新的產品目錄表,按產品/優惠套餐定義銷售品目錄;將原有產品映射到新定義的產品目錄表中;將新功能映射成附屬產品;并定義出產品與產品實例對應關系、產品實例間的對應關系、產品實例與定價計劃和客戶協議之間的對應關系。 第三階段 補充客戶社會屬性,通過第一階段和第二階段建立起客戶消費屬性,再通過CRM系統和CSS系統補充客戶社會屬性,形成統一的企業客戶視圖。數據分析師培訓
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25