
本篇文章將以數據產品的角度來看數據采集后數據流的處理過程;并講解一丟丟偏技術、但與數據產品產出息息相關的數據倉庫。
一. 數據處理過程
數據產品經理的工作中一大部分都是將不可估測的數據轉化為可見的報表、有結論意義的分析報告——也就是將數據從各種異構的數據源中、匯總,最終展示為報表、儀表盤、動態數據分析查詢、結論性的分析報告等等。
1. 有哪些異構數據源呢?
服務端、客戶端用戶行為日志用戶的歷史信息,定性信息(e.g.性別,職業的用戶畫像數據),定量信息(e.g.近30天的某個興趣傾向程度)第三方等獲取的信息,e.g.爬蟲數據、人工整理的數據等等
2. 這信息大都需要二次加工、清洗,生成結構化的數據
臟數據的清洗、整合,e.g.延遲數據的按照發生日歸納;生成基礎性的表,以提高數據的易用性,e.g.用戶基礎數據、行為數據的基礎表;生成可以直接應用于報表、分析的用戶&行為結構化業務應用表;
輕描淡寫的2個步驟,卻是影響報表展示、分析結論的關鍵點,也是數據產品經理最需要細心處理的地方。
二. 數據倉庫(Data Warehouse)
數據處理過程往往比較模糊,但“異構數據源->結構化的數據表->報表/分析報告”的過程中,我們常見的各種數據庫表就是數據倉庫的實體,如常見的hive,spark,Oracle等。那在數據產品經理日常數據處理中應該注意哪些數據倉庫知識點呢?
1. 數據倉庫分層
為什么要做分層呢?
更清晰的管理、追蹤數據(清洗的數據結構、明確的血緣關系):有助于我們去查找數據處理的整條鏈路;通過建立通用的中間表,減少重復計算:一張通用的中間表,能夠有效提供能夠直接貢獻于下游業務數據表,以避免每次都從原數據中產出業務數據表;清晰的數據倉庫分層,將能夠有助于我們分解數據處理過程:將復雜的數據->業務應用,拆解成多個步驟,每一層只處理單一的步驟;
數據分層具體是指?每一層應該注意什么呢?
操作數據層(ODS,Operational Data Store):該層級的數據,最接近數據源的原始面貌(內容和粒度與原始數據一致),通常是數據源直接經過ETL后,存儲于此。從原始數據到ODS層,不建議做復雜的數據清洗,以免破壞原始數據,引起不必要的排查成本。
建議僅進行——
將json記錄的日志,映射到各字段中;作弊數據的清洗;數據轉碼:將編碼映射成具有真實含義的值數據標準化,e.g.把所有的日期都格式化成YYYY-MM-DD的格式;異常值修復,e.g.視頻播放表:(包含用戶id、視頻id、播主、播放時間等)。
如果一個表劃分為ODS層,那么一定要確認是否將原數據的有意義字段均清洗過來。
明細數據層(DWD,Data Warehouse Detail):對ODS層做一些業務層面的數據清洗和規范化的操作,e.g.用戶播放視頻的日志級表;
如果一個表劃分為DWD層,是否清晰、明確的記錄了業務層面的明細數據?
匯總數據層(DWS, Data Warehouse Summary):依據業務需求對ODS/DWD層的數據進行了匯總,e.g.帶有用戶畫像信息的播放視頻;
如果是DWS層的表,是否能夠有效、便利的服務于業務方向統計需求?
應用數據層(ADS,Application Data Store):業務需要進行的統計數據結果,e.g.各類型用戶的視頻播放統計。
如果是ADS層的表,是否能夠得到業務需要的統計數據?
維度表(DIM):存放基礎信息,如用戶屬性表-性別、年齡等等。
如果是DIM層的表,是否全面記錄了后續分析或統計需要用的各個維度?
除了固定為分層外,當然還有臨時表(TEM)。
阿里/華為的數據倉庫數據分級:操作數據層(ODS)、明細數據層(DWD)、匯總數據層(DWS)和應用數據層(ADS),維度表(DIM); 操作數據層、明細數據層、匯總數據層都是公共數據層。
此外,涉及表時,需要充分考慮這張表后續是哪個角色的同學使用,表是否足夠易用?是否內容冗余?是否安全?
業務線的同學是否能夠通過幾條簡單的SQL語句,拿到數據結果?可以通過單張表格統計到數據還是需要多表關聯獲???單張表是不是內容冗余,是否會影響查詢效率?多表關聯時,是否會有業務理解上的坑,e.g.多表間的字段是一對一,一對多,還是多對多,如何讓使用者清晰的理解?表中是否涉及敏感的字段,比如金額等,使用群體是否有足夠的權限獲取這些信息?
2. 元數據管理
元數據及應用也是數據倉庫的重要組成部分,它是描述數據的數據(data about data),描述數據的屬性信息,可以幫助我們非常方便地找到他們所關心的數據。
元數據記錄了哪些信息?
數據的表結構:字段信息、分區信息、索引信息等;數據的使用&權限:空間存儲、讀寫記錄、修改記錄、權限歸屬、審核記錄等其他信息;數據的血緣關系信息:血緣信息簡單的說就是數據的上下游關系,數據從哪里來到哪里去?我們通過血緣關系,可以了解到建立起生產這些數據的任務之間的依賴關系,進而輔助調度系統的工作調度,或者用來判斷一個失敗或錯誤的任務可能對哪些下游數據造成影響等等;而在數據排查過程中也可以幫助我們定位問題。數據的業務屬性信息:記錄這張表的業務用途,各個字段的具體統計口徑、業務描述、歷史變遷記錄、變遷原因等。這部分數據多是我們手動填寫,但卻能大大提升數據使用過程中的便利性。
此外,根據數據實時性,數據倉庫可以分為離線數據倉庫、實時數據倉庫。
離線數據倉庫主要記錄t-1以上的數據,以天、周、月數據計算為主;實時數據倉庫是隨著人們對實時數據展示、分析、算法的需求而出現的。
4. 總結
數據處理過程是數據產品經理 產出報表、分析報告耗時最久的部分,了解數據倉庫的概念&關鍵點,有助于我們清晰、有效的處理數據,提高工作效率,將更多的時間用于業務洞察。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25