
前言,這個數據平臺發展史僅是自己經歷過由傳統數據平臺到互聯網數據平臺發展一些簡單回憶,文章引用了歷史項目&平臺規劃架構,在這里不做更深入描述。
我是從2000年開始接觸數據倉庫,大約08年開始進入互聯網行業,那時在互聯網接觸到數據平臺與傳統第三代數據架構還是有很大的類似之處,隨著互聯網的突飛猛進,每一次的技術變革都帶來一場從技術、架構、業務的漸進式變革,到今天互聯網、非互聯網的數據平臺架構已經差異非常大。
回顧早期的企業環境,企業的生產與服務是一個很長周期,導致業務數據呈現一種粗粒度模式。隨著互聯網的快速滲透從早期的PC終端到“襠下“的 移動終端,對用戶的需求與服務周期將逐漸的縮短,業務量級、數據類型多樣化與存儲的暴增,對應著技術、架構、業務呈現出迅猛發展,相應的數據沉淀與積累也成指數暴漲。
從”數據倉庫“ 詞開始到現在的“大數據”,中間經歷了太多的知識、架構模式的演進與變革,比如說“數據倉庫、海量數據、大數據”等。(備注:數據倉庫一般指的是:在相當長的時間內堆積數據,僅僅需要處理大量數據請求中的少部分的系統。數據倉庫不等同于“海量數據” 。恰恰相反,而是其子集。海量數據也包含:通過大量的連接提供每秒百萬次服務請求的系統。大數據是海量數據+復雜類型數據基礎上的大分析、高寬帶、大內容)。
數據倉庫在國外的發展史多年,大約在98-99年左右進入中國,到現在歷了大約十多年發展。到了今天尤其是在非互聯網、互聯網企業兩個領域數據平臺有顯著的區別。本文將以非互聯網時代、互聯網時代數據平臺發展角度來講述。
很多從傳統企業數據平臺轉到互聯網同學是否有感覺,非互聯網企業、互聯網企業的數據平臺所面向用戶群體是不同的?這兩類的數據平臺的建設、使用用戶又有變化?數據模型設計又有什么不同呢?
我們先來看用戶群體的區別,下邊整理了2個圖來講述用戶群體相關區別。
一、用戶群體
非互聯網數據平臺用戶:
企業的boss、運營的需求主要是依賴于報表、商業智能團隊的數據分析師去各種分析與挖掘探索;
支撐這些人是ETL開發工程師、數據模型建模、數據架構師、報表設計人員,同時這些角色又是數據平臺數據建設與使用方。
數據平臺的技術框架與工具實現主要有技術架構師、JAVA開發等。
用戶面對是結構化生產系統數據源。
互聯網數據平臺用戶:
1.互聯網企業中員工年齡比非互聯網企業的要年輕、受教育程度、對計算機的焦慮程度明顯比傳統企業要低、還偶遇其它各方面的緣故,導致了數據平臺所面對用戶群體與非互聯網數據平臺有所差異化;
2.互聯網數據平臺的使用與建設方是來自各方面的人,數據平臺又是技術、數據產品推進建設的。
3.分析師參與數據平臺直接建設比重增加。
4.原有的數據倉庫開發與模型架構師的職能也從建設平臺轉為服務與咨詢.
5.用戶面對是數據源多樣化,比如日志、生產數據庫的數據、視頻、音頻等非結構化數據 。
從這用戶群體角度來說這非互聯網、互聯網的數據平臺用戶差異性是非常明顯,互聯網數據平臺中很多理論與名詞都是從傳統數據平臺傳遞過來的,本文將會分別闡述非互聯網、互聯網數據平臺區別。
非互聯網時代
自從數據倉庫發展起來到現在,基本上可以分為五個時代、四種架構(大家可以詳細翻一下數據倉庫的發展歷史,在這里僅作科普性介紹)
1.約在1991年前的全企業集成
2.1991年后的企業數據集成EDW時代
3.1994年-1996年的數據集市
4.1996-1997年左右的兩個架構吵架
5.1998年-2001年左右的合并年代
五個時代劃分是以重要事件或代表人物為標志,比如說在企業數據集成EDW時代其重要代表人物是Bill Inmon 代表作數據倉庫一書,更重要是他提出了如何建設數據倉庫的指導性意見與原則。他遵循的是自上而下的建設原則,這個導致后來數據倉庫在千禧年傳到中國后的幾年內,幾個大實施廠商都是遵守該原則的實施方法,后來的數據倉庫之路等各種專業論壇上針對數據倉庫ODS-EDW的結構討論(備注:壇子里有個叫吳君,他發表了不少這方面的文章)。
在國內項目實施中IBM、Terdata、埃森哲、菲奈特(被東南收購,東南后來某些原因而倒閉)等很多專業廠商在實施中對ODS層、EDW層都賦予了各種不同的功能與含義。
在數據集市年代其代表人物是Ralph kilmball,他的代表作是”The Data Warehouse Toolkit“,在數據倉庫的建設上Ralph kilmball 提出的是自下而上的建設方法,剛好與Bill Innmon的建設方法相反,這兩種架構方式各有千秋,所以就進入了爭吵時代。
我整理了一個表格是這兩位大師的優缺點:
隨著數據倉庫的不斷實踐與迭代發展,從爭吵期進入到了合并的時代,其實爭吵的結果要麼一方妥協,要麼新的結論出現,果然Bill inmon與 Ralph kilmball的爭吵沒有結論,干脆提出一種新的架構包含對方,也就是后來Bill Inmon 提出的CIF(corporation information factory) 架構模式、這也算是數據倉庫的第三代架構,其架構特點是把整個架構劃分為不同層次,把每一層次的定義與功能都詳細的描述下來,從04年后國內的很多數據倉庫架構、甚至互聯網剛開始搞數據平臺數據倉庫架構模式也是這一種。
數據倉庫第一代架構
(開發時間2001-2002年)
海爾集團的一個BI項目,架構的ETL 使用的是微軟的數據抽取加工工具 DTS,老人使用過微軟的DTS 知道有哪些弊端,后便給出了幾個DTS的截圖。
功能:進銷存分析、閉環控制分析、工貿分析等
硬件環境:
業務系統數據庫:DB2 for Windows,SQL SERVER2000,ORACLE8I
中央數據庫服務器:4*EXON,2G,4*80GSCSI
OLAP 服務器:2*PIV1GHZ,2G,2*40GSCSI
數據倉庫第二代架構
這是上海通用汽車的一個數據平臺,別看復雜,嚴格意義上來講這是一套EDW的架構、在EDS數據倉庫中采用的是準三范式的建模方式去構建的、大約涉及到十幾種數據源,建模中按照某一條主線把數據都集成起來
這個數據倉庫平臺計劃三年的時間構建完畢,第一階段計劃構建統統一生性周期視圖、客戶統一視圖的數據,完成對數據質量的摸底與部分實施為業務分析與信息共享提供基礎平臺。第二階段是完成主要業務數據集成與視圖統一,初步實現企業績效管理。第三階段全面完善企業級數據倉庫,實現核心業務的數據統一。
在第一階段數據倉庫中的數據再次通過階梯型高度聚合進入到數據集市DM(非挖掘集市)中,完成對業務的支撐。
數據的ETL 采用datastage 工具開發(備注 大約06年我寫了國內最早的版本datastage 指南 大約190頁叫“datastage 學習版文檔”。后來沒再堅持下來)。
數據集市架構
這個是國內某銀行的一套數據集市,這是一個典型數據集市的架構模式、面向客戶經理部門的考慮分析。
數據倉庫混合性架構(Cif)
這是太平洋保險的數據平臺,目前為止我認識的很多人都在該項目中呆過,當然是保險類的項目。
回過頭來看該平臺架構顯然是一個混合型的數據倉庫架構。它有混合數據倉庫的經典結構,每一個層次功能定義的非常明確。
ODS層支撐單一的客戶視圖,是一個偏操作行的做唯一客戶識別的,同時提供高可用戶性客戶主信息查詢。
EDW層基于IIW(IBM的通用模型去整理與實施)最細粒度、原子、含歷史的數據,也支持查詢。
各業務數據集市(DM) 面向詳細業務,采用雪花/星型模型去做設計的支撐OLAP、Report、儀表盤等數據展現方式。
新一代架構OPDM 操作型數據集市(倉庫)
OPDM大約是在2011年提出來的,嚴格上來說,OPDM 操作型數據集市(倉庫)是實時數據倉庫的一種,他更多的是面向操作型數據而非歷史數據查詢與分析。
在這里很多人會問到什么是操作型數據?首先來看操作型數據支持的企業日常運作的比如財務系統、Crm系統、營銷系統生產系統,通過某一種機制實時的把這些數據在各孤島數據按照業務的某個層次有機的自動化整合在一起,提供業務監控與指導。在2016年的今天看來OPDM在互聯網很多企業已經實現了,但是在當時的技術上還是稍微困難點的。
文 | 松子(李博源) songzi2016
來源 | 微信公眾號python2004
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25