
企業大數據應用三段論
隨著云計算、物聯網和開源大數據技術生態的高速發展,企業獲得大數據相關基礎設施技術和服務越來越容易。雖然現階段大數據成熟應用多在互聯網公司,但我們需認識到,一方面,大數據應用是非常碎片化的,這個碎片化包括業務層面和技術層面,大數據不只是谷歌,亞馬遜,BAT等互聯網企業,每一個行業、企業里面都有它去關注數據的痕跡:一條生產線上的實時傳感器數據,車輛身上的傳感數據,高鐵設備的運行狀態數據,交通部門的監控數據,醫療機構的病例數據,政府部門的海量數據等等;大數據不只是Hadoop和Spark,從采集、存儲、挖掘、預測、展示、決策各個層面的技術生態體系十分龐雜。很多企業都意識到大數據應用潛力巨大,但說到具體業務需求就是一頭霧水,到具體技術選型還是一頭霧水;另一方面,現在開源大數據技術泛型下的系統、技術及架構主要來源于互聯網巨頭,這種技術架構真正適合傳統企業和機構嗎?中小企業如何做大數據應用?互聯網企業的大數據架構是否適合傳統企業大數據應用?傳統企業的核心數據多是結構化的,如何對眾多業務系統的分析整合進行支撐,如何對傳統商業智能(Business Intelligence, BI)系統進行集成或逐步升級替換?諸如此類問題需要深入調研、分析和具有豐富的業務技術經驗才能做好規劃設計。另外大數據時代數據的壟斷趨勢在加劇,中小企業甚至處于信息化劣勢的國家,如何獲得數據話語權更值得深思,怎么樣設計實施大數據戰略就更重要了。
上述種種問題,說明我們對大數據應用充滿了困惑。如何解惑,下面提出自己的一點粗淺看法。我們都知道,大數據成熟應用來源于互聯網企業,大數據技術也發源于互聯網巨頭,為什么?這跟互聯網企業的基因有關,UGC海量數據就不說了,互聯網公司業務和技術都注重幾個關鍵詞:敏捷、簡潔、迭代。什么樣的數據,用哪種方式存儲效率最高,怎么樣處理起來速度最快成本最低,如何持續支持海量數據存儲和并發訪問等。企業要想應用好大數據,就應該大膽的拋棄傳統的信息化思路,從零開始,借助于互聯網企業敏捷和迭代理念,真正去思考這么多歷史數據對企業來講有什么意義,會產生什么價值,如何最佳應用實施。說白了這就是大數據思維的變革,雖然說起來有點虛,但這個思維觀念不轉變過來,是很難做好大數據應用的。接下來企業要問自己幾個核心的問題:要處理的數據類型有哪些?要處理的數據量和未來的增長規模如何?處理的速度要求快還是慢?已有的數據和系統現狀怎么樣如何和大數據應用整合?大數據分析的背景知識和分析目標是怎么樣的?上述問題明確之后,還必須認識到,在企業大數據應用實施過程中,由于成本、時間、技術和人力考慮,不可能短時間內建設所有大數據相關的業務子系統,大數據應用本身有其規律和特點,比如分析目標一定是要跟數據規模匹配,分析技術的采用取決于數據結構和數據源條件,數據集成一定要覆蓋比較全面的業務背景,關鍵環節數據不能有缺失等等。
最后建議企業大數據應用分三個階段進行:(1)大數據基礎設施建設階段:這個階段的重點是把大數據存起來,管起來,能用起來,同時要考慮大數據平臺和原有業務系統的互通聯合問題。一句話,做好全局數據集成解決數據孤島問題!要完成大數據基礎設施系統(主要是采集和存儲)搭建和集成開發,明確數據采集、存儲和分析各層核心組件的選型和使用,搭建穩定的大數據集群,或選擇私有云方案的服務集群,與生產系統并線運行,使待分析的歷史數據和實時數據得以采集并源源不斷流入大數據系統。
(2)大數據基礎描述分析階段:此階段主要定位于離線或在線對歷史數據進行企業全局條件下的基本描述統計分析,對管理起來的大數據能進行海量存儲條件下的交互式查詢、匯總、統計和可視化,如果建設了BI系統的,還需整合傳統BI技術進行OLAP、KPI、Report、Chart、Dashboard等分析和初步的描述型數據挖掘分析,并能快速驗證描述分析結果進行調整,同時對大數據系統進行迭代升級開發。這個基礎分析階段是對數據集成質量的檢驗,也是對海量數據條件下的分布式存儲管理技術應用穩定性的測試,同時要能替代傳統BI的豪華報表就算基本成功了。
(3)大數據高級預測分析和生產部署階段:在初步描述分析結果合理,符合預期目標,數據分布式管理和描述挖掘穩定成熟的條件下,可結合進一步業務點分析需求,采用如深度學習等適用海量數據處理的機器學習模型,進行高級預測性挖掘分析。并通過逐步迭代優化挖掘模型和數據質量,形成穩定可靠和性能可擴展的預測分析模型,并在企業相關業務服務中使用分析結果進行驗證、支持和反饋,核心目標就是像谷歌大腦,百度大腦計劃落地一樣,建立企業未來的決策支持中心和實現真正的商業智能!
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25