
企業大數據分析實踐指南、總結與展望
在我們身處的時代,數據無處不在。據IBM公司估算,我們每天產生約2.5萬ZB的數據,這意味著世界上90%數據都是過去的兩年中產生的。
Gartner公司分析報告顯示,在2015年財富500強的公司中百分之八十五的企業無法利用大數據來獲取競爭優勢。
到2020年,全世界將有上百萬大數據相關的就業機會產生。這些龐大的數據蘊藏了寶貴財富,企業可以使用最先進的分析技術,利用這些數據更好地了解客戶的行為,識別商業機會,制定運營戰略。
讓我們舉幾個例子:
金融機構每天通過信用評分模型,了解他們的客戶在未來12個月內每種信貸產品(抵押貸款、信用卡、分期貸款)上的信用。他們以該信用評分為基礎來進行壞帳準備,計算巴塞爾協議II/III規定所需資本金數量,或是制定營銷方案(例如根據信用評分調整信用卡額度)。
電信運營商使用最近通話行為數據建立流失模型,估計客戶在未來一到三個月流失的可能性。
運營商會根據模型得分來制定營銷活動,避免有價值的客戶流失。
Facebook和Twitter會使用社交媒體分析技術進行內容分析和情感語義分析,以便更好地了解品牌認知度,進一步調整產品服務設計。
亞馬遜和Netflix等在線零售商不斷地分析顧客的購買行為,以決定產品捆綁銷售策略,并利用推薦系統為客戶下一次購買推薦產品。
信用卡公司使用欺詐檢測模型,檢測付款是否具有欺騙性,是否發生了信用卡盜刷。
政府采用數據分析技術來預測逃稅行為,優化公共預算分配,分析交通數據提高公共交通效率,分析預測恐怖襲擊保障國家安全。
化數據為價值
數據是任何分析模型成功的基礎。當啟動分析項目時,有必要詳細列出企業內所有可用于分析的數據。這里的原則就是數據越多越好!因為很多分析模型都能自動決定哪些數據對當前分析很重要,哪些數據可以排除在下一步分析之外。
我們的研究不斷印證了這樣一個觀點:改善分析模型最好的辦法,就是投資于你的數據!這可以通過數量和質量兩個維度的提升來完成。對于前者,一個關鍵點是如何整合結構化數據(例如關系數據庫)和非結構化數據(如文本),提供全方位綜合視角進行客戶行為分析的,另一個關鍵點則是在線數據和離線數據的整合,很多企業為這個問題所困擾。此外企業還可以超越其內部邊界,考慮從外部數據供應商那里購買外部數據,以彌補其內部數據的不足。大量的研究表明采用外部數據,對比較和完善分析模型非常有用。
雖然數據常常體量巨大,但是數據質量經常是一個痛點。GIGO(garbage in garbage out)的原則在這里非常適用,爛數據只會生成爛模型。聽起來顯而易見,然而實踐中數據質量往往成為許多分析項目的“阿喀琉斯之踵”。數據質量可以分解成很多維度:準確性、完整性、新近度、一致性等。在大數據分析中,企業必須專門制定數據質量管理方案,設立數據審核員、數據管家或數據質量經理等職位,持續監測數據質量。
數據分析應該從商業問題開始,而不是從具體的技術解決方案開始。但是這帶有一絲“雞生蛋,蛋生雞”的意味。要解決商業問題、識別商業機會,需要對潛在的技術解決方案有了解。以社交媒體分析為例,只有首先了解分析技術后,公司才能開始思考如何利用它們研究在線品牌認知度,進行趨勢監測。為了跨越分析技術和業務之間的鴻溝,持續性培訓和學習是關鍵,它能使企業始終屹立在分析技術的潮頭,保持競爭優勢。在這一點上,學術界應該深刻檢討,因為現有的很多大數據分析(或數據科學)碩士課程無法滿足上述的要求。
將數據轉化為洞察力和提升價值的另一個關鍵點是分析模型的驗證。分析模型需要適當的機制和工具來進行審核和驗證,越來越多的公司將分析團隊拆分成模型開發和模型驗證兩個團隊。良好的公司治理能夠在兩個團隊之間筑起一道防火墻,使得由前一小組開發的模型可以客觀和獨立地被后者團隊評估。公司甚至可以考慮由外部合作伙伴進行模型驗證。通過建立分析基礎信息設施,公司能夠不斷基于現有狀況對模型進行評估和驗證,提升分析模型性能,抓住更多目標客戶。
數據分析往往不是一蹴而就的事情。事實上,當分析模型投入使用時就已經過時了!分析模型總是落后于現實,我們能做的只是保持這種滯后性盡可能小。分析模型所使用的數據,都是在一個特定的時間點和特定的內外部環境條件下采集得到的。這一特定環境不是靜態的,而是隨著內部因素(如新戰略,不斷變化的客戶行為)和外部因素(新宏觀經濟環境和法律法規)不斷變化而變化。
例如,欺詐檢測分析中,欺詐者總是試圖不斷逃避模型的偵測,以騙取更多的錢財。另一個例子是信用評分模型在很大程度上依賴于當前的宏觀經濟狀況(復蘇或是衰退)。因此,分析模型要取得成功創造價值,就必須對內外部環境進行監測,以及時調整或重建模型。
構建底層基礎
為了建立一個分析環境,企業需要就所采納的硬件和軟件技術進行選擇。
硬件方面,需要專門的基礎設施(如Hadoop和相關的軟件棧)來清理、整合、存儲和管理數據。為了減少支出,企業可能選擇云存儲,并將大數據作為一種服務。公司在同外部進行數據傳輸和交換時,應采取適當的謹慎措施,保證數據私密性。
軟件方面,很多廠商提供了大數據分析的商業解決方案。目前市場還有很多的開源分析軟件(R、weka、Rapidminer),雖然這些開源軟件解決方案變得非常流行,但是他們還不夠成熟,還不足以很好的處理具有大體量、多樣性等特性的大數據。大數據分析成為越來越多公司的DNA 組成部分,但是政府、金融、醫藥,每個行業都有自己發展足跡,數據、業務和監管都具有特異性,需要針對不同的基因組成進行不同的設置。因此企業需要的是能提供綜合全面垂直業務解決方案的軟件,而不是一個跨行業的橫向通用軟件。
鑒于建立數據分析構架環境的復雜性,公司可能會考慮外包。然而,公司內部數據及其蘊藏的信息是公司最寶貴的戰略資產,因此不宜讓第三方完全擁有數據訪問權。相反,企業應該建立內部分析中心和培養公司人員的分析技能,以服務公司廣泛的分析需求,這是公司在管理中應該考慮的問題。同樣公司董事會和高級管理人員都應該參與到分析環境構建中。很多企業還嘗試設立首席分析官(CAO)這樣的職位,專門負責建立企業范圍內的分析環境和基礎設施,管理各業務單位分析模型的研發、審核及部署。
最后一點,我們現在看到越來越多的中小型企業開始借助大數據分析。這些公司通常預算有限,因此它們比較中意那些現成的可以直接用于數據分析的現成軟件解決方案。比如利用在線分析工具,來研究網站的使用現狀,優化網站設置、改善網站在搜索引擎排名并購買付費引擎營銷方案。
總結與展望:
在文章的結尾之處,我們想再次重申企業進行大數據分析所必須注意的幾個問題:
從公司管理的角度來看:
(1)公司應同時關注數據體量和數據質量;
(2)持續學習和培訓能填平新分析技術和新商機之間的鴻溝;
(3)分析開發團隊應該包括獨立的模型開發團隊和模型驗證團隊;
(4)分析并不僅僅是模型開發和驗證,還包括模型的監測和回溯測試。
從技術的角度企業應該:
(2)應該關注垂直式行業解決方案,謹慎選擇開源軟件;
(3)對待外包分析要慎之又慎,最好能在企業內部建立分析環境,并置于高層的管理之下。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25