
數據大未必是大數據 三談大數據時代_數據分析師
前不久寫了一篇《迎接大數據時代》的文章,發表后頗有反響。一些朋友找我去開這方面的會,一些媒體采訪發這方面的文章,一些資本想找這方面的項目投入。這可有點似曾相識燕歸來的感覺了。當年寫過關于WEB2.0革命,寫過網絡平臺,寫過開放,業內和社會上也都有過類似反應,想搭順風車,混吃混喝的大有人在。為了避免以往悲劇的產生,減少魚龍混雜,以假亂真的現象,只好多寫幾篇這方面的感想,權作免責條款吧。
極而言之,如果全世界網民的網絡行為記錄都能緊密整合在一起,那當然稱得起大數據這個名稱。反之,如果只有一個網民的一條孤零零網絡記錄,那當然撐不起大數據這個概念。問題在于如何在這兩個極端之間,找到一個劃分大數據與否的區分點,或者找到一組指標,能夠具體衡量數據量從量變到質變的相對標準。這無論在學術研究上或是在商業實戰上都很重要。試想若是某個公司自認為自己網絡服務產生的數據量很大,覺得可以自稱大數據公司了。于是說服董事會和投資者加大這方面的投入,購買大批專用設備和第三方專業服務,組建這方面的團隊。經過一段時間的實踐,發現投入產出不成比例,建立在大數據基礎上的商業模式和產品服務研發不能得到理想的回報,那豈不是個悲???
以我的觀察和實踐經驗,網絡業中一個公司是否稱得起擁有大數據至少要從三個維度考量:
數據規模----所謂大數據最基本的要求當然是數據規模大,但很難給出一個絕對的數字標準來確定大小,而只能用一些模糊的感覺來相對比較。例如,一個公司在年度預算中有了專門的,顯著的數據存儲和分析預算(例如,總預算的3-5%),有了獨立的數據處理和分析部門,有了比較完整的數據存儲,安全和保密政策與管理流程,有了高度依賴數據分析結果的商業模式,那么,可以說這個公司面臨著利用大數據的機會或挑戰了。
數據結構----數據量只是反映數據性質的一個指標,也許還不是最重要的指標。一天產生一百萬個T數據的公司也許算不上大數據公司,而另一個一天只產生一萬個T數據的公司也許反而是個大數據公司,其奧妙在于數據結構的復雜性。例如,A公司擁有一億用戶,但用戶在A公司網站上只干一件事或一類事,比如獲取新聞資訊,買買東西,或者玩玩游戲。那么由此產生的數據量雖然不小,但結構簡單,重復性高,分析起來很容易,無非就是根據用戶背景和使用習慣分分組,歸歸類,簡單數據挖掘基本功足夠,扯什么大數據就有點故弄玄虛了。B公司只有一千萬用戶,卻是個開放平臺,用戶在此可以干互聯網能夠支持的所有事情,網絡行為又可分為個人,群體,組織等層次,那么這個數據的結構就夠復雜,能夠支持深度挖掘和復雜建模,因而就可以算作大數據。
數據關聯度----網絡業一個常見現象就是隨著數據量的增加,用戶行為所產生的數據間的關系越來越不清晰,越來越難以捉摸,越來越相互孤立,也就是所謂的數據碎片化。這種碎片化主要來自兩個方面:一是網站結構碎片化,邏輯混亂化,各種產品與服務之間相互孤立化,因而導致數據之間關系斷裂,關聯度很低。例如,明明是同一個用戶在一個網站上使用了十種不同的產品和服務,但由于其中五種無需注冊使用,其他五種又需要分別注冊使用,結果這十種網絡行為的數據無法整合在一起,或者需要通過種種技術手段和工具進行高成本的數據整合,以至于入不敷出。這也就減少了數據的含金量,降低了數據的可挖掘度,使得無論數據量如何大,結構如何復雜,也形成不了大數據。反之,如果一個WEB2.0時代的開放平臺,架構清晰,邏輯分明,用戶與用戶,用戶與用戶行為,行為與行為之間都具有確定的關聯性,那么這樣的數據就具有極高的含金量,極高的分析挖掘價值,也就可以形成大數據。
所以,簡而言之,大數據與否取決于數據規模,結構復雜性和關聯性,簡單地說某個公司的數據量大并不等于說這個公司具備擁有和利用大數據的前景。例如,直到google+誕生前,谷歌就不能聲稱自己是個大數據公司,因為它的海量搜索數據雖然規模龐大,但結構簡單。盡管聽說它的搜索算法已經囊括了六萬多個變量,成千上萬的數學和統計學模型,上千的博士和工程師參與分析,但在數據挖掘深度,搜索結果個人化,搜索結果與廣告之間的相關度上進展有限,只有改良,沒有突破。更嚴重的是,谷歌數百個產品和服務之間相互關聯度極低,各干各的,無數數據庫互不相干。各個部門之間以鄰為壑,互不配合,更不整合。所以,面對以FACEBOOK和蘋果為代表的WEB2.0時代以及由此產生的大數據戰略機會,谷歌若干年來束手無策,只能靠不斷擴展產品線對付。如果直到兩年前谷歌還算不上大數據公司,那些自認為自己有點數據,或者會點加減乘除,或者以為掌握一些基本的數據庫技術和KNOWHOW就可以招搖過市,到網絡業和資本界呼風喚雨,是不是有點不知深淺,過于幼稚了呢?
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25