
忘記“大數據”,從“中數據”開始
業界對“大數據”這一概念的質疑聲從來就沒有停止過,很多人認為它只是一個過度炒作的營銷泡沫。確實,單就數據的體量而言,大多數企業并沒有Google, Facebook那樣的PB級數據。 那么, 大數據究竟有沒有意義呢? 數據分析專家Tom Anderson最近給出了一個概念叫“中數據”,根據他的劃分, 數據集數據量在10萬以下的稱為“小數據”, 數據集在1000萬以上的稱為“大數據”,而在二者之間的稱為“中”數據。 Tom Anderson認為, 企業進行數據分析的投資收益率在“中”數據范圍內是最高的。 以下是IT經理網編譯Tom Anderson的博文:
在我參加了這個星期的美國營銷協會的第一屆大數據的研討會后,我更加堅信了我這幾年與許多財富1000強企業的營銷人員溝通后的一個看法。 那就是:
很少有公司能夠分析到所謂“大”數據的量級,而事實上它們也并不需要。 其實, 大部分公司應該開始考慮如何從“中”數據開始。
大數據,大數據, 大數據, 人們到處在談它, 其實我發現, 真正處理“大”數據的研究者其實很少。 我認為我們應該把“大數據”的概念范圍縮小。 引入一個新的更有意義的名詞:“中”數據來描述我們目前的大數據熱潮。
要了解什么是“中”數據,進而理解大數據, 我們得先知道什么是“小”數據。
“小數據”
上面的圖簡單地按照數據記錄的規?;蛘哒f樣本的規模對數據的“大”“中”“小”進行了劃分
小數據可以包括從定性研究的某個訪談到幾千個調查問卷的結果。在這個規模上, 定性分析和定量分析可以從技術上結合起來。 而這兩者都不能稱之為現在定義的“大數據”。 目前對大數據的定義隨著企業對數據的處理水平的不同而不同。通常的的大數據定義指的是用現有普通軟件很難分析的數據量。
而這個定義是從IT或者軟件提供商的角度來說的。 它描述了企業無法利用現有能力, 必須進行大量硬件軟件升級進行有價值的數據分析的情況。
中數據
那么,什么是中數據呢? 進入大數據時代, 有些我們認為是小數據的數據集可能會迅速成長為大數據。 比如 3萬到5萬條用戶滿意度調查記錄可以用類似IBM的SPSS軟件分析。 可是, 如果把這些數據集中加入了用戶的評論這樣的文本數據, 同樣的分析可能就會變得緩慢了。 這同樣的數據集現在需要更長的時間來分析,甚至可能導致分析軟件崩潰。
如果我們把同樣的文本數據用文本挖掘的方式處理的話,新加入數據集的數據將會極大地增加數據量。 這常常就會被認為是大數據, 需要更加強大的軟件來處理它。 不過, 我認為, 一個更準確的描述應該是“中”數據, 它其實只是真正大數據的起步階段(這與IT經理網之前的文章“大數據需大處著眼,小處著手”中的觀點不謀而合)。而且對于這個規模的數據量, 其實還是有很多簡單的處理手段的。
大數據
好了,我們把大數據的一部分切出來叫做“中”數據。 現在, 我們可以重新定義“大”數據了。
為了理解“大”數據與“中”數據的區別, 我們需要考慮一些不同的維度。 Gartner的分析師Doug Laney曾經對大數據有一個著名的描述, 把大數據分為3個維度:規模(Volume), 種類(Variety)和 速度(Velocity), 通常叫做3V模型。
在理解“中”數據與“大”數據的區別時, 我們只需要考慮兩個因素, 成本與價值。
成本(以時間計量或者按照金錢計量)與期望價值構成了所謂的投資收益率(ROI)。 這也可以應用于大數據項目的可行性研究。
我們知道, 有些數據天然的比其他數據具有更高的價值。 (100個客戶投訴郵件可能比1000個微博上提到你的產品比起來, 對你的運營分析更有價值。) 當然, 有一點是肯定的: 沒有經過分析的數據是沒有價值的。
相對于“中”數據來說, “大”數據或者說“真正的大”數據量的分界點在于, 對于分析進行的投入, 相對成本(包括可能從中發現不了什么的風險)來說,并不具有吸引力。 比“中”數據更大的數據量來說, 大數據分析要么并不現實, 要么對企業來說ROI太低。
而“中”數據則是正好在數據分析的最佳范圍內, 可以在相對可控的預算前提下進行有價值的分析。
對于很多市場研究人員來說, “中”數據才是一個真正能夠提供有價值, 有足夠ROI的分析目標。 而真正“大”數據分析, 則會呈現遞減的ROI。
在最近我去德國的一次出差中, 我有幸遇到了一位在歐洲核子研究中心從事大型對撞機項目的科學家。 相對于大型核子對撞機來說, 普通的商業企業不需要像那樣的軟件和硬件來進行那個規模的大數據分析。 對撞機的1億5千萬個傳感器每秒鐘產生4000萬條數據。 而實際上, 即使是歐洲核子研究中心的科學家們, 也不會去分析如此打規模的數據量。 他們在分析前過濾掉來99.999%的粒子對撞數據!
對我們普通企業來說, 對消費者的分析相對簡單得多。 對于數據或者文本挖掘, 我們不需要EB或者PB級別的處理能力或者在數以千計的服務器上跑大型并發軟件, 目前其實有一些很好的軟件能夠處理我們一般企業的“中”數據需求。 一提到大數據, 媒體常常提到的是亞馬遜, 谷歌或者Facebook。 就算是這些案例中(很多 聽上去更像是IT銷售鼓吹的科幻小說), 也并沒有提到這些公司在數據分析中實際使用的樣本的量。
就像歐洲核子研究中心的科學家發現的那樣, 相對一股腦處理全部數據的做法, 更重要的是能夠正確的分析對研究相關的那部分重要數據。
那么, 讀者可能會問“既然‘中’數據比‘大’數據更加具有吸引力, 為什么我們分析‘小’數據不是更好嗎?”
這里的關鍵是, 隨著數據量的增加, 我們不但可以對分析結果更加具有信心, 而且可能會發現一些傳統的“小”數據所不能發現的現象。 對市場分析來說, 這可能意味著發現了一個新的細分產品市場或者競爭對手的新動向, 對藥物研究來說, 可能意味著發現一些小的人群細分與某些癌癥的高風險關聯 從而拯救生命。
“中”數據應該被更加明確的定義, 而且也需要更多的最佳實踐。 不幸的是, 經常有一些企業的CEO或者CIO會要求IT人員“采集所有的數據, 全面分析數據”。 這樣的過程, 他們其實在制造真正的“大”數據, 這種數據量常常是超過需要的。 這就產生了我一直在提的ROI的問題。 追求真正的“大”數據常常不能給你帶來任何優勢。 經驗豐富的“小”數據或者“中”數據的分析人員知道, 對于“大”數據的分析常常是沒有滿意結果的。 而相對投入的成本來說, 從ROI的角度是不值得的。
因此, 對于“大”數據分析而言, “中”數據才應該是我們真正需要瞄準的目標。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25