熱線電話:13121318867

登錄
首頁精彩閱讀忘記“大數據”,從“中數據”開始
忘記“大數據”,從“中數據”開始
2016-04-24
收藏

忘記“大數據”,從“中數據”開始

業界對“大數據”這一概念的質疑聲從來就沒有停止過,很多人認為它只是一個過度炒作的營銷泡沫。確實,單就數據的體量而言,大多數企業并沒有Google, Facebook那樣的PB級數據。 那么, 大數據究竟有沒有意義呢? 數據分析專家Tom Anderson最近給出了一個概念叫“中數據”,根據他的劃分, 數據集數據量在10萬以下的稱為“小數據”, 數據集在1000萬以上的稱為“大數據”,而在二者之間的稱為“中”數據。 Tom Anderson認為, 企業進行數據分析的投資收益率在“中”數據范圍內是最高的。 以下是IT經理網編譯Tom Anderson的博文:

在我參加了這個星期的美國營銷協會的第一屆大數據的研討會后,我更加堅信了我這幾年與許多財富1000強企業的營銷人員溝通后的一個看法。 那就是:

很少有公司能夠分析到所謂“大”數據的量級,而事實上它們也并不需要。 其實, 大部分公司應該開始考慮如何從“中”數據開始。

大數據,大數據, 大數據, 人們到處在談它, 其實我發現, 真正處理“大”數據的研究者其實很少。 我認為我們應該把“大數據”的概念范圍縮小。 引入一個新的更有意義的名詞:“中”數據來描述我們目前的大數據熱潮。

要了解什么是“中”數據,進而理解大數據, 我們得先知道什么是“小”數據。

“小數據”

clip_image002

上面的圖簡單地按照數據記錄的規?;蛘哒f樣本的規模對數據的“大”“中”“小”進行了劃分

小數據可以包括從定性研究的某個訪談到幾千個調查問卷的結果。在這個規模上, 定性分析和定量分析可以從技術上結合起來。 而這兩者都不能稱之為現在定義的“大數據”。 目前對大數據的定義隨著企業對數據的處理水平的不同而不同。通常的的大數據定義指的是用現有普通軟件很難分析的數據量。

而這個定義是從IT或者軟件提供商的角度來說的。 它描述了企業無法利用現有能力, 必須進行大量硬件軟件升級進行有價值的數據分析的情況。

中數據

那么,什么是中數據呢? 進入大數據時代, 有些我們認為是小數據的數據集可能會迅速成長為大數據。 比如 3萬到5萬條用戶滿意度調查記錄可以用類似IBM的SPSS軟件分析。 可是, 如果把這些數據集中加入了用戶的評論這樣的文本數據, 同樣的分析可能就會變得緩慢了。 這同樣的數據集現在需要更長的時間來分析,甚至可能導致分析軟件崩潰。

如果我們把同樣的文本數據用文本挖掘的方式處理的話,新加入數據集的數據將會極大地增加數據量。 這常常就會被認為是大數據, 需要更加強大的軟件來處理它。 不過, 我認為, 一個更準確的描述應該是“中”數據, 它其實只是真正大數據的起步階段(這與IT經理網之前的文章“大數據需大處著眼,小處著手”中的觀點不謀而合)。而且對于這個規模的數據量, 其實還是有很多簡單的處理手段的。

大數據

好了,我們把大數據的一部分切出來叫做“中”數據。 現在, 我們可以重新定義“大”數據了。

為了理解“大”數據與“中”數據的區別, 我們需要考慮一些不同的維度。 Gartner的分析師Doug Laney曾經對大數據有一個著名的描述, 把大數據分為3個維度:規模(Volume), 種類(Variety)和 速度(Velocity), 通常叫做3V模型。

在理解“中”數據與“大”數據的區別時, 我們只需要考慮兩個因素, 成本與價值。

成本(以時間計量或者按照金錢計量)與期望價值構成了所謂的投資收益率(ROI)。 這也可以應用于大數據項目的可行性研究。

我們知道, 有些數據天然的比其他數據具有更高的價值。 (100個客戶投訴郵件可能比1000個微博上提到你的產品比起來, 對你的運營分析更有價值。) 當然, 有一點是肯定的: 沒有經過分析的數據是沒有價值的。

相對于“中”數據來說, “大”數據或者說“真正的大”數據量的分界點在于, 對于分析進行的投入, 相對成本(包括可能從中發現不了什么的風險)來說,并不具有吸引力。 比“中”數據更大的數據量來說, 大數據分析要么并不現實, 要么對企業來說ROI太低。

而“中”數據則是正好在數據分析的最佳范圍內, 可以在相對可控的預算前提下進行有價值的分析。

對于很多市場研究人員來說, “中”數據才是一個真正能夠提供有價值, 有足夠ROI的分析目標。 而真正“大”數據分析, 則會呈現遞減的ROI。

在最近我去德國的一次出差中, 我有幸遇到了一位在歐洲核子研究中心從事大型對撞機項目的科學家。 相對于大型核子對撞機來說, 普通的商業企業不需要像那樣的軟件和硬件來進行那個規模的大數據分析。 對撞機的1億5千萬個傳感器每秒鐘產生4000萬條數據。 而實際上, 即使是歐洲核子研究中心的科學家們, 也不會去分析如此打規模的數據量。 他們在分析前過濾掉來99.999%的粒子對撞數據!

對我們普通企業來說, 對消費者的分析相對簡單得多。 對于數據或者文本挖掘, 我們不需要EB或者PB級別的處理能力或者在數以千計的服務器上跑大型并發軟件, 目前其實有一些很好的軟件能夠處理我們一般企業的“中”數據需求。 一提到大數據, 媒體常常提到的是亞馬遜, 谷歌或者Facebook。 就算是這些案例中(很多 聽上去更像是IT銷售鼓吹的科幻小說), 也并沒有提到這些公司在數據分析中實際使用的樣本的量。

就像歐洲核子研究中心的科學家發現的那樣, 相對一股腦處理全部數據的做法, 更重要的是能夠正確的分析對研究相關的那部分重要數據。

那么, 讀者可能會問“既然‘中’數據比‘大’數據更加具有吸引力, 為什么我們分析‘小’數據不是更好嗎?”

這里的關鍵是, 隨著數據量的增加, 我們不但可以對分析結果更加具有信心, 而且可能會發現一些傳統的“小”數據所不能發現的現象。 對市場分析來說, 這可能意味著發現了一個新的細分產品市場或者競爭對手的新動向, 對藥物研究來說, 可能意味著發現一些小的人群細分與某些癌癥的高風險關聯 從而拯救生命。

“中”數據應該被更加明確的定義, 而且也需要更多的最佳實踐。 不幸的是, 經常有一些企業的CEO或者CIO會要求IT人員“采集所有的數據, 全面分析數據”。 這樣的過程, 他們其實在制造真正的“大”數據, 這種數據量常常是超過需要的。 這就產生了我一直在提的ROI的問題。 追求真正的“大”數據常常不能給你帶來任何優勢。 經驗豐富的“小”數據或者“中”數據的分析人員知道, 對于“大”數據的分析常常是沒有滿意結果的。 而相對投入的成本來說, 從ROI的角度是不值得的。

因此, 對于“大”數據分析而言, “中”數據才應該是我們真正需要瞄準的目標。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢