熱線電話:13121318867

登錄
首頁職業發展我們真的需要盲目燒錢追求大數據嗎_數據分析師
我們真的需要盲目燒錢追求大數據嗎_數據分析師
2014-12-15
收藏

我們真的需要盲目燒錢追求大數據嗎_數據分析師


大數據可能是現在最炙手可熱的技術名詞了。如若你現在還沒有加入大數據的陣營, 那你想方法弄到一些。畢竟, 競爭需要大數據。如若你的數據量很小, 你將被競爭對手徹底打敗。

作為顧問和 IT公司向企業推銷的另一個大項目,在大數據背后的料想還存在許多問題。幸運的是,誠實的大數據實踐者(又稱數據科學家)從不放下懷疑態度, 并提出了一系列對大數據放肆宣傳感應厭倦的理由。如下:

理由一,縱然像Facebook和Yahoo!這樣的互聯網巨頭也并非總是處置大數據,Google風格工具的應用是不合適的。

Facebook和雅虎運行其巨型集群機(功能壯大的服務器集合)來處置數據。必須要進行集群處置是大數據的標志之一。畢竟,在家用PC就能處置的數據不能稱為大數據。將業務拆分為小業務,使用一系列的計算機來處置每個小業務的須要性,是類似Google計算世界上每一個網頁排名的大數據問題典型特點。

現在看來,對于Facabook和Yahoo!來說,每個業務都是用同樣規模的集群機是不須要的。好比Facebook的情況,工程師提交給集群機的大多數任務都是 MB到GB的范圍,完全可以在一臺計算機甚至札記本電腦上完成。

Yahoo!也存在類似的情況, Yahoo!集群機所處置的數據中位數只有 12.5GB,通常臺式電腦不能處置這種任務,但一臺配置較好的服務器完全可以勝任。

以上觀點均提煉于Microsoft Research的一篇名為《 Nobody ever got fired for buying a cluster》的論文。論文中指出縱然是在最渴求數據的公司,多數問題也不必集群處置。由于對于大量問題類型而言,集群是一個相對低效 甚至是完全不合適的解決方案。

理由二,大數據已經成為數據剖析的代名詞,這種定義是混亂的,并會起到反作用。

數據剖析最早可追溯到為皇家糧倉的所有糧食制表統計,但是現在你必須要在數據前加“大”字,須要的數據剖析已經卷入了一場較大但是用處不大的流行風暴中。例如,一篇文章告誡讀者“ 3個步驟將大數據運用到你的小企業中”,實際上小企業的數據量谷歌文檔就能處置,更不說用札記本的EXCEL了。

這就是說,實際上大多數企業處置的數據都是被Open Knowledge Foundation的Rufus Pollock所說的 小數據。這很主要,這是一場“革命”, Pollock稱。但它與大數據關系不大。

理由三,超大化你的數據規模正在變成一件得不償失的事情。

數據越多就越好嗎?不盡然。如若你正在尋找相關方程式——x,y的關系,怎樣能給我提供有效信息?實際上數據越多,隨之而來的麻煩也越大。

能從大數據中提取的信息會隨著數據規模的增加而減少,Michael Wu(社交媒體剖析公司Lithium的首席數據剖析學家) 寫道。這意味著越過了某一點后,繼續增加數據所形成的邊際數據回報率減少到如此地步,搜集更多數據僅僅是浪費時間。

原由之一:數據越“大”,尋找相關性時錯誤信息會更多。正如數據剖析家Vincent Granville在《 The curse of big data》(《大數據的詛咒》)中寫道的:縱然只包括1000個條目的數據集,也很容易會陷入處置幾百萬個相關剖析的處境?!边@意味著,“所有這些相關剖析,有些可能會高度切合,但這僅僅是一種有時:如若你使用這種相關剖析作為預測模型,結果將會錯誤”。

這個錯誤經常在大數據的原始應用領域之一遺傳學中突然出現。對基因組序列有興趣的科學家苦心找尋其相關性而進行的無休止的研究,最終卻得出了種種毫無益處的結果。

理由四,在某些情況下,大數據會令你茅塞頓開,但也可能會令你陷入疑惑。

公司一旦開始使用大數據,就深陷于一系列艱澀學科的研究中——統計,數據質量,和其他構成“數據科學”的一切。就像那些每日都需要發表出書物的科學,經常會被忽視或是被修正,或是從未被證實,這之中的陷阱實在太多了。

數據搜集方式的偏見,上下文的缺乏,數據群集的缺口,數據的人工處置模式和整體認知誤差都會導致縱然最好的研究人員也可能發現錯誤的相關模型, 麻省理工學院媒體實驗室客座教授Kate Crawford說:“我們可能會陷入某種算法幻覺中”。換句話說,縱然你有大數據,也并非IT部門的任何人都能處置的,他可能需要有博士學位或等量經驗。當處置完成后,他們的答案可能是你并不需要“大數據”。

那么哪個更好——大數據或小數據?

你的業務需要數據嗎?當然需要。但是只有 尖頭發呆伯特的老板才會像趕時髦一樣購置具有所謂主要性的數據規模。在科學領域同樣存在著企業使用數據制訂決議時固有的問題——數據質量,總體目標以及上下文和直覺的主要性。記?。篏regor Mendel僅利用一本札記本的數據就發現了遺傳的秘密。主要是數據的質量,而不是數據的規模。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢