
我們真的需要盲目燒錢追求大數據嗎_數據分析師
大數據可能是現在最炙手可熱的技術名詞了。如若你現在還沒有加入大數據的陣營, 那你想方法弄到一些。畢竟, 競爭需要大數據。如若你的數據量很小, 你將被競爭對手徹底打敗。
作為顧問和 IT公司向企業推銷的另一個大項目,在大數據背后的料想還存在許多問題。幸運的是,誠實的大數據實踐者(又稱數據科學家)從不放下懷疑態度, 并提出了一系列對大數據放肆宣傳感應厭倦的理由。如下:
理由一,縱然像Facebook和Yahoo!這樣的互聯網巨頭也并非總是處置大數據,Google風格工具的應用是不合適的。
Facebook和雅虎運行其巨型集群機(功能壯大的服務器集合)來處置數據。必須要進行集群處置是大數據的標志之一。畢竟,在家用PC就能處置的數據不能稱為大數據。將業務拆分為小業務,使用一系列的計算機來處置每個小業務的須要性,是類似Google計算世界上每一個網頁排名的大數據問題典型特點。
現在看來,對于Facabook和Yahoo!來說,每個業務都是用同樣規模的集群機是不須要的。好比Facebook的情況,工程師提交給集群機的大多數任務都是 MB到GB的范圍,完全可以在一臺計算機甚至札記本電腦上完成。
Yahoo!也存在類似的情況, Yahoo!集群機所處置的數據中位數只有 12.5GB,通常臺式電腦不能處置這種任務,但一臺配置較好的服務器完全可以勝任。
以上觀點均提煉于Microsoft Research的一篇名為《 Nobody ever got fired for buying a cluster》的論文。論文中指出縱然是在最渴求數據的公司,多數問題也不必集群處置。由于對于大量問題類型而言,集群是一個相對低效 甚至是完全不合適的解決方案。
理由二,大數據已經成為數據剖析的代名詞,這種定義是混亂的,并會起到反作用。
數據剖析最早可追溯到為皇家糧倉的所有糧食制表統計,但是現在你必須要在數據前加“大”字,須要的數據剖析已經卷入了一場較大但是用處不大的流行風暴中。例如,一篇文章告誡讀者“ 3個步驟將大數據運用到你的小企業中”,實際上小企業的數據量谷歌文檔就能處置,更不說用札記本的EXCEL了。
這就是說,實際上大多數企業處置的數據都是被Open Knowledge Foundation的Rufus Pollock所說的 小數據。這很主要,這是一場“革命”, Pollock稱。但它與大數據關系不大。
理由三,超大化你的數據規模正在變成一件得不償失的事情。
數據越多就越好嗎?不盡然。如若你正在尋找相關方程式——x,y的關系,怎樣能給我提供有效信息?實際上數據越多,隨之而來的麻煩也越大。
能從大數據中提取的信息會隨著數據規模的增加而減少,Michael Wu(社交媒體剖析公司Lithium的首席數據剖析學家) 寫道。這意味著越過了某一點后,繼續增加數據所形成的邊際數據回報率減少到如此地步,搜集更多數據僅僅是浪費時間。
原由之一:數據越“大”,尋找相關性時錯誤信息會更多。正如數據剖析家Vincent Granville在《 The curse of big data》(《大數據的詛咒》)中寫道的:縱然只包括1000個條目的數據集,也很容易會陷入處置幾百萬個相關剖析的處境?!边@意味著,“所有這些相關剖析,有些可能會高度切合,但這僅僅是一種有時:如若你使用這種相關剖析作為預測模型,結果將會錯誤”。
這個錯誤經常在大數據的原始應用領域之一遺傳學中突然出現。對基因組序列有興趣的科學家苦心找尋其相關性而進行的無休止的研究,最終卻得出了種種毫無益處的結果。
理由四,在某些情況下,大數據會令你茅塞頓開,但也可能會令你陷入疑惑。
公司一旦開始使用大數據,就深陷于一系列艱澀學科的研究中——統計,數據質量,和其他構成“數據科學”的一切。就像那些每日都需要發表出書物的科學,經常會被忽視或是被修正,或是從未被證實,這之中的陷阱實在太多了。
數據搜集方式的偏見,上下文的缺乏,數據群集的缺口,數據的人工處置模式和整體認知誤差都會導致縱然最好的研究人員也可能發現錯誤的相關模型, 麻省理工學院媒體實驗室客座教授Kate Crawford說:“我們可能會陷入某種算法幻覺中”。換句話說,縱然你有大數據,也并非IT部門的任何人都能處置的,他可能需要有博士學位或等量經驗。當處置完成后,他們的答案可能是你并不需要“大數據”。
那么哪個更好——大數據或小數據?
你的業務需要數據嗎?當然需要。但是只有 尖頭發呆伯特的老板才會像趕時髦一樣購置具有所謂主要性的數據規模。在科學領域同樣存在著企業使用數據制訂決議時固有的問題——數據質量,總體目標以及上下文和直覺的主要性。記?。篏regor Mendel僅利用一本札記本的數據就發現了遺傳的秘密。主要是數據的質量,而不是數據的規模。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25