
[數據分析師]_大數據還有不少潛能
近兩年來,大數據被公眾廣泛討論,甚至成為不少商家宣傳營銷的賣點。毋庸置疑,智能設備的發展和普及,使海量的數據采集成為可能。但大數據并不是單純的“數據大”,它更蘊含著一種計算和思維方式的轉變,想要發揮出大數據的洞察力,還面臨著采集、管理、分析數據的挑戰。這些障礙如何破除?大數據在未來將如何應用,能否創造出更大的價值?這些問題值得我們在大數據熱中,做出冷靜判斷。
4月26日,清華大學成立“清華—青島數據科學研究院”,同時召開大數據時代高端論壇。就在此前兩天,百度在第四屆技術開放日上,正式宣布對外開放大數據引擎,提供大數據存儲、分析及挖掘的技術能力。大數據被學界納入研究范疇,商家開放引擎,這是否意味著大數據應用進入了一個新階段?
傳統統計方法追求精確,大數據只預測宏觀趨勢
本是技術概念的大數據,如今越來越像一種營銷手段。從汽車、化妝品到體育,在營銷人員口中,似乎所有行業都可以借助大數據,精確定位、找到消費者,預測趨勢、贏得未來。
中國人民大學新聞學院教授喻國明認為,目前從國內的情況看,真正運用大數據分析成功的案例其實不多,很多公司都是將大數據作為一個營銷噱頭,所做的分析也主要是基于傳統的數據分析方法。
事實上,對于數據多大能稱之為“大數據”,業界并沒有統一的認識,通常認為100TB太字節是大數據的門檻。簡而言之,傳統方法無法處理的數據即為大數據。
大數據的產生得益于移動互聯網以及智能手機、各種智能穿戴產品的發展,人們行為、位置,甚至身體的生理特征等數據都可以便捷地被記錄,這使海量數據采集成為可能。事實上,目前數據采集量正呈現快速的增長趨勢。一家國際數據統計機構最新預測指出,2020年,全世界產生的數據量有望達到40ZB澤字節,1澤字節等于10億太字節。
但大數據不能單純理解為數據大。大數據研究專家、北京航空航天大學校長懷進鵬表示,大數據具有“規模大、變化快、種類雜、價值密度低”四個特征,是對傳統計算和思維方式的一種挑戰。
首先,因為幾乎每個數據點都可以采集,全面數據代替了抽樣、片面、局部的數據?!澳贸床舜虮确?,傳統的抽樣,我們需要在開始和中間時候‘嘗一嘗’,‘嘗一嘗’就是抽樣數據,但在大數據時代,隨機抽樣的方式可能就失效了?!睉堰M鵬說。
懷進鵬認為,因為抽樣分析時數據測量能力有限,統計追求的是精確,希望用最少數據獲得最多的信息。而大數據比較雜亂,完整的精確不存在,也不再是追求的絕對目標,大數據只需對宏觀趨勢給出快速預測。
另一個改變是,從關注因果轉向數據之間關聯。在大數據時代,“數據背后的原因不再重要,人們只需要知道數據之間有統計相關性就行。僅需知其然,無需知其所以然?!睉堰M鵬說。
在大數據的支持者看來,數據已經能夠自己說話,傳統的科學統計模型已經過時,理論也可能被終結。
大數據營銷大多是噱頭,一些機構甚至無法收集海量數據
被譽為開大數據系統研究先河之作的《大數據時代》作者指出,大數據是社會的一種新型能力:以一種前所未有的方式,通過對海量數據進行分析,獲得巨大價值的產品和服務,或深刻的洞見。
大數據蘊含的發現事實、挖掘價值、預測未來的洞察力,也是各色大數據營銷的理論出發點。實際上,大數據洞察力確實在公共衛生、交通運輸等行業開始發揮。
中國疾病預防控制中心副主任、中科院院士高福也認同大數據在公共衛生預防控制上的作用。他說,通過大數據,可以在流感到來之前為人們提供一些解釋性信息,為流感的預防提供緩沖時間。
同樣,在智能交通時代,海量車輛信息沒法通過傳統方式分析,但借助大數據,則可能提前預測未來的車流量、行進路線等信息,從而為改善城市交通狀況提出優化方案。
然而,“自己能夠講話的大數據”,是否真如營銷人員暢想得那么美好?
分析人士指出,數據存儲和搬運雖然越來越便利,但目前大數據應用面臨著數據收集,管理、分析海量數據并創造價值的挑戰。
“如果將數據比作書,書增多后,首先要找到儲存大數據的‘大圖書館’,下一步則要解決數據查詢問題,沒有好的查詢引擎,書找不到,數據也就很難利用?!?百度大數據總監李鋼江說。而現實是,大部分機構和企業都沒有海量數據收集存儲以及分析管理的能力。
業內人士指出,大數據在一些領域的營銷還只是噱頭,先不論大數據分析結果是否有效,有些行業連基本的大數據采集和管理條件還不具備,更談不上精確定位和預測。
百度高級副總裁王勁也表示,傳統的數據庫沒有管理大數據的能力,傳統行業如何進入大數據時代,利用大數據價值,是擺在很多行業面前的新課題。
提升計算能力和降低云存儲成本,將有利于大數據技術變革
百度首席執行官李彥宏認為,隨著計算能力的提升和云存儲等技術產品成本的不斷降低,大數據走到了技術變革的臨界點。不久前,百度就推出了“百度大數據引擎”,百度希望借助該工具,對大數據進行收集、存儲、計算、挖掘和管理,并通過深度學習技術和數據建模技術,使數據具有“智能”的技術能力,服務傳統行業。
據了解,百度大數據引擎包括開放云、數據工廠、百度大腦三大組件。其中,開放云解決的是數據存儲和計算問題;“數據工廠”則對行業數據進行規范化處理,提供數據管理和分析;而“百度大腦”則讓機器和人腦一樣思考,分析處理數據。
不過,分析人士指出,雖然各方面為挖掘大數據開發了很多工具,但大數據的成熟應用還有很長一段時間。首先,數據雜亂,價值密度低,如何有效的收集數據信息仍沒有成熟的方案。同時,數據的規模并不能決定一切,不論是那種數據分析方式,都可能存在統計上的缺陷,不能說數據更大、更新、更快就沒有問題。
英特爾中國研究院首席工程師吳甘沙表示,大數據作為一種新的數據形態和實踐,它將豐富數據應用方法,卻不能取代傳統統計分析方法,更不能神化大數據。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
2025 年,數據如同數字時代的 DNA,編碼著人類社會的未來圖景,驅動著商業時代的運轉。從全球互聯網用戶每天產生的2.5億TB數據, ...
2025-05-27CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25