
大數據時代,用「大、快、雜、疑」四字箴言帶你認識大數據
你可能有注意到,「大數據(Big Data)」在我們的生活裡已經掀起滔天巨浪,繼云端運算(Cloud Computing)之后,儼然成為學術界跟科技業中最熱門的潮字(Buzz Word),似乎每家公司都在進行有關的研究,三句不離大數據。究竟大數據是怎么出現,又代表著什么意思呢?
大數據(Big Data),巨量資料爆炸的時代
大數據(Big Data)—— 或稱巨量資料,顧名思義,是指大量的資訊,當資料量龐大到資料庫系統無法在合理時間內進行儲存、運算、處理,分析成能解讀的資訊時,就稱為大數據。
“Big data is data that exceeds the processing capacity of conventional database systems.”
這些巨量資料中有著珍貴的訊息,像是關聯性(Unknown Correlation)、未顯露的模式(Hidden Patterns)、市場趨勢(Market Trend),可能埋藏著前所未有的知識跟應用等著被我們挖掘發現;但由于資料量太龐大,流動速度太快,現今科技無法處理分析,促使我們不斷研發出新一代的資料儲存設備及科技,希望從大數據中萃取出那些有價值的資訊。
「Big Data」這個詞最早由 IBM 提出,2010 年才真正開始受到注目,并成為專業用語登上維基百科1,算是「大數據」的正式問世。而在 2012 年時,《紐約時報》的專欄文章「The Age of Big Data2」更是宣告了「大數據時代」的來臨。值得一提的是,大數據并不是什么新興的概念,事實上,歐洲粒子物理研究中心 (CERN)的科學家已經面對巨量資料的問題好幾十年了,處理著每秒上看 PB (Peta Bytes,註:PB = 1,024 TB)的資料量3。
TED-Ed 的影片講解 Big Data 概念,簡單又好懂:
一般來說,大數據涵蓋的範圍很廣,定義也各家歧異,2012 年 Gartner 公司的分析師 Douglas Laney 給予大數據一個全新定義4:「大數據是大量、高速、及/或類型多變的資訊資產,它需要全新的處理方式,去促成更強的決策能力、洞察力與最佳化處理?!?
于是大部份機構跟公司都將大數據的特性歸類為「3Vs」或「4Vs」–– 資料量 Volume、資料傳輸速度 Velocity、資料類型(Variety),以及后來提出的第四個 V —— 真實性 Veracity。以下整理了 4Vs 簡單的定義跟解釋,可以從這四點切入認識大數據。
Volume 資料量
以前人們「手動」在表格中記錄、累積出數據;現在數據是由機器、網路、人與人之間的社群互動來生成。你現在正在點擊的滑鼠、來電、簡訊、網路搜尋、線上交易... 都正在生成累積成龐大的數據,因此資料量很容易就能達到數 TB(Tera Bytes,兆位元組),甚至上看 PB(Peta Bytes,千兆位元組)或 EB(Exabytes,百萬兆位元組)的等級。
Velocity 資料輸入輸出速度
資料的傳輸流動(data streaming)是連續且快速的,隨著越來越多的機器、網路使用者,社群網站、搜尋結果每秒都在成長,每天都在輸出更多的內容。公司跟機構要處理龐大的資訊大潮向他們襲來,而回應、反應這些資料的速度也成為他們最大的挑戰,許多資料要能即時得到結果才能發揮最大的價值,因此也有人會將 Velocity 認為是「時效性」。
Variety 資料類型
大數據的來源種類包羅萬象,十分多樣化,如果一定要把資料分類的話,最簡單的方法是分兩類,結構化與非結構化。早期的非結構化資料主要是文字,隨著網路的發展,又擴展到電子郵件、網頁、社交媒體、視訊,音樂、圖片等等,這些非結構化的資料造成儲存(storage)、探勘(mining)、分析(analyzing)上的困難。
Veracity 真實性
這個詞由在 Express Scripts 擔任首席數據官(Chief Data Officer, CDO)的 Inderpal Bhandar 在波士頓大數據創新高峰會(Big Data Innovation Summit)的演講中提出,認為大數據分析中應該加入這點做考慮,分析并過濾資料有偏差、偽造、異常的部分,防止這些「dirty data」損害到資料系統的完整跟正確性,進而影響決策。
大數據特性,謹記四字箴言:「大、快、雜、疑」
大數據資料量龐「大」(Volume)、變化飛「快」(Velocity),種類繁「雜」(Variety),以及真偽存「疑」(Veracity)。尤其在這資訊大爆炸時代,這些資料變得又多、又快、又雜、又真偽難分。
當然在「大數據」一詞像病毒一樣,侵入我們生活中的各個層面,也有越來越多人提出更多的「V」來解釋大數據,像是 Volatility、Validity、Value、Victory 等,這些分歧的意見在這就不多詳述,只要知道有這些說法、以后聽到別人說到「7Vs」時不要覺得驚訝就行啦!
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25