
大數據熱門詞匯匯總
可以說,大數據是如今IT行業最熱門的趨勢之一,它催生出了處理大數據的一批全新技術。而新技術帶來了新的熱門詞匯:首字母縮略詞、專業術語和產品名稱等。連"大數據"這個短語本身都讓人犯暈。許多人一聽到"大數據",覺得是指"大量數據",而大數據的涵義絕不僅僅涉及數據量的多寡。
下面是我們認為你要熟悉的幾個熱門詞匯,按字母順序排列。
ACID
ACID的全稱是原子性、一致性、隔離性和持久性,這其實是一組需求或屬性:如果這四個方面都得到遵守,就能在處理過程中確保數據庫事務的數據完整性。雖然ACID問世已有一段時日,但是事務數據量的急劇增長把更多的注意力投向在處理大數據時需要滿足ACID的規定。
大數據三要素
如今的IT系統在生成數量、速度和種類都很"龐大"的數據。
數量:IDC公司估計,今年全球信息總量將達到2.7澤字節(這相當于27億太字節),而且每兩年就翻一番。
速度:讓IT管理人員們頭痛的不僅僅是數據數量,還有數據從金融系統、零售系統、網站、傳感器、無線射頻識別(RFID)芯片以及Facebook和推特等社交網絡源源而來的速度越來越快。
種類:如果回到5年前或可能10年前,IT人員處理的主要是字母數字數據,它們很容易存儲在關系數據庫中整齊排列的行和列中?,F在不再是這樣了。如今,推特和Facebook上的帖子、各種文檔及網頁內容等非結構化數據都是大數據組合的一部分。
列式(或列型)數據庫
一些新一代數據庫(如開源Cassandra和惠普的Vertica數據庫)被設計成了按列存儲數據,而不是像傳統的SQL數據庫那樣按行存儲數據。這種設計提供了更快的磁盤訪問速度,提高了處理大數據時的性能。對數據密集型業務分析應用系統而言,列式數據庫尤其受到歡迎。
數據倉庫
數據倉庫這個概念存在至今已有大概25年了,具體指將數據從多個操作IT系統復制到面向業務分析應用系統的輔助離線數據庫
但是隨著數據量急劇增長,數據倉庫系統正在迅速改變。它們需要存儲更多的數據以及更多種類的數據,因而數據倉庫管理成為一大難題。10年或20年前,數據可能每周或每月復制到數據倉庫系統中;而如今,數據倉庫的更新要頻繁得多,有的甚至實時更新。
ETL
將數據從一個數據庫(比如支持銀行應用事務處理系統的數據庫)轉移到另一個數據庫(比如用于業務分析的數據倉庫系統)時,就要用到提取、轉換和加載(ETL)軟件。數據從一個數據庫傳送到另一個數據庫時,常常需要對數據進行重新格式化和清理操作。
由于數據量急劇增長,數據處理速度大大加快,對ETL工具的性能要求也大大提高了。
Flume
Flume是屬于Apache
Hadoop大家族(其他技術包括HBase、Hive、Oozie、Pig和Whirr)的一項技術,這種框架用于為Hadoop填充數據。該技術使用散布于應用服務器、Web服務器、移動設備及其他系統上的軟件代理,收集數據,并將數據傳送到Hadoop系統。
比如說,公司可以使用在Web服務器上運行的Apache Flume,收集來自推特帖子的數據,以便分析。
地理空間分析
推動大數據潮流的一個趨勢是,由如今的IT系統生成和收集的地理空間數據越來越多。常言道,一幅圖片的信息量抵得上1000個單詞;所以難怪越來越多的地圖、圖表、照片及其他基于地理位置的內容是導致如今大數據呈爆炸式增長的主要動因。
地理空間分析是一種特殊形式的數據可視化(參閱下面的"可視化"條目),在地理地圖上覆蓋數據,以幫助用戶更清楚地理解大數據分析的結果。
Hadoop
Hadoop是一種開源平臺,用于開發分布式、數據密集型的應用程序。它由Apache軟件基金會控制。
Hadoop的發明者是雅虎公司的開發者道格o卡廷(Doug Cutting),他在谷歌實驗室的MapReduce概念這個基礎上開發出了Hadoop,以他兒子的玩具象命名。
另外,HBase是一種非關系數據庫,它是作為Hadoop項目的一部分開發而成的。Hadoop分布式文件系統(HDFS)是Hadoop的一個關鍵組成部分。Hive則是建立在Hadoop基礎上的數據倉庫系統。
內存中數據庫
計算機在處理事務或執行查詢時,一般從磁盤驅動器獲取數據。但是當IT系統處理大數據時,這個過程可能實在太慢。
內存中數據庫系統利用計算機的主內存來存儲經常使用的數據,因而大大縮短了處理時間。內存中數據庫產品包括SAP HANA和甲骨文Times Ten內存中數據庫。
Java
Java是一種編程語言,由現隸屬甲骨文公司的Sun開發,于1995年發布。Hadoop和其他許多大數據技術都是使用Java開發而成的,它仍是大數據領域一種主要的開發技術。
Kafka
Kafka是一種高吞吐量的分布式消息傳送系統,最初是在LinkedIn開發而成,用于管理該服務網站的活動流(關于網站使用情況的數據)和操作數據處理流水線(關于服務器組件的性能)。
Kafka在處理大量流式數據時很有效,而流式數據是許多大數據計算環境的一個關鍵問題。由推特開發的Storm是另一種大行其道的流處理技術。
Apache軟件基金會已將Kafka列為一個開源項目。所以,別以為這是有缺陷的軟件。
延遲時間
延遲時間是指數據從一個點傳送到另一個點過程中的延遲,或者是某個系統(如應用程序)響應另一個系統的延遲數量。
雖然延遲時間不是什么新術語,但是隨著數據量不斷增長,IT系統竭力跟上步伐,如今你更常聽到這個術語。簡單地說,"低延遲"是好事,"高延遲"是壞事。
映射/化簡
映射/化簡(Map/Reduce)這種方法是指把一個復雜的問題分解成多個較小的部分,然后將它們分發到多臺計算機上,最后把它們重新組裝成一個答案。
谷歌的搜索系統用到了映射/化簡概念,這家公司有一個品牌名為MapReduce的框架。
谷歌在2004年發布的一份白皮書描述了它使用映射/化簡的情況。Hadoop之父道格o卡廷充分認識到了其潛力,開發出了同樣借用映射/化簡概念的第一個版本的Hadoop。
NoSQL數據庫
大多數主流的數據庫(如甲骨文數據庫和微軟SQL Server)基于關系型體系結構,使用結構化查詢語言(SQL)用于開發和數據管理。
但是名為"NoSQL"(有些人現在稱NoSQL表示"不是只有SQL")的新一代數據庫系統基于支持者們認為更適合處理大數據的體系結構。
一些NoSQL數據庫是為提高可擴展性和靈活性設計的,另一些NoSQL數據庫在處理文檔及其他非結構化數據方面比較有效。典型的NoSQL數據庫包括Hadoop/HBase、Cassandra、MongoDB和CouchDB,而甲骨文等一些知名開發商已推出了各自的NoSQL產品。
Oozie
Apache
Oozie是一種開源工作流引擎,用于幫助管理面向Hadoop的處理工作。使用Oozie,一系列工作可以用多種語言(如Pig和MapReduce)來加以定義,然后彼此關聯起來。比如說,一旦從操作應用程序收集數據的作業已完成,程序員就可以啟動數據分析查詢任務。
Pig
Pig是Apache軟件基金會的另一個項目,這個平臺用于分析龐大的數據集。就其本質而言,Pig是一種編程語言,可用于開發在Hadoop上運行的并行計算查詢。
定量數據分析
定量數據分析是指使用復雜的數學或統計模型,解釋金融和商業行為,或者甚至預測未來的行為。
由于如今收集的數據量急劇增加,定量數據分析已變得更加復雜。但是如果公司知道如何利用海量數據,獲得更好的可視性,深入了解公司業務,并且洞察市場發展趨勢,那么更多的數據也有望在數據分析方面帶來更多的機會。
一個問題是,擁有這種分析技能的人才嚴重匱乏。知名咨詢公司麥肯錫表示,光美國就需要150萬名擁有大數據分析技能的分析員和管理員。
關系數據庫
關系數據庫管理系統(RDBM)是如今使用最廣泛的一種數據庫,包括IBM的DB2、微軟的SQL Server和甲骨文數據庫。從銀行應用系統、零售店的銷售點系統到庫存管理應用軟件,大多數的企業事務處理系統都在RDBM上運行。
但有些人認為,關系數據庫可能跟不上如今數據量和種類都呈爆炸式增長的形勢。比如說,RDBM當初在設計時著眼于處理字母數字數據,處理非結構化數據時不是同樣有效。
分片
隨著數據庫變得越來越龐大,處理起來也變得越來越困難。分片(sharding)是一種數據庫分區技術,把數據庫分成了更小、更容易管理的部分。具體來說,數據庫被橫向分區,以便單獨管理數據庫表中的不同行。
分片方法讓龐大數據庫的片段可以分布在多臺服務器上,從而提高數據庫的整體運行速度和性能。
另外,Sqoop是一種開源工具,用于將來自非Hadoop來源(如關系數據庫)的數據轉移到Hadoop環境。
文本分析
導致大數據問題的因素之一是,從推特和Facebook等社交媒體網站、外部新聞源,甚至公司內部收集而來以便分析的文本數量越來越多。由于文本是非結構化數據(不像通常存儲在關系數據庫中的結構化數據),主流的業務分析工具面對文本時常常束手無策。
文本分析采用了一系列方法(關鍵字搜索、統計分析法和語言研究法等),從基于文本的數據中獲得洞察力。
非結構化數據
就在不久前,大部分數據還是結構化數據,這種字母數字信息(如來自銷售交易的財務數據)很容易存儲在關系數據庫中,并由商業智能工具來分析。
但是如今共計2.7澤字節的存儲數據中很大一部分是非結構化數據,比如基于文本的文檔、推特消息、發布在Flickr上的照片、發布在YouTube上的視頻,等等。(頗有意思的是,每分鐘有長達35個小時的視頻內容上傳到YouTube。)處理、存儲和分析所有這些凌亂的非結構化數據常常是如今的IT系統面臨的難題。
可視化
隨著數據量的增長,人們使用靜態的圖表和圖形來理解數據越來越困難了。這就導致開發新一代的數據可視化和分析工具,能夠以新的方式呈現數據,從而幫助人們理解海量信息。
這些工具包括:標以色碼的熱圖,三維圖形,顯示一段時間內變化的動畫可視化,以及在地理地圖上覆蓋數據的地理空間呈現。今天的先進數據可視化工具還具有更強的互動性,比如允許用戶放大某個數據子集,進行更仔細的檢查。
Whirr
Apache Whirr是一組Java類庫,用于運行大數據云服務。更確切地說,它可以加快在亞馬遜彈性計算云(EC2)和Rackspace等虛擬基礎設施上開發Hadoop集群的過程。
XML
可擴展標記語言(XML)用來傳輸和存儲數據(別與HTML混為一談,后者用來顯示數據)。借助XML,程序員們就可以創建通用的數據格式,并通過互聯網共享信息和格式。
由于XML文檔可能非常龐大、復雜,它們往往被認為導致IT部門面臨大數據挑戰。
堯字節
堯字節(yottabyte)是一種數據存儲度量指標,相當于1000澤字節。據知名調研機構IDC公司估計,今年全球存儲的數據總量預計將達到2.7澤字節,比2011年增長48%。所以,我們離達到堯字節這個大關還有很長一段路,不過從目前大數據的增長速度來看,那一天的到來可能比我們想象的要快。
順便說一下,1澤字節相當于1021字節的數據。它相當于1000艾字節(EB)、100萬拍字節(PB)和10億太字節(TB)。
ZooKeeper
ZooKeeper是由Apache軟件基金會創建的一項服務,旨在幫助Hadoop用戶管理和協調跨分布式網絡的Hadoop節點。
ZooKeeper與HBase緊密集成,而HBase是與Hadoop有關的數據庫。ZooKeeper是一項集中式服務,用于維護配置信息、命名服務、分布式同步及其他群組服務。IT管理人員用它來實現可靠的消息傳遞機制、同步流程執行及實施冗余服務。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25