
想玩大數據?這些專業術語你知道嗎_數據分析師
大數據的出現帶來了許多新的術語,但這些術語往往比較難以理解。因此,我們通過本文給出一個常用的大數據術語表,拋磚引玉,供大家深入了解。其中部分定義參考了相應的博客文章。當然,這份術語表并沒有100%包含所有的術語。
A
聚合(Aggregation)——搜索、合并、顯示數據的過程
算法(Algorithms)——可以完成某種數據分析的數學公式
分析法(Analytics)——用于發現數據的內在涵義
異常檢測(Anomaly detection)——在數據集中搜索與預期模式或行為不匹配的數據項。除了“Anomalies”,用來表示異常的詞有以下幾種:outliers, exceptions, surprises, contaminants.他們通??商峁╆P鍵的可執行信息
匿名化(Anonymization)——使數據匿名,即移除所有與個人隱私相關的數據
應用(Application)——實現某種特定功能的計算機軟件
人工智能(Artificial Intelligence)——研發智能機器和智能軟件,這些智能設備能夠感知周遭的環境,并根據要求作出相應的反應,甚至能自我學習.
B
行為分析法(Behavioural Analytics)——這種分析法是根據用戶的行為如“怎么做”,“為什么這么做”,以及“做了什么”來得出結論,而不是僅僅針對人物和時間的一門分析學科,它著眼于數據中的人性化模式
大數據科學家(Big Data Scientist)——能夠設計大數據算法使得大數據變得有用的人
大數據創業公司(Big data startup)——指研發最新大數據技術的新興公司
生物測定術(Biometrics)——根據個人的特征進行身份識別
B字節 (BB: Brontobytes)——約等于1000 YB(Yottabytes),相當于未來數字化宇宙的大小。1 B字節包含了27個0!
商業智能(Business Intelligence)——是一系列理論、方法學和過程,使得數據更容易被理解
C
分類分析(Classification analysis)——從數據中獲得重要的相關性信息的系統化過程; 這類數據也被稱為元數據(meta data),是描述數據的數據
云計算(Cloud computing)——構建在網絡上的分布式計算系統,數據是存儲于機房外的(即云端)
聚類分析(Clustering analysis)——它是將相似的對象聚合在一起,每類相似的對象組合成一個聚類(也叫作簇)的過程。這種分析方法的目的在于分析數據間的差異和相似性
冷數據存儲(Cold data storage)——在低功耗服務器上存儲那些幾乎不被使用的舊數據。但這些數據檢索起來將會很耗時
對比分析(Comparative analysis)——在非常大的數據集中進行模式匹配時,進行一步步的對比和計算過程得到分析結果
復雜結構的數據(Complex structured data)——由兩個或多個復雜而相互關聯部分組成的數據,這類數據不能簡單地由結構化查詢語言或工具(SQL)解析
計算機產生的數據(Computer generated data)——如日志文件這類由計算機生成的數據
并發(Concurrency)——同時執行多個任務或運行多個進程
相關性分析(Correlation analysis)——是一種數據分析方法,用于分析變量之間是否存在正相關,或者負相關
客戶關系管理(CRM: Customer Relationship Management)——用于管理銷售、業務過程的一種技術,大數據將影響公司的客戶關系管理的策略
D
儀表板(Dashboard)——使用算法分析數據,并將結果用圖表方式顯示于儀表板中
數據聚合工具(Data aggregation tools)——將分散于眾多數據源的數據轉化成一個全新數據源的過程
數據分析師(Data analyst)——從事數據分析、建模、清理、處理的專業人員
數據庫(Database)——一個以某種特定的技術來存儲數據集合的倉庫
數據庫即服務(Database-as-a-Service)——部署在云端的數據庫,即用即付,例如亞馬遜云服務(AWS: Amazon Web Services)
數據庫管理系統(DBMS: Database Management System)——收集、存儲數據,并提供數據的訪問
數據中心(Data centre)——一個實體地點,放置了用來存儲數據的服務
器數據清洗(Data cleansing)——對數據進行重新審查和校驗的過程,目的在于刪除重復信息、糾正存在的錯誤,并提供數據一致性
數據管理員(Data custodian)——負責維護數據存儲所需技術環境的專業技術人員
數據道德準則(Data ethical guidelines)——這些準則有助于組織機構使其數據透明化,保證數據的簡潔、安全及隱私
數據訂閱(Data feed)——一種數據流,例如Twitter訂閱和RSS
數據集市(Data marketplace)——進行數據集買賣的在線交易場所
數據挖掘(Data mining)——從數據集中發掘特定模式或信息的過程
數據建模(Data modelling)——使用數據建模技術來分析數據對象,以此洞悉數據的內在涵義
數據集(Data set)——大量數據的集合
數據虛擬化(Data virtualization)——數據整合的過程,以此獲得更多的數據信息,這個過程通常會引入其他技術,例如數據庫,應用程序,文件系統,網頁技術,大數據技術等等
去身份識別(De-identification)——也稱為匿名化(anonymization),確保個人不會通過數據被識別
判別分析(Discriminant analysis)——將數據分類;按不同的分類方式,可將數據分配到不同的群組,類別或者目錄。是一種統計分析法,可以對數據中某些群組或集群的已知信息進行分析,并從中獲取分類規則。
分布式文件系統(Distributed File System)——提供簡化的,高可用的方式來存儲、分析、處理數據的系統
文件存貯數據庫(Document Store Databases)——又稱為文檔數據庫(document-oriented database), 為存儲、管理、恢復文檔數據而專門設計的數據庫,這類文檔數據也稱為半結構化數據
E
探索性分析(Exploratory analysis)——在沒有標準的流程或方法的情況下從數據中發掘模式。是一種發掘數據和數據集主要特性的一種方法
E字節(EB: Exabytes)——約等于1000 PB(petabytes), 約等于1百萬 GB。如今全球每天所制造的新信息量大約為1 EB
提取-轉換-加載(ETL: Extract, Transform and Load)——是一種用于數據庫或者數據倉庫的處理過程。即從各種不同的數據源提取(E)數據,并轉換(T)成能滿足業務需要的數據,最后將其加載(L)到數據庫
F
故障切換(Failover)——當系統中某個服務器發生故障時,能自動地將運行任務切換到另一個可用服務器或節點上容錯設計(Fault-tolerant design)——一個支持容錯設計的系統應該能夠做到當某一部分出現故障也能繼續運行
G
游戲化(Gamification)——在其他非游戲領域中運用游戲的思維和機制,這種方法可以以一種十分友好的方式進行數據的創建和偵測,非常有效。
圖形數據庫(Graph Databases)——運用圖形結構(例如,一組有限的有序對,或者某種實體)來存儲數據,這種圖形存儲結構包括邊緣、屬性和節點。它提供了相鄰節點間的自由索引功能,也就是說,數據庫中每個元素間都與其他相鄰元素直接關聯。
網格計算(Grid computing)——將許多分布在不同地點的計算機連接在一起,用以處理某個特定問題,通常是通過云將計算機相連在一起。
H
Hadoop——一個開源的分布式系統基礎框架,可用于開發分布式程序,進行大數據的運算與存儲。
Hadoop數據庫(HBase)——一個開源的、非關系型、分布式數據庫,與Hadoop框架共同使用HDFS——Hadoop分布式文件系統(Hadoop Distributed File System);是一個被設計成適合運行在通用硬件(commodity hardware)上的分布式文件系統高性能計算(HPC: High-Performance-Computing)——使用超級計算機來解決極其復雜的計算問題I
內存數據庫(IMDB: In-memory)——一種數據庫管理系統,與普通數據庫管理系統不同之處在于,它用主存來存儲數據,而非硬盤。其特點在于能高速地進行數據的處理和存取。
物聯網(Internet of Things)——在普通的設備中裝上傳感器,使這些設備能夠在任何時間任何地點與網絡相連。
J
法律上的數據一致性(Juridical data compliance)——當你使用的云計算解決方案,將你的數據存儲于不同的國家或不同的大陸時,就會與這個概念扯上關系了。你需要留意這些存儲在不同國家的數據是否符合當地的法律。
K
鍵值數據庫(KeyValue Databases)——數據的存儲方式是使用一個特定的鍵,指向一個特定的數據記錄,這種方式使得數據的查找更加方便快捷。鍵值數據庫中所存的數據通常為編程語言中基本數據類型的數據。
L
延遲(Latency)——表示系統時間的延遲
遺留系統(Legacy system)——是一種舊的應用程序,或是舊的技術,或是舊的計算系統,現在已經不再支持了。
負載均衡(Load balancing)——將工作量分配到多臺電腦或服務器上,以獲得最優結果和最大的系統利用率。
位置信息(Location data)——GPS信息,即地理位置信息。
日志文件(Log file)——由計算機系統自動生成的文件,記錄系統的運行過程。
M
M2M數據(Machine2Machine data)——兩臺或多臺機器間交流與傳輸的內容機器數據(Machine data)——由傳感器或算法在機器上產生的數據機器學習(Machine learning)——人工智能的一部分,指的是機器能夠從它們所完成的任務中進行自我學習,通過長期的累積實現自我改進。
MapReduce——是處理大規模數據的一種軟件框架(Map: 映射,Reduce: 歸納)。
大規模并行處理(MPP: Massively Parallel Processing)——同時使用多個處理器(或多臺計算機)處理同一個計算任務。
元數據(Metadata)——被稱為描述數據的數據,即描述數據數據屬性(數據是什么)的信息。
MongoDB——一種開源的非關系型數據庫(NoSQL database)多維數據庫(Multi-Dimensional Databases)——用于優化數據聯機分析處理(OLAP)程序,優化數據倉庫的一種數據庫。
多值數據庫(MultiValue Databases)——是一種非關系型數據庫(NoSQL), 一種特殊的多維數據庫:能處理3個維度的數據。主要針對非常長的字符串,能夠完美地處理HTML和XML中的字串。
N
自然語言處理(Natural Language Processing)——是計算機科學的一個分支領域,它研究如何實現計算機與人類語言之間的交互。
網絡分析(Network analysis)——分析網絡或圖論中節點間的關系,即分析網絡中節點間的連接和強度關系。
NewSQL——一個優雅的、定義良好的數據庫系統,比SQL更易學習和使用,比NoSQL更晚提出的新型數據庫NoSQL——顧名思義,就是“不使用SQL”的數據庫。這類數據庫泛指傳統關系型數據庫以外的其他類型的數據庫。這類數據庫有更強的一致性,能處理超大規模和高并發的數據。
O
對象數據庫(Object Databases)——(也稱為面象對象數據庫)以對象的形式存儲數據,用于面向對象編程。它不同于關系型數據庫和圖形數據庫,大部分對象數據庫都提供一種查詢語言,允許使用聲明式編程(declarative programming)訪問對象.
基于對象圖像分析(Object-based Image Analysis)——數字圖像分析方法是對每一個像素的數據進行分析,而基于對象的圖像分析方法則只分析相關像素的數據,這些相關像素被稱為對象或圖像對象。
操作型數據庫(Operational Databases)——這類數據庫可以完成一個組織機構的常規操作,對商業運營非常重要,一般使用在線事務處理,允許用戶訪問 、收集、檢索公司內部的具體信息。
優化分析(Optimization analysis)——在產品設計周期依靠算法來實現的優化過程,在這一過程中,公司可以設計各種各樣的產品并測試這些產品是否滿足預設值。
本體論(Ontology)——表示知識本體,用于定義一個領域中的概念集及概念之間的關系的一種哲學思想。(譯者注: 數據被提高到哲學的高度,被賦予了世界本體的意義,成為一個獨立的客觀數據世界)異常值檢測(Outlier detection)——異常值是指嚴重偏離一個數據集或一個數據組合總平均值的對象,該對象與數據集中的其他它相去甚遠,因此,異常值的出現意味著系統發生問題,需要對此另加分析。
P
模式識別(Pattern Recognition)——通過算法來識別數據中的模式,并對同一數據源中的新數據作出預測
P字節(PB: Petabytes)——約等于1000 TB(terabytes), 約等于1百萬 GB (gigabytes)。歐洲核子研究中心(CERN)大型強子對撞機每秒產生的粒子個數就約為1 PB
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25