
《數據分析專項練習題庫》
《CDA數據分析認證考試模擬題庫》
《企業數據分析面試題庫》
一、單選題
1.某超市研究銷售紀錄數據后發現,買啤酒的人很大概率也會購買尿布,這種屬于數據挖掘的哪類問題?(A)
A. 關聯規則發現
B. 聚類
C. 分類
D. 自然語言處理
2.以下兩種描述分別對應哪兩種對分類算法的評價標準? (A)
(a)警察抓小偷,描述警察抓的人中有多少個是小偷的標準。
(b)描述有多少比例的小偷給警察抓了的標準。
A. Precision, Recall
B. Recall, Precision
C. Precision, ROC
D. Recall, ROC
3.將原始數據進行集成、變換、維度規約、數值規約是在以下哪個步驟的任務?(C)
A. 頻繁模式挖掘
B. 分類和預測
C. 數據預處理
D. 數據流挖掘
4.當不知道數據所帶標簽時,可以使用哪種技術促使帶同類標簽的數據與帶其他標簽的數據相分離?(B)
A. 分類
B. 聚類
C. 關聯分析
D. 隱馬爾可夫鏈
5.什么是KDD? (A)
A. 數據挖掘與知識發現
B. 領域知識發現
C. 文檔知識發現
D. 動態知識發現
6.使用交互式的和可視化的技術,對數據進行探索屬于數據挖掘的哪一類任務?(A)
A. 探索性數據分析
B. 建模描述
C. 預測建模
D. 尋找模式和規則
7.為數據的總體分布建模;把多維空間劃分成組等問題屬于數據挖掘的哪一類任務?(B)
A. 探索性數據分析
B. 建模描述
C. 預測建模
D. 尋找模式和規則
8.建立一個模型,通過這個模型根據已知的變量值來預測其他某個變量值屬于數據挖掘的哪一類任務?(C)
A. 根據內容檢索
B. 建模描述
C. 預測建模
D. 尋找模式和規則
9.用戶有一種感興趣的模式并且希望在數據集中找到相似的模式,屬于數據挖掘哪一類任務?(A)
A. 根據內容檢索
B. 建模描述
C. 預測建模
D. 尋找模式和規則
10.下面哪種不屬于數據預處理的方法? (D)
A變量代換
B離散化
C聚集
D估計遺漏值
11.假設12個銷售價格記錄組已經排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215,將它們劃分成四個箱,等頻(等深)劃分時,15在第幾個箱子內? (B)
A 第一個
B 第二個
C 第三個
D 第四個
12. 假設12個銷售價格記錄組已經排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215,等寬劃分時(寬度為50),15又在哪個箱子里? (A)
A 第一個
B 第二個
C 第三個
D 第四個
13.下面哪個不屬于數據的屬性類型:(D)
A 標稱
B 序數
C 區間
D相異
14.只有非零值才重要的二元屬性被稱作:( C )
A 計數屬性
B 離散屬性
C非對稱的二元屬性
D 對稱屬性
15.以下哪種方法不屬于特征選擇的標準方法: (D)
A 嵌入
B 過濾
C 包裝
D 抽樣
16.下面不屬于創建新屬性的相關方法的是: (B)
A特征提取
B特征修改
C映射數據到新的空間
D特征構造
17.考慮值集{1、2、3、4、5、90},其截斷均值(p=20%)是 (C)
A 2
B 3
C 3.5
D 5
18.下面哪個屬于映射數據到新的空間的方法? (A)
A 傅立葉變換
B 特征加權
C 漸進抽樣
D 維歸約
19.熵是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是: (B)
A 1比特
B 2.6比特
C 3.2比特
D 3.8比特
20.假設屬性income的最大最小值分別是12000元和98000元。利用最大最小規范化的方法將屬性的值映射到0至1的范圍內。對屬性income的73600元將被轉化為:(D)
A 0.821
B 1.224
C 1.458
D 0.716
21.假定用于分析的數據包含屬性age。數據元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 問題:使用按箱平均值平滑方法對上述數據進行平滑,箱的深度為3。第二個箱子值為:(A)
A 18.3
B 22.6
C 26.8
D 27.9
22.考慮值集{12 24 33 2 4 55 68 26},其四分位數極差是:(A)
A 31
B 24
C 55
D 3
23.下列哪個不是專門用于可視化時間空間數據的技術: (B)
A 等高線圖
B 餅圖
C 曲面圖
D 矢量場圖
24.在抽樣方法中,當合適的樣本容量很難確定時,可以使用的抽樣方法是: (D)
A 有放回的簡單隨機抽樣
B 無放回的簡單隨機抽樣
C 分層抽樣
D 漸進抽樣
25.數據倉庫是隨著時間變化的,下面的描述不正確的是 (C)
A. 數據倉庫隨時間的變化不斷增加新的數據內容;
B. 捕捉到的新數據會覆蓋原來的快照;
C. 數據倉庫隨時間變化不斷刪去舊的數據內容;
D. 數據倉庫中包含大量的綜合數據,這些綜合數據會隨著時間的變化不斷地進行重新綜合;
26.關于基本數據的元數據是指: (D)
A. 基本元數據與數據源,數據倉庫,數據集市和應用程序等結構相關的信息;
B. 基本元數據包括與企業相關的管理方面的數據和信息;
C. 基本元數據包括日志文件和簡歷執行處理的時序調度信息;
D. 基本元數據包括關于裝載和更新處理,分析處理以及管理方面的信息;
27.下面關于數據粒度的描述不正確的是: (C)
A. 粒度是指數據倉庫小數據單元的詳細程度和級別;
B. 數據越詳細,粒度就越小,級別也就越高;
C. 數據綜合度越高,粒度也就越大,級別也就越高;
D. 粒度的具體劃分將直接影響數據倉庫中的數據量以及查詢質量.
28.在有關數據倉庫測試,下列說法不正確的是: (D)
A. 在完成數據倉庫的實施過程中,需要對數據倉庫進行各種測試.測試工作中要包括單元測試和系統測試.
B. 當數據倉庫的每個單獨組件完成后,就需要對他們進行單元測試.
C. 系統的集成測試需要對數據倉庫的所有組件進行大量的功能測試和回歸測試.
D. 在測試之前沒必要制定詳細的測試計劃.
29.OLAP技術的核心是: (D)
A. 在線性;
B. 對用戶的快速響應;
C. 互操作性.
D. 多維分析;
30.關于OLAP的特性,下面正確的是: (D)
(1)快速性 (2)可分析性 (3)多維性 (4)信息性 (5)共享性
A. (1) (2) (3)
B. (2) (3) (4)
C. (1) (2) (3) (4)
D. (1) (2) (3) (4) (5)
31.關于OLAP和OLTP的區別描述,不正確的是: (C)
A. OLAP主要是關于如何理解聚集的大量不同的數據,它與OTAP應用程序不同
B. 與OLAP應用程序不同,OLTP應用程序包含大量相對簡單的事務
C. OLAP的特點在于事務量大,但事務內容比較簡單且重復率高
D. OLAP是以數據倉庫為基礎的,但其最終數據來源與OLTP一樣均來自底層的數據庫系統,兩者面對的用戶是相同的
32.OLAM技術一般簡稱為“數據聯機分析挖掘”,下面說法正確的是: (D)
A. OLAP和OLAM都基于客戶機/服務器模式,只有后者有與用戶的交互性
B. 由于OLAM的立方體和用于OLAP的立方體有本質的區別.
C. 基于WEB的OLAM是WEB技術與OLAM技術的結合.
D. OLAM服務器通過用戶圖形接口接收用戶的分析指令,在元數據的指導下,對超級立方體作一定的操作.
33.關于OLAP和OLTP的說法,下列不正確的是: (A)
A. OLAP事務量大,但事務內容比較簡單且重復率高.
B. OLAP的最終數據來源與OLTP不一樣.
C. OLTP面對的是決策人員和高層管理人員.
D. OLTP以應用為核心,是應用驅動的.
34.設X={1,2,3}是頻繁項集,則可由X產生__(C)__個關聯規則。
A、4
B、5
C、6
D、7
35.頻繁項集、頻繁閉項集、最大頻繁項集之間的關系是: (C)
A、頻繁項集 頻繁閉項集=最大頻繁項集
B、頻繁項集=頻繁閉項集 最大頻繁項集
C、頻繁項集 頻繁閉項集 最大頻繁項集
D、頻繁項集=頻繁閉項集=最大頻繁項集
36.考慮下面的頻繁3-項集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定數據集中只有5個項,采用合并策略,由候選產生過程得到4-項集不包含(C)
A、1,2,3,4
B、1,2,3,5
C、1,2,4,5
D、1,3,4,5
37.下面選項中t不是s的子序列的是 ( C )
A、s=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}>
B、s=<{2,4},{3,5,6},{8}> t=<{2},{8}>
C、s=<{1,2},{3,4}> t=<{1},{2}>
D、s=<{2,4},{2,4}> t=<{2},{4}>
38.在圖集合中發現一組公共子結構,這樣的任務稱為 ( B )
A、頻繁子集挖掘
B、頻繁子圖挖掘
C、頻繁數據項挖掘
D、頻繁模式挖掘
39.下列度量不具有反演性的是 (D)
A、系數
B、幾率
C、Cohen度量
D、興趣因子
40.下列__(A)__不是將主觀信息加入到模式發現任務中的方法。
A、與同一時期其他數據對比
B、可視化
C、基于模板的方法
D、主觀興趣度量
41.下面購物籃能夠提取的3-項集的最大數量是多少(C)
ID 購買項
1 牛奶,啤酒,尿布
2 面包,黃油,牛奶
3 牛奶,尿布,餅干
4 面包,黃油,餅干
5 啤酒,餅干,尿布
6 牛奶,尿布,面包,黃油
7 面包,黃油,尿布
8 啤酒,尿布
9 牛奶,尿布,面包,黃油
10 啤酒,餅干
A、1
B、2
C、3
D、4
42.以下哪些算法是分類算法?(B)
A、DBSCAN
B、C4.5
C、K-Means
D、EM
43.以下哪些分類方法可以較好地避免樣本的不平衡問題? (A)
A,KNN
B,SVM
C,Bayes
D,神經網絡
44.決策樹中不包含以下哪種結點? (C)
A,根結點(root node)
B,內部結點(internal node)
C,外部結點(external node)
D,葉結點(leaf node)
45.以下哪項關于決策樹的說法是錯誤的 (C)
B. 子樹可能在決策樹中重復多次
C. 決策樹算法對于噪聲的干擾非常敏感
D. 尋找最佳決策樹是NP完全問題
46.在基于規則的分類器中,依據規則質量的某種度量對規則排序,保證每一個測試記錄都是由覆蓋它的“最好的”規格來分類,這種方案稱為 (B)
A. 基于類的排序方案
B. 基于規則的排序方案
C. 基于度量的排序方案
D. 基于規格的排序方案。
47.以下哪些算法是基于規則的分類器 (A)
A. C4.5
B. KNN
C. Naive Bayes
D. ANN
48.如果規則集R中不存在兩條規則被同一條記錄觸發,則稱R中的規則為(C);
A, 無序規則
B,窮舉規則
C,互斥規則
D,有序規則
49.如果對屬性值的任一組合,規則集R中都存在一條規則加以覆蓋,則稱R中的規則為(B)
A, 無序規則
B,窮舉規則
C,互斥規則
D,有序規則
50.如果規則集中的規則按照優先級降序排列,則稱規則集是 (D)
A, 無序規則
B,窮舉規則
C,互斥規則
D,有序規則
51.如果允許一條記錄觸發多條分類規則,把每條被觸發規則的后件看作是對相應類的一次投票,然后計票確定測試記錄的類標號,稱為(A)
A, 無序規則
B,窮舉規則
C,互斥規則
D,有序規則
52.考慮兩隊之間的足球比賽:隊0和隊1。假設65%的比賽隊0勝出,剩余的比賽隊1獲勝。隊0獲勝的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1的主場進行,隊1獲勝的概率為 (C)
A,0.75
B,0.35
C,0.4678
D,0.5738
53.以下關于人工神經網絡(ANN)的描述錯誤的有 (A)
A,神經網絡對訓練數據中的噪聲非常魯棒
B,可以處理冗余特征
C,訓練ANN是一個很耗時的過程
D,至少含有一個隱藏層的多層神經網絡
54.通過聚集多個分類器的預測來提高分類準確率的技術稱為 (A)
A,組合(ensemble)
B,聚集(aggregate)
C,合并(combination)
D,投票(voting)
55.簡單地將數據對象集劃分成不重疊的子集,使得每個數據對象恰在一個子集中,這種聚類類型稱作( B )
A、層次聚類
B、劃分聚類
C、非互斥聚類
D、模糊聚類
56.在基本K均值算法里,當鄰近度函數采用( A )的時候,合適的質心是簇中各點的中位數。
A、曼哈頓距離
B、平方歐幾里德距離
C、余弦距離
D、Bregman散度
57.( C )是一個觀測值,它與其他觀測值的差別如此之大,以至于懷疑它是由不同的機制產生的。
A、邊界點
B、質心
C、離群點
D、核心點
58.BIRCH是一種( B )。
A、分類器
B、聚類算法
C、關聯分析算法
D、特征選擇算法
59.檢測一元正態分布中的離群點,屬于異常檢測中的基于( A )的離群點檢測。
A、統計方法
B、鄰近度
C、密度
D、聚類技術
60.( C )將兩個簇的鄰近度定義為不同簇的所有點對的平均逐對鄰近度,它是一種凝聚層次聚類技術。
A、MIN(單鏈)
B、MAX(全鏈)
C、組平均
D、Ward方法
二、多選題
61.尋找數據集中的關系是為了尋找精確、方便并且有價值地總結了數據的某一特征的表示,這個過程包括了以下哪些步驟? (A B C D)
A. 決定要使用的表示的特征和結構
B. 決定如何量化和比較不同表示擬合數據的好壞
C. 選擇一個算法過程使評分函數最優
D. 決定用什么樣的數據管理原則以高效地實現算法。
62.數據挖掘的預測建模任務主要包括哪幾大類問題? (A B)
A. 分類
B. 回歸
C. 模式發現
D. 模式匹配
63.數據挖掘算法的組件包括:(A B C D)
A. 模型或模型結構
B. 評分函數
C. 優化和搜索方法
D. 數據管理策略
64.下列何種算法可以幫助我們做數值的預測(Prediction)?(B,D)
A.Apriori B.Decision Tree C.Naive Bayes D.Linear Regression
65.在現實世界的數據中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法有: (ABCD )
A忽略元組
B使用屬性的平均值填充空缺值
C使用一個全局常量填充空缺值
D使用與給定元組屬同一類的所有樣本的平均值
66. 時間序列的問題需考慮下列何者?(A, C, D)
A.季節性 B.地點 C.時間 D.趨勢
67.對于數據挖掘中的原始數據,存在的問題有: (ABCD)
A 不一致
B重復
C不完整
D 含噪聲
68.下列屬于不同的有序數據的有:(ABC)
A 時序數據
B 序列數據
C時間序列數據
D事務數據
69.下面屬于數據集的一般特性的有: (B C D)
A 連續性
B 維度
C 稀疏性
D 分辨率
70.下面屬于維歸約常用的線性代數技術的有: (A C)
A 主成分分析
B 特征提取
C 奇異值分解
D 特征加權
71.下面列出的條目中,哪些是數據倉庫的基本特征: (ACD)
A. 數據倉庫是面向主題的
B. 數據倉庫的數據是集成的
C. 數據倉庫的數據是相對穩定的
D. 數據倉庫的數據是反映歷史變化的
72.以下各項均是針對數據倉庫的不同說法,你認為正確的有(BCD)。
A.數據倉庫就是數據庫
C.數據倉庫是面向業務的,支持聯機事務處理(OLTP)
D.數據倉庫支持決策而非事務處理
73.數據倉庫在技術上的工作過程是: (ABCD)
A. 數據的抽取
B. 存儲和管理
C. 數據的表現
D. 數據倉庫設計
74.聯機分析處理包括以下哪些基本分析功能? (BCD)
A. 聚類
B. 切片
C. 轉軸
D. 切塊
75.利用Apriori算法計算頻繁項集可以有效降低計算頻繁集的時間復雜度。在以下的購物籃中產生支持度不小于3的候選3-項集,在候選2-項集中需要剪枝的是(BD)
立刻掃碼
看更多數據分析師認證試題
——學數據分析技能一定要了解的大廠入門券,CDA數據分析師認證證書!
CDA(數據分析師認證),與CFA相似,由國際范圍內數據科學領域行業專家、學者及知名企業共同制定并修訂更新,迅速發展成行業內長期而穩定的全球大數據及數據分析人才標準,具有專業化、科學化、國際化、系統化等特性。
同時,CDA全??荚嚥季趾驼J證體系已得到社會認可,并由為IBM、華為等提供全球認證服務的Pearson VUE面向全球提供靈活的考試服務。
報名方式
登錄CDA認證考試官網注冊報名>>點擊報名
報名費用
Level Ⅰ:1200 RMB
Level Ⅱ:1700 RMB
Level Ⅲ:2000 RMB
考試地點
Level Ⅰ + Level Ⅱ:中國區30+省市,70+城市,250+考場,考生可就近考場預約考試 >看看我所在的地哪里報名<
Level Ⅲ:中國區30所城市,北京/上海/天津/重慶/成都/深圳/廣州/濟南/南京/杭州/蘇州/福州/太原/武漢/長沙/西安/貴陽/鄭州/南寧/昆明/烏魯木齊/沈陽/哈爾濱/合肥/石家莊/呼和浩特/南昌/長春/大連/蘭州>看看我所在的地哪里報名<
報考條件
CDA Level I >了解更多<
? 報考條件:無要求。
CDA Level II >了解更多<
? 報考條件:獲得CDA Level Ⅰ認證證書;
? 考試時間:隨報隨考。
CDA Level III >了解更多<
? 報考條件:獲得CDA Level Ⅱ認證證書;
? 考試時間:一年四屆 3月、6月、9月、12月的最后一個周六。
——熱門課程推薦:
想學習PYTHON數據分析與金融數字化轉型精英訓練營,您可以點擊>>>“人才轉型”了解課程詳情;
想從事業務型數據分析師,您可以點擊>>>“數據分析師”了解課程詳情;
想從事大數據分析師,您可以點擊>>>“大數據就業”了解課程詳情;
想成為人工智能工程師,您可以點擊>>>“人工智能就業”了解課程詳情;
想了解Python數據分析,您可以點擊>>>“Python數據分析師”了解課程詳情;
想咨詢互聯網運營,你可以點擊>>>“互聯網運營就業班”了解課程詳情;
推薦學習書籍
《CDA一級教材》適合CDA一級考生備考,也適合業務及數據分析崗位的從業者提升自我。完整電子版已上線CDA網校,累計已有10萬+在讀~
免費加入閱讀:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24