
數據挖掘150道試題 測測你的專業能力過關嗎(2)_數據分析師培訓
56. 如果規則集R中不存在兩條規則被同一條記錄觸發,則稱規則集R中的規則為(C);
A, 無序規則
B,窮舉規則
C, 互斥規則
D,有序規則
57. 如果對屬性值的任一組合,R中都存在一條規則加以覆蓋,則稱規則集R中的規則為(B)
A, 無序規則
B,窮舉規則
C, 互斥規則
D,有序規則
58. 如果規則集中的規則按照優先級降序排列,則稱規則集是 (D)
A, 無序規則
B,窮舉規則
C, 互斥規則
D,有序規則
59. 如果允許一條記錄觸發多條分類規則,把每條被觸發規則的后件看作是對相應類的一次投票,然后計票確定測試記錄的類標號,稱為(A)
A, 無序規則
B,窮舉規則
C, 互斥規則
D,有序規則
60. 考慮兩隊之間的足球比賽:隊0和隊1。假設65%的比賽隊0勝出,剩余的比賽隊1獲勝。隊0獲勝的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1的主場進行隊1獲勝的概率為 (C)
A,0.75
B,0.35
C,0.4678
D, 0.5738
61. 以下關于人工神經網絡(ANN)的描述錯誤的有 (A)
A,神經網絡對訓練數據中的噪聲非常魯棒
B,可以處理冗余特征
C,訓練ANN是一個很耗時的過程
D,至少含有一個隱藏層的多層神經網絡
62. 通過聚集多個分類器的預測來提高分類準確率的技術稱為 (A)
A,組合(ensemble)
B,聚集(aggregate)
C,合并(combination)
D,投票(voting)
63. 簡單地將數據對象集劃分成不重疊的子集,使得每個數據對象恰在一個子集中,這種聚類類型稱作( B )
A、層次聚類
B、劃分聚類
C、非互斥聚類
D、模糊聚類
64. 在基本K均值算法里,當鄰近度函數采用( A )的時候,合適的質心是簇中各點的中位數。
A、曼哈頓距離
B、平方歐幾里德距離
C、余弦距離
D、Bregman散度
65.( C )是一個觀測值,它與其他觀測值的差別如此之大,以至于懷疑它是由不同的機制產生的。
A、邊界點
B、質心
C、離群點
D、核心點
66. BIRCH是一種( B )。
A、分類器
B、聚類算法
C、關聯分析算法
D、特征選擇算法
67. 檢測一元正態分布中的離群點,屬于異常檢測中的基于( A )的離群點檢測。
A、統計方法
B、鄰近度
C、密度
D、聚類技術
68.( C )將兩個簇的鄰近度定義為不同簇的所有點對的平均逐對鄰近度,它是一種凝聚層次聚類技術。
A、MIN(單鏈)
B、MAX(全鏈)
C、組平均
D、Ward方法
69.( D )將兩個簇的鄰近度定義為兩個簇合并時導致的平方誤差的增量,它是一種凝聚層次聚類技術。
A、MIN(單鏈)
B、MAX(全鏈)
C、組平均
D、Ward方法
70. DBSCAN在最壞情況下的時間復雜度是( B )。
A、O(m)
B、O(m2)
C、O(log m)
D、O(m*log m)
71. 在基于圖的簇評估度量表里面,如果簇度量為proximity(Ci , C),簇權值為mi ,那么它的類型是( C )。
A、基于圖的凝聚度
B、基于原型的凝聚度
C、基于原型的分離度
D、基于圖的凝聚度和分離度
72. 關于K均值和DBSCAN的比較,以下說法不正確的是( A )。
A、K均值丟棄被它識別為噪聲的對象,而DBSCAN一般聚類所有對象。
B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。
C、K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇。
D、K均值可以發現不是明顯分離的簇,即便簇有重疊也可以發現,但是DBSCAN會合并有重疊的簇。
73. 以下是哪一個聚類算法的算法流程:①構造k-最近鄰圖。②使用多層圖劃分算法劃分圖。③repeat:合并關于相對互連性和相對接近性而言,最好地保持簇的自相似性的簇。④until:不再有可以合并的簇。( C )。
A、MST
B、OPOSSUM
C、Chameleon
D、Jarvis-Patrick(JP)
74. 考慮這么一種情況:一個對象碰巧與另一個對象相對接近,但屬于不同的類,因為這兩個對象一般不會共享許多近鄰,所以應該選擇( D )的相似度計算方法。
A、平方歐幾里德距離
B、余弦距離
C、直接相似度
D、共享最近鄰
75. 以下屬于可伸縮聚類算法的是( A )。
A、CURE
B、DENCLUE
C、CLIQUE
D、OPOSSUM
76. 以下哪個聚類算法不是屬于基于原型的聚類( D )。
A、模糊c均值
B、EM算法
C、SOM
D、CLIQUE
77. 關于混合模型聚類算法的優缺點,下面說法正確的是( B )。
A、當簇只包含少量數據點,或者數據點近似協線性時,混合模型也能很好地處理。
B、混合模型比K均值或模糊c均值更一般,因為它可以使用各種類型的分布。
C、混合模型很難發現不同大小和橢球形狀的簇。
D、混合模型在有噪聲和離群點時不會存在問題。
78. 以下哪個聚類算法不屬于基于網格的聚類算法( D )。
A、STING
B、WaveCluster
C、MAFIA
D、BIRCH
79. 一個對象的離群點得分是該對象周圍密度的逆。這是基于( C )的離群點定義。
A.概率
B、鄰近度
C、密度
D、聚類
80. 下面關于Jarvis-Patrick(JP)聚類算法的說法不正確的是( D )。
A、JP聚類擅長處理噪聲和離群點,并且能夠處理不同大小、形狀和密度的簇。
B、JP算法對高維數據效果良好,尤其擅長發現強相關對象的緊致簇。
C、JP聚類是基于SNN相似度的概念。
D、JP聚類的基本時間復雜度為O(m)。
二、 多選題
1. 通過數據挖掘過程所推倒出的關系和摘要經常被稱為:(A B)
A. 模型
B. 模式
C. 模范
D. 模具
2 尋找數據集中的關系是為了尋找精確、方便并且有價值地總結了數據的某一特征的表示,這個過程包括了以下哪些步驟? (A B C D)
A. 決定要使用的表示的特征和結構
B. 決定如何量化和比較不同表示擬合數據的好壞
C. 選擇一個算法過程使評分函數最優
D. 決定用什么樣的數據管理原則以高效地實現算法。
3. 數據挖掘的預測建模任務主要包括哪幾大類問題? (A B)
A. 分類
B. 回歸
C. 模式發現
D. 模式匹配
4. 數據挖掘算法的組件包括:(A B C D)
A. 模型或模型結構
B. 評分函數
C. 優化和搜索方法
D. 數據管理策略
5. 以下哪些學科和數據挖掘有密切聯系?(A D)
A. 統計
B. 計算機組成原理
C. 礦產挖掘
D. 人工智能
6. 在現實世界的數據中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法有: (ABCDE)
A忽略元組
B使用屬性的平均值填充空缺值
C使用一個全局常量填充空缺值
D使用與給定元組屬同一類的所有樣本的平均值
E使用最可能的值填充空缺值
7.下面哪些屬于可視化高維數據技術 (ABCE)
A 矩陣
B 平行坐標系
C星形坐標 D散布圖
E Chernoff臉
8. 對于數據挖掘中的原始數據,存在的問題有: (ABCDE)
A 不一致
B重復
C不完整
D 含噪聲
E 維度高
9.下列屬于不同的有序數據的有:(ABCE)
A 時序數據
B 序列數據
C時間序列數據
D事務數據
E空間數據
10.下面屬于數據集的一般特性的有:( B C D)
A 連續性
B 維度
C 稀疏性
D 分辨率
E 相異性
11. 下面屬于維歸約常用的線性代數技術的有: (A C)
A 主成分分析
B 特征提取
C 奇異值分解
D 特征加權
E 離散化
12. 下面列出的條目中,哪些是數據倉庫的基本特征: (ACD)
A. 數據倉庫是面向主題的
B. 數據倉庫的數據是集成的
C. 數據倉庫的數據是相對穩定的
D. 數據倉庫的數據是反映歷史變化的
E. 數據倉庫是面向事務的
13. 以下各項均是針對數據倉庫的不同說法,你認為正確的有(BCDE )。
A.數據倉庫就是數據庫
B.數據倉庫是一切商業智能系統的基礎
C.數據倉庫是面向業務的,支持聯機事務處理(OLTP)
D.數據倉庫支持決策而非事務處理
E.數據倉庫的主要目標就是幫助分析,做長期性的戰略制定
14. 數據倉庫在技術上的工作過程是: (ABCD)
A. 數據的抽取
B. 存儲和管理
C. 數據的表現
D. 數據倉庫設計
E. 數據的表現
15. 聯機分析處理包括以下哪些基本分析功能? (BCD)
A. 聚類
B. 切片
C. 轉軸
D. 切塊
E. 分類
16. 利用Apriori算法計算頻繁項集可以有效降低計算頻繁集的時間復雜度。在以下的購物籃中產生支持度不小于3的候選3-項集,在候選2-項集中需要剪枝的是(BD)
ID 項集
1 面包、牛奶
2 面包、尿布、啤酒、雞蛋
3 牛奶、尿布、啤酒、可樂
4 面包、牛奶、尿布、啤酒
5 面包、牛奶、尿布、可樂
A、啤酒、尿布
B、啤酒、面包
C、面包、尿布
D、啤酒、牛奶
17. 下表是一個購物籃,假定支持度閾值為40%,其中__(A D)__是頻繁閉項集。
TID 項
1 abc
2 abcd
3 bce
4 acde
5 de
A、abc
B、ad
C、cd
D、de
18. Apriori算法的計算復雜度受__(ABCD)?__影響。
A、支持度閥值
B、項數(維度)
C、事務數
D、事務平均寬度
19. 非頻繁模式__(AD)__
A、其支持度小于閾值
B、都是不讓人感興趣的
C、包含負模式和負相關模式
D、對異常數據項敏感
20. 以下屬于分類器評價或比較尺度的有: (ACD)
A,預測準確度
B,召回率
C,模型描述的簡潔度
D,計算復雜度
21. 在評價不平衡類問題分類的度量方法有如下幾種,(ABCD)
A,F1度量
B,召回率(recall)
C,精度(precision)
D,真正率(ture positive rate,TPR)
22. 貝葉斯信念網絡(BBN)有如下哪些特點, (AB)
A,構造網絡費時費力
B,對模型的過分問題非常魯棒
C,貝葉斯網絡不適合處理不完整的數據
D,網絡結構確定后,添加變量相當麻煩
23. 如下哪些不是最近鄰分類器的特點, (C)
A,它使用具體的訓練實例進行預測,不必維護源自數據的模型
B,分類一個測試樣例開銷很大
C,最近鄰分類器基于全局信息進行預測
D,可以生產任意形狀的決策邊界
24. 如下那些不是基于規則分類器的特點,(AC)
A,規則集的表達能力遠不如決策樹好
B,基于規則的分類器都對屬性空間進行直線劃分,并將類指派到每個劃分
C,無法被用來產生更易于解釋的描述性模型
D,非常適合處理類分布不平衡的數據集
25. 以下屬于聚類算法的是( ABD )。
A、K均值
B、DBSCAN
C、Apriori
D、Jarvis-Patrick(JP)
26.( CD )都屬于簇有效性的監督度量。
A、輪廓系數
B、共性分類相關系數
C、熵
D、F度量
27. 簇有效性的面向相似性的度量包括( BC )。
A、精度
B、Rand統計量
C、Jaccard系數
D、召回率
28.( ABCD )這些數據特性都是對聚類分析具有很強影響的。
A、高維性
B、規模
C、稀疏性
D、噪聲和離群點
29. 在聚類分析當中,( AD )等技術可以處理任意形狀的簇。
A、MIN(單鏈)
B、MAX(全鏈)
C、組平均
D、Chameleon
30. ( AB )都屬于分裂的層次聚類算法。
A、二分K均值
B、MST
C、Chameleon
D、組平均
三、 判斷題
1. 數據挖掘的主要任務是從數據中發現潛在的規則,從而能更好的完成描述數據、預測數據等任務。 (對)
2. 數據挖掘的目標不在于數據采集策略,而在于對于已經存在的數據進行模式的發掘。(對)3. 圖挖掘技術在社會網絡分析中扮演了重要的角色。(對)
4. 模式為對數據集的全局性總結,它對整個測量空間的每一點做出描述;模型則對變量變化空間的一個有限區域做出描述。(錯)
5. 尋找模式和規則主要是對數據進行干擾,使其符合某種規則以及模式。(錯)
6. 離群點可以是合法的數據對象或者值?! 。▽Γ?/span>
7. 離散屬性總是具有有限個值?! 。ㄥe)
8. 噪聲和偽像是數據錯誤這一相同表述的兩種叫法?! 。ㄥe)
9. 用于分類的離散化方法之間的根本區別在于是否使用類信息?! 。▽Γ?/span>
10. 特征提取技術并不依賴于特定的領域?! 。ㄥe)
11. 序列數據沒有時間戳?! 。▽Γ?/span>
12. 定量屬性可以是整數值或者是連續值?! 。▽Γ?/span>
13. 可視化技術對于分析的數據類型通常不是專用性的?! 。ㄥe)
14. DSS主要是基于數據倉庫.聯機數據分析和數據挖掘技術的應用。(對)
15. OLAP技術側重于把數據庫中的數據進行分析、轉換成輔助決策信息,是繼數據庫技術發展之后迅猛發展起來的一種新技術。 (對)
16. 商業智能系統與一般交易系統之間在系統設計上的主要區別在于:后者把結構強加于商務之上,一旦系統設計完畢,其程序和規則不會輕易改變;而前者則是一個學習型系統,能自動適應商務不斷變化的要求。 (對)
17. 數據倉庫中間層OLAP服務器只能采用關系型OLAP (錯)
18.數據倉庫系統的組成部分包括數據倉庫,倉庫管理,數據抽取,分析工具等四個部分. (錯)
19. Web數據挖掘是通過數據庫仲的一些屬性來預測另一個屬性,它在驗證用戶提出的假設過程中提取信息. (錯)
21. 關聯規則挖掘過程是發現滿足最小支持度的所有項集代表的規則。(錯)
22. 利用先驗原理可以幫助減少頻繁項集產生時需要探查的候選項個數(對)。
23. 先驗原理可以表述為:如果一個項集是頻繁的,那包含它的所有項集也是頻繁的。(錯)
24. 如果規則 不滿足置信度閾值,則形如 的規則一定也不滿足置信度閾值,其中 是X的子集。(對)
25. 具有較高的支持度的項集具有較高的置信度。(錯)
26. 聚類(clustering)是這樣的過程:它找出描述并區分數據類或概念的模型(或函數),以便能夠使用模型預測類標記未知的對象類。 (錯)
27. 分類和回歸都可用于預測,分類的輸出是離散的類別值,而回歸的輸出是連續數值。(對)
28. 對于SVM分類算法,待分樣本集中的大部分樣本不是支持向量,移去或者減少這些樣本對分類結果沒有影響。 (對)
29. Bayes法是一種在已知后驗概率與類條件概率的情況下的模式分類方法,待分樣本的分類結果取決于各類域中樣本的全體。 (錯)
30.分類模型的誤差大致分為兩種:訓練誤差(training error)和泛化誤差(generalization error). (對)
31. 在決策樹中,隨著樹中結點數變得太大,即使模型的訓練誤差還在繼續減低,但是檢驗誤差開始增大,這是出現了模型擬合不足的問題。 (錯)
32. SVM是這樣一個分類器,他尋找具有最小邊緣的超平面,因此它也經常被稱為最小邊緣分類器(minimal margin classifier) (錯)
33. 在聚類分析當中,簇內的相似性越大,簇間的差別越大,聚類的效果就越差。(錯)
34. 聚類分析可以看作是一種非監督的分類。(對)
35. K均值是一種產生劃分聚類的基于密度的聚類算法,簇的個數由算法自動地確定。(錯)
36. 給定由兩次運行K均值產生的兩個不同的簇集,誤差的平方和最大的那個應該被視為較優。(錯)
37. 基于鄰近度的離群點檢測方法不能處理具有不同密度區域的數據集。(對)
38. 如果一個對象不強屬于任何簇,那么該對象是基于聚類的離群點。(對)
文章來源:CDA數據分析師官網
39. 從點作為個體簇開始,每一步合并兩個最接近的簇,這是一種分裂的層次聚類方法。(錯)40. DBSCAN是相對抗噪聲的,并且能夠處理任意形狀和大小的簇。(對)
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24