熱線電話:13121318867

登錄
首頁備考教材CDA LEVEL III
CDA LEVEL III
2023-10-11
收藏

一、總則

CDA(Certified Data Analyst),即“CDA數據分析師”,是在數字經濟大背景和人工智能時代趨勢下,面向全行業的資格認證,旨在提升用戶數字技能,助力企業數字化轉型,推動行業數字化發展?!窩DA人才考核標準」是面向全行業數據相關崗位的一套科學化、專業化、國際化的人才技能準則,CDA考試大綱規定并明確了數據分析師認證考試的具體范圍、內容和知識點,考生可按照大綱要求進行相關知識的學習,獲取技能,成為專業人才。

二、考試形式與試卷結構

考試方式:一年四屆 (3、6、9、12月的最后一個周六),線下統考,上機答題。

考試題型:客觀選擇題(單選60題+多選30題+內容相關10題)

案例實操題(1題)

考試時間:90分鐘(客觀選擇題),120分鐘(案例實操題),共210分鐘

考試成績:分為A、B、C、D四個層次,A、B、C為通過考試,D為不通過

考試要求:客觀選擇題為閉卷上機答題,無需攜帶計算器及其他考試無關用品。

     案例實操題考生須自行攜帶電腦操作(安裝好帶有數據挖掘功能的軟件如:PYTHON、SQL、SPSS
       MODELER、R、SAS、WEKA等,進行案例操作分析。案例數據將統一提供CSV文件)。

三、知識要求

針對不同知識,掌握程度的要求分為【領會】、【熟知】、【應用】三個級別,考生應按照不同知識要求進行學習。

1.領會:考生能夠了解規定的知識點,并能夠了解規定知識點的內涵與外延,了解其內容要點之間的區別與聯系,并能做出正確的闡述、解釋和說明。

2.熟知:考生須掌握知識的要點,并能夠正確理解和記憶相關理論方法,能夠根據不同要求,做出邏輯嚴密的解釋、說明和闡述。此部分為考試的重點部分。

3.應用:考生須學會將知識點落地實踐,并能夠結合相關工具進行商業應用,能夠根據具體要求,給出問題的具體實施流程和策略。

四、考試科目

PART 1 數據挖掘概論(占比15%)

a.數據挖掘概要(3%)

b.數據挖掘方法論(3%)

c.基礎數據挖掘技術(4%)

d.進階數據挖掘技術(5%)

PART 2 高級數據處理特征工程(占比25%)

a.高級數據處理(5%)

b.特征工程概要(2%)

c.特征建構(3%)

d.特征選擇(5%)

e.特征轉換(5%)

f.特征學習(5%)

PART 3 自然語言處理與文本分析(占比20%)

a.自然語言處理概要(占比2%)

b.分詞與詞性標注(占比4%)

c.文本挖掘概要(占比2%)

d.關鍵詞提?。ㄕ急?%)

e.文本非結構數據轉結構(占比8%)

PART 4 機器學習算法(占比40%)

a.樸素貝葉斯(4%)

b.決策樹(分類樹及回歸樹)(5%)

c.神經網絡深度學習(5%)

d.支持向量機(4%)

e.集成方法(5%)

f.聚類分析(5%)

g.關聯規則(4%)

h.序列模式(3%)

i.模型評估(5%)

PART 5 機器學習實戰
(本部分內容考查方式為案例實操,不計入客觀選擇題占比。)

a.自動機器學習

b.類別不平衡問題

c.半監督學習

d.模型優化

五、科目內容

1、數據挖掘概要
【領會】
數據挖掘在政府部門及互聯網、金融、零售、醫藥等行業的應用
【熟知】
數據挖掘的起源、定義及目標
數據挖掘的發展歷程
【應用】
根據給定的數據建立一個數據挖掘的項目
2、數據挖掘方法論
【熟知】
數據挖掘步驟(字段選擇、數據清洗、字段擴充、數據編碼、數據挖掘、結果呈現)
數據挖掘技術的產業標準(CRISP-DM及SEMMA)
【應用】
運用數據挖掘進行不同文件格式的數據導入,并進行初步的數據探索,探索的內容包含數值型字段的描述性統計分析、直方圖(需與目標字段做連接)、缺失值分析及類別型字段的描述性統計分析、條形圖(需與目標字段做連接、缺失值分析。數據探索的結果可進行初步的字段篩選。
3、基礎數據挖掘技術
【領會】
可視化技術(能使用相關工具根據業務問題做出可視化數據報告)
【熟知】
案例為本的學習(Case-based Learning):KNN(K-Nearest Neighbor)原理
數據的準備
樣本點間距離的計算(Manhattan Distance、City-Block Distance、Euclidean Distance)
【應用】
運用數據挖掘中的KNN算法進行分類預測、數字預測及內容推薦。建模的過程需考慮將數據進行適當的轉換以獲得更優的分析結果。
4、進階數據挖掘技術
【熟知】
數據挖掘技術的功能分類
描述型數據挖掘/無監督數據挖掘關聯規則、序列模式、聚類分析)
預測型數據挖掘/有監督數據挖掘(分類、預測)
1、高級數據預處理
【領會】
數據過濾(理解如何通過數據過濾的方式,建立區隔化模型,以提升模型的預測效果)
內/外部數據的擴充方法
【熟知】
缺失值的高級填補技術,包括KNN填補、XGBoosting填補
高級數據轉換技術,包括數據泛化(Generalization)、數據趨勢離散化(Trend Discretization)
【應用】
運用高級數據預處理技術進行數據過濾,以建立區隔化模型
運用高級數據預處理技術進行缺失值的偵測及填補
運用高級數據預處理技術進行數據泛化的處理
運用高級數據預處理技術進行數據趨勢離散化的處理
評估上述不同的數據處理方法對模型效能的影響
2、特征工程概要
【領會】
特征工程的重要性
特征理解
特征改進(數據清洗特征的影響)
【熟知】
特征工程的涵蓋范圍
特征選擇的目的
特征建構的方法
特征轉換的方式
特征的自動學習
以AI促進AI
3、特征建構
【領會】
特征建構前的準備
特征的空值處理
特征的標準化
【熟知】
類別型特征的編碼
順序型特征的編碼
數值型特征的分箱
建構多項式特征
建構交互特征
特征的歸一化
【應用】
運用數據挖掘特征進行適當的建構,以作為下階段特征選擇的輸入
4、特征選擇
【熟知】
無效變量(不相關變量、多余變量)
統計為基礎的特征選擇(卡方檢驗、ANOVA檢驗及T檢驗)
模型為基礎的變量選擇(決策樹、邏輯回歸、隨機森林
高度相關特征的選擇
遞歸式的特征選擇
【應用】
運用數據挖掘進行關鍵特征的選擇。同時,評估不同的關鍵特征選擇方法對模型效能的影響。
5、特征轉換
【領會】
線性特征轉換-主成分分析(PCA
【熟知】
非線性的特征轉換-核主成分分析(Kernel PCA
類間可分性最大化的特征轉換-線性判別分析(LDA)
矩陣分解法的特征轉換-非負矩陣分解法(NMF)
對稀疏矩陣進行特征轉換-截斷奇異值分解法(TSVD
【應用】
運用數據挖掘進行特征的轉換。同時,評估不同的特征轉換方法對模型效能的影響。
6、特征學習
【熟知】
關聯規則為基礎的特征學習
神經網絡為基礎的特征學習
深度學習為基礎的特征學習
詞嵌入為基礎的文本特征學習
【應用】
運用數據挖掘進行自動的特征學習。同時,評估不同的特征學習方法對模型效能的影響。
1、自然語言處理概要
【領會】
BOSON的中文語意平臺
【熟知】
自然語言處理的研究范疇
分詞
詞根還原
詞性標注
同義詞標訂
概念標訂
角色標訂
【運用】
運用BOSON的中文語意平臺進行語言的處理
2、分詞與詞性標注
【領會】
詞性的種類及意義
【熟知】
N-Gram及詞
分詞及詞性標注的難點
法則式分詞法
統計式分詞法
詞性標注
【運用】
運用中文分詞及詞性標注技術對多篇文章進行分詞及詞性標注
3、文本挖掘概要
【領會】
信息檢索技術之全文掃描
信息檢索技術之簽名文件
信息檢索技術之逐項反轉
控制字匯
關鍵詞索引
【熟知】
文本挖掘的應用
信息檢索技術之向量空間模型
文本挖掘的處理流程
文本可視化
【應用】
將多篇文件及查詢轉為向量格式,并計算查詢與文件間的相似度。
運用文本可視化技術將文件內容以文字云的方式呈現。
4、關鍵詞提取
【熟知】
TF、DF及IDF
詞性
關鍵詞的提取方法
【應用】
對多篇文件及查詢中的詞,計算TF、DF、IDF及詞性并提取重要的關鍵詞。
5、文本非結構數據轉結構
【熟知】
詞袋模型
PCA
矩陣分解
詞嵌入模型Glove
詞嵌入模型Word2Vec(Skip-Gram & CBOW)
【應用】
對多篇文件進行詞嵌入模型的訓練及使用。
將結構化后的文件進行文本分類、情緒分析、文本聚類及文本摘要的應用。
1、樸素貝葉斯
【熟知】
樸素貝葉斯(獨立性假設、概率的正規化、拉普拉斯變換、空值的問題)
【應用】
運用數據挖掘軟件建立樸素貝葉斯模型,解讀模型結果,并評估模型效能。
2、決策樹(分類樹及回歸樹)
【領會】
PRISM決策規則算法
CHAID決策樹算法(CHAID的字段選擇方式)
【熟知】
ID3決策樹算法(ID3字段選擇方式、如何使用決策樹來進行分類預測、決策樹與決策規則間的關系、ID3算法的弊端)
C4.5決策樹算法,包括C4.5的字段選擇方式、C4.5的數值型字段處理方式、C4.5的空值處理方式、C4.5的剪枝方法(預剪枝法、悲觀剪枝法)
CART決策樹算法(分類樹與回歸樹、CART分類樹的字段選擇方式、CART分類樹的剪枝方法)
CART回歸樹算法(CART回歸樹的字段選擇方式、如何利用模型樹來提升CART回歸樹的效能)
【應用】
運用數據挖掘軟件建立分類樹模型,解讀模型結果,并評估模型效能。
運用數據挖掘軟件建立回歸樹模型,解讀模型結果,并評估模型效能。
3、神經網絡深度學習
【領會】
BP神經網絡概述(理解神經網絡的由來及發展歷程)
卷積神經網絡(Convolutional Neural Networks, CNN)(理解卷積神經網絡CNN的由來及發展歷程)
遞歸神經網絡(Recurrent Neural Networks, RNN)(理解遞歸神經網絡RNN的由來及發展歷程)
【熟知】
感知機(Perceptron)及感知機的極限
多層感知機(Multi-Layer Perceptron)
BP神經網絡的架構方式
神經元的組成:組合函數(Combination Function)與活化函數(Activation Function)
BP神經網絡如何傳遞信息
修正權重值及常數項
訓練模型前的數據準備(分類模型的數據準備、預測模型的數據準備)
BP神經網絡邏輯回歸、線性回歸及非線性回歸間的關系
【應用】
運用數據挖掘軟件建立BP神經網絡模型,解讀模型結果,并評估模型效能。
4、支持向量機
【領會】
支持向量機概述
線性可分
最佳的線性分割超平面
決策邊界
【熟知】
支持向量
線性支持向量機
非線性轉換
核函數(Polynomial Kernel、Gaussian Radial Basis Function、Sigmoid Kernel)
非線性支持向量機
支持向量機神經網絡間的關系
【應用】
運用數據挖掘軟件建立支持向量機模型,解讀模型結果,并評估模型效能。
5、集成方法
【領會】
集成方法概述
【熟知】
抽樣技術
訓練數據上的抽樣方法
輸入變量上的抽樣方法
袋裝法(隨機森林
提升法(Adaboost、xgboost、GBDT、LightGBM
【應用】
運用數據挖掘軟件建立組合方法模型,解讀模型結果,并評估模型效能。
6、聚類分析
【領會】
聚類的概念
【熟知】
相似性的衡量(二元變量的相似性衡量、混合類別型變量與數值型變量的相似性衡量)
樣本點間距離的計算(Manhattan Distance、City-Block Distance、Euclidean Distance)
聚類算法(Exclusive vs. Non-Exclusive (Overlapping)的聚類算法、分層聚類法、劃分聚類法)
分層聚類算法(單一鏈結法、完全鏈結法、平均鏈結法、中心法、Ward’s 法)
劃分聚類算法(K-Means法、EM法、K-Medoids法、神經網絡SOM法、兩步法)
密度聚類算法(DBSCAN)
群數的判斷(R-Squared (R2)、Semi-PARTial R-Squared、Root-Mean-Square Standard Deviation (RMSSTD)、輪廓系數(Silhouette Coefficient) )
【應用】
運用數據挖掘軟件建立聚類模型,解讀模型結果,并提供營銷建議。
7、關聯規則
【領會】
關聯規則的概念
【熟知】
關聯規則的評估指標(支持度、置信度、提升度)
Apriori算法(暴力法的弊端、Apriori算法的理論基礎、候選項目組合的產生、候選項目組合的刪除)
支持度與置信度的問題(提升度指標)
關聯規則的生成
關聯規則的延伸(虛擬商品的加入、負向關聯規則、相依性網絡)
【應用】
運用數據挖掘軟件建立關聯規則模型,解讀模型結果,并提供營銷建議。
8、序列模式
【領會】
序列模式的概念
【熟知】
序列模式的評估指標(支持度、置信度)
AprioriAll算法(暴力法的問題、AprioriAll算法的理論基礎、候選項目組合的產生、候選項目組合的刪除)
序列模式的延伸(狀態移轉網絡)
【應用】
運用數據挖掘軟件建立序列模式模型,解讀模型結果,并提供營銷建議。
9、模型評估
【熟知】
混淆矩陣(正確率(Accuracy)、查準率(Precision)、查全率(Recall)、F-指標(F-Measure))
KS圖(KS Chart)
ROC圖(ROC Chart)
GINI圖(GINI Chart)
回應圖(Response Chart)
增益圖(Gain Chart)
提升圖(Lift Chart)
收益圖(Profit Chart)
平均平方誤差(Average Squared Error)
【應用】
運用數據挖掘軟件比較不同模型間的優劣
1、自動機器學習
【領會】
自動機器學習的基本概念
自動機器學習平臺
【熟知】
自動數據預處理的方法
自動機器學習的模型建置方法
自動模型的評估方法
【應用】
運用自動機器學習技術,快速建立模型,解讀模型結果,并評估模型效能。
2、類別不平衡問題
【領會】
不平衡數據定義
不平衡數據場景
傳統學習方法在不平衡數據中的局限性
類別不平衡所造成的問題
【熟知】
類別不平衡問題的檢測方法
過采樣技術(Over-sampling)
欠采樣技術(Under-sampling)
模型懲罰技術
【應用】
能運用類別不平衡的處理技術,提升模型的效能
3、半監督學習
【領會】
監督學習、無監督學習半監督學習間的關系
【熟知】
半監督學習的基本思路
半監督學習的基本假設
半監督分類
半監督回歸
半監督聚類
半監督降維
掌握基于SVM半監督學習算法
基于核方法的半監督學習算法
EM半監督學習算法
【應用】
能運用半監督學習,降低開發決策模型的成本
4、模型優化
【領會】
模型參數優化的目的
建模門檻值優化的目的
【熟知】
模型參數優化的方法
建模門檻值優化的方法
【應用】
運用模型參數優化建立更精準的數據挖掘模型
運用建模門檻值優化建立更精準的數據挖掘模型

六、推薦學習書目

說明:推薦學習書目中,部分書籍結合軟件,考試中客觀選擇題部分不考查軟件操作使用,案例實操部分需要考生運用相關軟件進行建模分析,考生可根據自身需求選擇性學習。參考書目不需全部學完,根據考綱知識點進行針對性學習即可。

[1] Jiawei Han, Micheline Kamber, Jian Pei.數據挖掘:概念與技術(原書第3版)[M].范明,孟小峰 譯,機械工業出版社,2012.(必讀)
[2] 周志華.機器學習[M].清華大學出版社,2016.(必讀)
[3] Chris Albon. Python機器學習手冊:從數據預處理深度學習.電子工業出版社,2019.(必讀)
[4] 李博.機器學習實踐應用.人民郵電出版社,2017.(必讀)
[5] 愛麗絲·鄭,阿曼達·卡薩麗.精通特征工程.人民郵電出版社,2019.(必讀)
[6] 迪潘揚·薩卡爾(Dipanjan Sarkar).Python文本分析[M].機械工業出版社,2018.(必讀)
[7] 經管之家.SPSS Modeler+Weka數據挖掘從入門到實戰,電子工業出版社,2019.(選讀)
[8] Pang-Ning Tan, Michael Steinbach, Vipin Kumar.數據挖掘導論(原書第2版)[M].段磊,張天慶 譯,機械工業出版社,2019.(選讀)
[9] 趙衛東,董亮. Python機器學習實戰案例. 清華大學出版社,2019.(選讀)
[10] 約阿夫·戈爾德貝格.基于深度學習自然語言處理[M].機械工業出版社,2018.(選讀)
[11] 魯偉.深度學習筆記.北京大學出版社,2020.(選讀)
[12] 數據挖掘網站:KDnuggets (https://www.kdnuggets.com/)(拓展學習)
[13] 數據挖掘網站:Kaggle (https://www.kaggle.com/)(拓展學習)


登錄后下載大綱PDF

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢