熱線電話:13121318867

登錄
首頁大數據時代大數據分析師證書怎么考
大數據分析師證書怎么考
2024-10-16
收藏

大數據分析師證書考什么

針對不同知識,掌握程度的要求分為【領會】、【熟知】、【應用】三個級別,考生應按照不同知識要求進行學習。

  • 1.領會:考生能夠領會了解規定的知識點,并能夠了解規定知識點的內涵與外延,了 解其內容要點和它們之間的區別與聯系,并能做出正確的闡述、解釋和說明。

  • 2.熟知:考生須掌握知識的要點,并能夠正確理解和記憶相關理論方法,能夠根據不 同要求,做出邏輯嚴密的解釋、說明和闡述。此部分為考試的重點部分。

  • 3.應用:考生須學會將知識點落地實踐,并能夠結合相關工具進行商業應用,能夠根 據具體要求,給出問題的具體實施流程和策略。

考試范圍

PART 1 大數據基礎理論 占比(8% ) ?

  • a. 大數據分析基礎(1%)

  • b. Python 基礎(5%)

  • c. Linux & Ubuntu 操作系統基礎(2%)

PART 2 Hadoop 理論 占比(12% )

  • a. Hadoop 安裝配置及運行機制解析(2%)

  • b. HDFS 分布式文件系統(2%)

  • c. MapReduce 理論及實戰(2%)

  • d. Hadoop 生態其他常用組件(6%)

PART 3 大數據分析之數據庫理論及工具 占比(16% )

  • a. 數據庫導論(2%)

  • b. MySQL 理論及實戰(3%)

  • c. HBase 安裝及使用(3%)

  • d. Hive 安裝及使用(5%)

  • e. Sqoop 安裝及使用(3%)

PART 4 大數據分析數據挖掘理論基礎 占比(10% )

PART 5 大數據分析之 Spark 工具及實戰 占比(35% )

  • a. Spark 基礎理論(2%)

  • b. Spark RDD 基本概念及常用操作(3%)

  • c. Spark 流式計算框架 Spark Streaming、Structured Streaming(5%)

  • d. Spark 交互式數據查詢框架 Spark SQL(5%)

  • e. Spark 機器學習算法庫 Spark MLlib 基本使用方法(15%)

  • f. Spark 圖計算框架 GraphX(5%)

PART 6 大數據分析數據可視化方法 占比(4% )

PART 7 大數據分析實戰 占比(15% )

考試內容

PART 1 大數據基礎理論

1、大數據分析基礎

【領會】 大數據技術誕生技術背景 大數據技術實際應用 分布式處理技術概念

數據分析和數據挖掘的概念 【熟知】 明確數據分析的目標和意義 明確分布式技術在進行海量數據處理時起到的關鍵作用 數據分析方法與數據挖掘方法的區別和聯系 明確數據分析流程中不同軟件工具的作用 常用描述性統計方法 常用數據挖掘方法

2、Python 基礎

【領會】 Python 語言的特點、語法、應用場景

  • 【熟知】
  • Python 基礎語法,包括基本數據類型、運算符、條件控制語句、循環語句等;
  • Python 函數式編程,常用高階函數,包括 map 函數、reduce 函數、filter 函數及模塊相關功能
  • Python 面向對象編程特性,包括類和實例、繼承、多態
  • 利用 Python 鏈接數據庫
  • Python 可視化常用包及其基本使用方法
3、Linux 與 Ubuntu 基礎
  • 【領會】
  • Linux 入門
  • Linux 與 Ubuntu 的關系
  • Ubuntu 的安裝及配置
  • Ubuntu 文件組織形式
  • Ubuntu 操作系統的常用命令
  • SSH 理論基礎
  • 了解其他常用 Linux 系統,如 CentOS,RedHat,SUSE 等
  • 【熟知】
  • Ubuntu 操作系統命令及使用命令編輯文件
  • IP 地址的基礎理論
  • SSH 命令使用方法
  • 利用 SSH 基于密匙的安全驗證進行多個節點間的無密碼登陸
  • 【應用】
  • 安裝配置 Linux 操作系統
  • 利用 SSH 基于密匙的安全驗證進行多個節點間的無密碼登陸
  • 掌握部分 shell 命令進行 Linux 操作,如 awk、grep、sed 典型的文本處理工具
PART 2 Hadoop 理論
1、Hadoop 安裝配置及運行機制解析
2、HDFS 分布式文件系統
  • 【領會】
  • HDFS 的概念及設計
  • HDFS 體系結構及運行機制,
  • NameNode、DataNode、SecondaryNameNode 的作用及運行機制
  • HDFS 的備份機制和文件管理機制
  • 【熟知】
  • HDFS 的運行機制
  • NameNode、DataNode、SecondaryNameNode 的配置文件
  • HDFS 文件系統的常用命令
  • 【應用】
  • 使用命令及 Java 語句操作 HDFS 中的文件 使用 JPS 查看 NameNode、DataNode、SecondaryNameNode 的運行狀態
3、MapReduce 理論及實戰
  • 【領會】
  • MapReduce 的概念及設計
  • MapReduce 運行過程中類的調用過程
  • Mapper 類和 Reducer 類的繼承機制
  • job 的生命周期
  • MapReduce 中 block 的調度及作業分配機制
  • 【熟知】
  • MapReduce 程序編寫的主要內容
  • MapReduce 程序提交的執行過程
  • MapReduce 程序在瀏覽器的查看
  • 【應用】
  • Mapper 類和 Reducer 類的主要編寫內容和模式
  • job 的實現和編寫
  • 編寫基于 MapReduce 模型的 wordcount 程序
  • 相應 jar 包的打包和集群運行
4、Hadoop 生態其他常用組件
  • 【領會】
  • HBase 基本功能、Hive 基本功能、Sqoop 基本功能、ZooKeeper 的基本功能、Flink 基本功能
  • 【熟知】
  • HBase 的安裝配置及常用命令、Hive 的安裝配置及常用命令、Sqoop 的安裝配置及常用 命令、ZooKeeper 的安裝配置及常用命令、Flink 安裝配置及常用命令
  • 【應用】
  • HBase、Hive、Sqoop、Flink 及 ZooKeeper 的安裝與運行
PART 3 大數據分析之數據庫理論及工具
1、數據庫導論
  • 【領會】
  • 數據、數據庫、數據庫管理系統、數據庫系統、數據倉庫的概念
  • 數據管理發展的三個階段,不同階段數據管理的特點,特別是數據庫系統的特點
  • 數據依賴及數據規范化理論、數據模型理論及方法
  • 【熟知】
  • SQL 的基本概念和特點
  • SQL 的數據定義功能
  • SQL 的數據查詢功能
  • CRUD 操作
  • SQL 的數據更新功能
  • 不同 NoSQL 數據庫的特點及使用場合
2、MySQL 理論及實戰
  • 【領會】
  • 數據庫、表、索引和視圖的相關概念
  • 數據庫完整性約束的概念、定義及使用方法
  • 數據庫、表、索引和視圖的維護方法
  • 【熟知】
  • MySQL 中 SELECT 命令的基本格式
  • 掌握單表查詢的方法和技巧
  • 掌握多表連接查詢的方法和技巧
  • 掌握嵌套查詢、集合查詢的方法和技巧
  • 【應用】
  • MySQL 平臺下的 SQL 交互操作
3、Hive 數據倉庫基礎
4、Hive 的基本命令
  • 【領會】

  • Hive 中的數據庫概念、修改數據庫

  • 【熟知】

  • 創建表、管理表、外部表、分區表、刪除表

  • 【應用】

  • 向表中增加數據

  • 通過查詢語句向表中插入數據

  • 單個查詢語句中創建表并加載數據

  • 導出數據

5、Hive 中檢索數據
  • 【領會】

  • Hive 中的命令語句是類 SQL 語句

  • 【熟知】

  • SELECT…FROM 語句

  • 【應用】

  • 使用列值進行計算、算術運算符、使用函數、列別名、嵌套 SELECT 語句、WHERE 語句、group by 語句、集合運算、多表連接、內連接、外連接、笛卡爾積連接、order by 語句、 抽樣查詢、視圖。

6、Sqoop 基礎
7、HBase 理論及實戰
  • 【領會】
  • HBase 的基礎概念、數據模型、存儲模型
  • HBase 集群配置參數分析
  • HBase 集群查看方式
  • 【熟知】
  • HBase shell 常用的操作命令
  • HBase 的參數配置
  • HBase 的每個數據單元的操作方式
  • 區域服務器(Region Server)和主服務器(Master Server)的管理模式
  • HBase 的存儲模式
  • 【應用】
  • HBase 的偽分布和集群的安裝及配置
  • HBase 的 API 操作項目實戰
PART 4 大數據分析數據挖掘理論基礎
1、數據挖掘的基本思想
2、數據挖掘基礎知識
  • 【熟知】
  • 數據、算法基本概念
  • 算法基本分類方法
  • 監督學習算法中的訓練樣本、測試樣本、特征變量、目標變量(標簽)等常用術語的相關定義
3、有監督學習算法
4、無監督學習算法
PART 5 大數據分析之 Spark 工具及實戰
1、Spark 基礎理論
  • 【領會】
  • Spark 大數據生態系統的功能與結構
  • Spark、Hadoop 之間的區別與聯系
  • Spark 大數據生態系統的特點
  • Scala 基本語法
  • 【熟知】
  • Spark 生態系統中的四大核心組件
  • Spark 與 MapReduce 的對比與分析
  • Spark 與 MapReduce 適用的應用場景
  • Spark 的多種運行模式
  • 【應用】
  • 熟練掌握 Standalone 模式下 Spark 集群的搭建步驟
  • 配置文件中參數的具體含義
2、Spark RDD 基本概念與常用操作
  • 【領會】
  • Spark RDD 基本概念
  • Spark API
  • Spark 任務調度策略
  • 【熟知】
  • Spark RDD 的特性
  • RDD 上的轉換操作、執行操作、持久化操作
  • RDD 之間的寬依賴關系與窄依賴關系 【應用】
  • 基于 Spark API 編寫詞頻統計程序,并在詞頻統計程序基礎上進行功能擴展,SparkContext、TaskScheduler、DAGScheduler 等核心代碼的分析與調試。
3、Spark 流式計算框架 Spark Str eaming、Structur ed Str eaming
  • 【領會】
  • Kafka 分布式消息分發機制
  • Spark Streaming 應用場景
  • Spark Streaming 基本概念
  • Spark DStream 的存儲級別
  • Structured Streaming 計算框架
  • 【熟知】
  • 批處理間隔、離散數據流 Spark DStream、窗口、滑動間隔、窗口間隔等重要概念
  • 熟練使用 Spark DStream 的相關操作
  • Spark Streaming 的三種應用模式,以及實現三種模式的相關操作
  • 【應用】
  • 搭建 Kafka 環境,能夠將 Kafka 作為高級數據源時使用 Spark Streaming,基于 HDFS 上 文本數據創建 Spark DStream,并利用相關操作進行數據分析,基于網絡中實時數據創建 Spark DStream,并結合窗口等概念和相關操作進行數據分析,基于無狀態模式處理 HDFS 上的文本數據,基于 stateful 與 window 模式處理網絡實時數據。
4、Spark 交互式數據查詢框架 Spark SQL

【領會】

  • Spark SQL 的發展歷程
  • Spark SQL 的性能
  • Spark SQL、Hive、Shark 之間的聯系
  • Spark SQL 的應用場景
  • hive/console 的安裝過程與基本原理
  • 【熟知】
  • 基于 Hadoop 搭建 Spark SQL 的測試環境
  • 掌握 LogicalPlan、SqlParser、Analyzer、Optimizer 等組件
  • SchemaRDD 的基本概念與相關操作
  • 不同數據源的運行計劃
  • 不同查詢的運行計劃
  • 查詢優化策略
  • 【應用】
  • HiveContext 與 SQLContext 的基礎應用,利用 Spark SQL 對 JSON 文件、Parquet 文- 件以 及 Hive 上的數據進行交互式查詢。
5、Spark 機器學習算法庫 Spark MLlib 基本使用方法
  • 【領會】
  • Spark MLlib 的基本框架與原理
  • Spark MLlib 中 ML 庫與 MLlib 庫區別
  • 【熟知】
  • Spark MLlib 中矩陣向量運算方法
  • Spark MLlib 中常用統計計算方法
  • 【應用】
  • 能夠利用 ML Pipelines 構建機器學習
  • 能夠利用 TF-IDF、Word2Vec、CountVectorizer 等進行特征抽取、轉化和選擇
  • 能夠利用 ML 進行機器學習模型建模,至少掌握以下常用模型建模方法,包括決策樹、 邏輯回歸、KMeans 聚類、GMM 高斯混合模型聚類、協同過濾、隨機森林、SVM 等模型
  • 能夠利用 CrossValidator(交叉驗證)和 TrainValidationSplit(訓練驗證分割)進行模型評估與參數調優
6、Spark 圖計算框架 Gr apX
  • 【領會】
  • Spark GraphX 簡介
  • Spark GraphX、GraphLab、Pregel 的聯系與區別
  • Spark GraphX 中表視圖與圖視圖的兩種數據的轉換
  • 圖論基本概念
  • 【熟知】
  • Spark GraphX 中數據的主要表示形式
  • 圖的存儲模型
  • Spark GraphX 提供的切分策略
  • 圖的構建操作
  • 圖的屬性操作
  • 圖的結構操作
  • 【應用】
  • Spark GraphX 源碼分析與調試
  • 基于 Pregel 的 API 實現圖的 PageRank 和最短路徑算法
PART 6 大數據分析數據可視化方法?
1、數據可視化入門基礎
2、Python 數據可視化
  • 【領會】
  • Python 可視化發展近況及其優勢
  • 【熟知】
  • Python 數據可視化常用包的安裝與更新,包括 Matplotlib、Seaborn 等
  • 利用 Matplotlib、Seaborne 繪制常用可視化圖形
3、Python 高級可視化方法
  • 【領會】
  • Echarts 基本情況與主要應用背景
  • 【熟知】
  • echarts/' style='color:#000;font-size:inherit;'>Pyecharts 的安裝與更新
  • 利用 echarts/' style='color:#000;font-size:inherit;'>Pyecharts 繪制常見可視化圖形
PART 6 大數據分析實戰
1、利用 HDFS Shell 操作 HDFS 文件系統
  • 【熟知】
  • HDFS 常用命令,包括創建文件目錄命令、文件傳輸命令、文件修改及刪除命令等
2、利用 Hive SQL 進行數據清洗
3、利用 Sqoop 進行數據傳輸
  • 【熟知】
  • 能夠靈活使用 Sqoop shell 命令進行文件在 Hadoop 中與 MySQL 數據庫中的轉化操作, 以達到文件傳輸要求
4、利用 Spark SQL 進行數據讀取
5、Spark MLlib 進行機器學習建模
  • 【熟知】
  • 能夠根據分析要求,靈活調用 MLlib 中的相關算法進行分析,并能進一步構建機器學習 流,能夠利用調參工具對模型進行調優,能夠利用模型評估指標最終建模結果進行評估。
6、利用 Python 進行建模結果數據可視化
  • 最終建模完成后,結合實際業務場景和演示需求,將建模結果導入本地,并利用 Pyhton 工具,合理選擇對應第三方庫,對建模結果進行數據可視化演示。

這里分享一個你一定用得到的小程序——CDA數據分析師考試小程序。 它是專為CDA數據分析認證考試報考打造的一款小程序??梢詭湍憧焖賵竺荚?、查成績、查證書、查積分,通過該小程序,考生可以享受更便捷的服務。 掃碼加入CDA小程序,與圈內考生一同學習、交流、進步!

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢