CDA LEVEL Ⅲ考試大綱

農(nóng)夫的凳子 2021-04-19

展開全文

一、總則

CDA（Certified Data Analyst），即“CDA數(shù)據(jù)分析師”，是在數(shù)字經(jīng)濟(jì)大背景和人工智能時代趨勢下，面向全行業(yè)的專業(yè)權(quán)威國際資格認(rèn)證，旨在提升全球用戶數(shù)字技能，助力企業(yè)數(shù)字化轉(zhuǎn)型，推動行業(yè)數(shù)字化發(fā)展?！窩DA人才考核標(biāo)準(zhǔn)」是面向全行業(yè)數(shù)據(jù)相關(guān)崗位的一套科學(xué)化、專業(yè)化、國際化的人才技能準(zhǔn)則，CDA考試大綱規(guī)定并明確了數(shù)據(jù)分析師認(rèn)證考試的具體范圍、內(nèi)容和知識點，考生可按照大綱要求進(jìn)行相關(guān)知識的學(xué)習(xí)，獲取技能，成為專業(yè)人才。

二、考試形式與試卷結(jié)構(gòu)

考試方式：一年四屆（3、6、9、12月的最后一個周六），線下統(tǒng)考，上機(jī)答題。

考試題型：客觀選擇題（單選60題+多選30題+內(nèi)容相關(guān)10題）

案例實操題（1題）

考試時間：90分鐘（客觀選擇題），120分鐘（案例實操題），共210分鐘

考試成績：分為A、B、C、D四個層次，A、B、C為通過考試，D為不通過

考試要求：客觀選擇題為閉卷上機(jī)答題，無需攜帶計算器及其他考試無關(guān)用品。

　　　　　案例實操題考生須自行攜帶電腦操作（安裝好帶有數(shù)據(jù)挖掘功能的軟件如：PYTHON、SQL、SPSS
　　　　　　　MODELER、R、SAS、WEKA等，進(jìn)行案例操作分析。案例數(shù)據(jù)將統(tǒng)一提供CSV文件）。

三、知識要求

針對不同知識，掌握程度的要求分為【領(lǐng)會】、【熟知】、【應(yīng)用】三個級別，考生應(yīng)按照不同知識要求進(jìn)行學(xué)習(xí)。

1．領(lǐng)會：考生能夠了解規(guī)定的知識點，并能夠了解規(guī)定知識點的內(nèi)涵與外延，了解其內(nèi)容要點之間的區(qū)別與聯(lián)系，并能做出正確的闡述、解釋和說明。

2．熟知：考生須掌握知識的要點，并能夠正確理解和記憶相關(guān)理論方法，能夠根據(jù)不同要求，做出邏輯嚴(yán)密的解釋、說明和闡述。此部分為考試的重點部分。

3．應(yīng)用：考生須學(xué)會將知識點落地實踐，并能夠結(jié)合相關(guān)工具進(jìn)行商業(yè)應(yīng)用，能夠根據(jù)具體要求，給出問題的具體實施流程和策略。

四、考試科目

PART 1 數(shù)據(jù)挖掘概論（占比15%）

a.數(shù)據(jù)挖掘概要（3%）

b.數(shù)據(jù)挖掘方法論（3%）

c.基礎(chǔ)數(shù)據(jù)挖掘技術(shù)（4%）

d.進(jìn)階數(shù)據(jù)挖掘技術(shù)（5%）

PART 2 高級數(shù)據(jù)處理與特征工程（占比25%）

a.高級數(shù)據(jù)處理（5%）

b.特征工程概要（2%）

c.特征建構(gòu)（3%）

d.特征選擇（5%）

e.特征轉(zhuǎn)換（5%）

f.特征學(xué)習(xí)（5%）

PART 3 自然語言處理與文本分析（占比20%）

a.自然語言處理概要（占比2%）

b.分詞與詞性標(biāo)注（占比4%）

c.文本挖掘概要（占比2%）

d.關(guān)鍵詞提?。ㄕ急?%）

e.文本非結(jié)構(gòu)數(shù)據(jù)轉(zhuǎn)結(jié)構(gòu)（占比8%）

PART 4 機(jī)器學(xué)習(xí)算法（占比40%）

a.樸素貝葉斯（4%）

b.決策樹（分類樹及回歸樹）（5%）

c.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)（5%）

d.支持向量機(jī)（4%）

e.集成方法（5%）

f.聚類分析（5%）

g.關(guān)聯(lián)規(guī)則（4%）

h.序列模式（3%）

i.模型評估（5%）

PART 5 機(jī)器學(xué)習(xí)實戰(zhàn)

（本部分內(nèi)容考查方式為案例實操，不計入客觀選擇題占比。）

a.自動機(jī)器學(xué)習(xí)

b.類別不平衡問題

c.半監(jiān)督學(xué)習(xí)

d.模型優(yōu)化

五、科目內(nèi)容

PART 1 數(shù)據(jù)挖掘概論

1、數(shù)據(jù)挖掘概要

【領(lǐng)會】

數(shù)據(jù)挖掘在政府部門及互聯(lián)網(wǎng)、金融、零售、醫(yī)藥等行業(yè)的應(yīng)用

【熟知】

數(shù)據(jù)挖掘的起源、定義及目標(biāo)
數(shù)據(jù)挖掘的發(fā)展歷程

【應(yīng)用】

根據(jù)給定的數(shù)據(jù)建立一個數(shù)據(jù)挖掘的項目

2、數(shù)據(jù)挖掘方法論

【熟知】

數(shù)據(jù)挖掘步驟（字段選擇、數(shù)據(jù)清洗、字段擴(kuò)充、數(shù)據(jù)編碼、數(shù)據(jù)挖掘、結(jié)果呈現(xiàn)）
數(shù)據(jù)挖掘技術(shù)的產(chǎn)業(yè)標(biāo)準(zhǔn)（CRISP-DM及SEMMA）

【應(yīng)用】

運(yùn)用數(shù)據(jù)挖掘進(jìn)行不同文件格式的數(shù)據(jù)導(dǎo)入，并進(jìn)行初步的數(shù)據(jù)探索，探索的內(nèi)容包含數(shù)值型字段的描述性統(tǒng)計分析、直方圖（需與目標(biāo)字段做連接）、缺失值分析及類別型字段的描述性統(tǒng)計分析、條形圖（需與目標(biāo)字段做連接、缺失值分析。數(shù)據(jù)探索的結(jié)果可進(jìn)行初步的字段篩選。

3、基礎(chǔ)數(shù)據(jù)挖掘技術(shù)

【領(lǐng)會】

可視化技術(shù)（能使用相關(guān)工具根據(jù)業(yè)務(wù)問題做出可視化數(shù)據(jù)報告）

【熟知】

案例為本的學(xué)習(xí)(Case-based Learning)：KNN(K-Nearest Neighbor)原理
數(shù)據(jù)的準(zhǔn)備
樣本點間距離的計算(Manhattan Distance、City-Block Distance、Euclidean Distance)

【應(yīng)用】

運(yùn)用數(shù)據(jù)挖掘中的KNN算法進(jìn)行分類預(yù)測、數(shù)字預(yù)測及內(nèi)容推薦。建模的過程需考慮將數(shù)據(jù)進(jìn)行適當(dāng)?shù)霓D(zhuǎn)換以獲得更優(yōu)的分析結(jié)果。

4、進(jìn)階數(shù)據(jù)挖掘技術(shù)

【熟知】

數(shù)據(jù)挖掘技術(shù)的功能分類
描述型數(shù)據(jù)挖掘/無監(jiān)督數(shù)據(jù)挖掘（關(guān)聯(lián)規(guī)則、序列模式、聚類分析）
預(yù)測型數(shù)據(jù)挖掘/有監(jiān)督數(shù)據(jù)挖掘（分類、預(yù)測）

PART 2 高級數(shù)據(jù)處理與特征工程

1、高級數(shù)據(jù)預(yù)處理

【領(lǐng)會】

數(shù)據(jù)過濾（理解如何通過數(shù)據(jù)過濾的方式，建立區(qū)隔化模型，以提升模型的預(yù)測效果）
內(nèi)/外部數(shù)據(jù)的擴(kuò)充方法

【熟知】

缺失值的高級填補(bǔ)技術(shù)，包括KNN填補(bǔ)、XGBoosting填補(bǔ)
高級數(shù)據(jù)轉(zhuǎn)換技術(shù)，包括數(shù)據(jù)泛化(Generalization)、數(shù)據(jù)趨勢離散化(Trend Discretization)

【應(yīng)用】

運(yùn)用高級數(shù)據(jù)預(yù)處理技術(shù)進(jìn)行數(shù)據(jù)過濾，以建立區(qū)隔化模型
運(yùn)用高級數(shù)據(jù)預(yù)處理技術(shù)進(jìn)行缺失值的偵測及填補(bǔ)
運(yùn)用高級數(shù)據(jù)預(yù)處理技術(shù)進(jìn)行數(shù)據(jù)泛化的處理
運(yùn)用高級數(shù)據(jù)預(yù)處理技術(shù)進(jìn)行數(shù)據(jù)趨勢離散化的處理
評估上述不同的數(shù)據(jù)處理方法對模型效能的影響

2、特征工程概要

【領(lǐng)會】

特征工程的重要性
特征理解
特征改進(jìn)（數(shù)據(jù)清洗對特征的影響）

【熟知】

特征工程的涵蓋范圍
特征選擇的目的
特征建構(gòu)的方法
特征轉(zhuǎn)換的方式
特征的自動學(xué)習(xí)
以AI促進(jìn)AI

3、特征建構(gòu)

【領(lǐng)會】

特征建構(gòu)前的準(zhǔn)備
特征的空值處理
特征的標(biāo)準(zhǔn)化

【熟知】

類別型特征的編碼
順序型特征的編碼
數(shù)值型特征的分箱
建構(gòu)多項式特征
建構(gòu)交互特征
特征的歸一化

【應(yīng)用】

運(yùn)用數(shù)據(jù)挖掘?qū)μ卣鬟M(jìn)行適當(dāng)?shù)慕?gòu)，以作為下階段特征選擇的輸入

4、特征選擇

【熟知】

無效變量（不相關(guān)變量、多余變量）
統(tǒng)計為基礎(chǔ)的特征選擇（卡方檢驗、ANOVA檢驗及T檢驗）
模型為基礎(chǔ)的變量選擇（決策樹、邏輯回歸、隨機(jī)森林）
高度相關(guān)特征的選擇
遞歸式的特征選擇

【應(yīng)用】

運(yùn)用數(shù)據(jù)挖掘進(jìn)行關(guān)鍵特征的選擇。同時，評估不同的關(guān)鍵特征選擇方法對模型效能的影響。

5、特征轉(zhuǎn)換

【領(lǐng)會】

線性特征轉(zhuǎn)換-主成分分析（PCA）

【熟知】

非線性的特征轉(zhuǎn)換-核主成分分析（Kernel PCA）
類間可分性最大化的特征轉(zhuǎn)換-線性判別分析（LDA）
矩陣分解法的特征轉(zhuǎn)換-非負(fù)矩陣分解法（NMF）
對稀疏矩陣進(jìn)行特征轉(zhuǎn)換-截斷奇異值分解法（TSVD）

【應(yīng)用】

運(yùn)用數(shù)據(jù)挖掘進(jìn)行特征的轉(zhuǎn)換。同時，評估不同的特征轉(zhuǎn)換方法對模型效能的影響。

6、特征學(xué)習(xí)

【熟知】

關(guān)聯(lián)規(guī)則為基礎(chǔ)的特征學(xué)習(xí)
神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的特征學(xué)習(xí)
深度學(xué)習(xí)為基礎(chǔ)的特征學(xué)習(xí)
詞嵌入為基礎(chǔ)的文本特征學(xué)習(xí)

【應(yīng)用】

運(yùn)用數(shù)據(jù)挖掘進(jìn)行自動的特征學(xué)習(xí)。同時，評估不同的特征學(xué)習(xí)方法對模型效能的影響。

PART 3 自然語言處理與文本分析

1、自然語言處理概要

【領(lǐng)會】

BOSON的中文語意平臺

【熟知】

自然語言處理的研究范疇
分詞
詞根還原
詞性標(biāo)注
同義詞標(biāo)訂
概念標(biāo)訂
角色標(biāo)訂

【運(yùn)用】

運(yùn)用BOSON的中文語意平臺進(jìn)行語言的處理

2、分詞與詞性標(biāo)注

【領(lǐng)會】

詞性的種類及意義

【熟知】

N-Gram及詞
分詞及詞性標(biāo)注的難點
法則式分詞法
統(tǒng)計式分詞法
詞性標(biāo)注

【運(yùn)用】

運(yùn)用中文分詞及詞性標(biāo)注技術(shù)對多篇文章進(jìn)行分詞及詞性標(biāo)注

3、文本挖掘概要

【領(lǐng)會】

信息檢索技術(shù)之全文掃描
信息檢索技術(shù)之簽名文件
信息檢索技術(shù)之逐項反轉(zhuǎn)
控制字匯
關(guān)鍵詞索引

【熟知】

文本挖掘的應(yīng)用
信息檢索技術(shù)之向量空間模型
文本挖掘的處理流程
文本可視化

【應(yīng)用】

將多篇文件及查詢轉(zhuǎn)為向量格式，并計算查詢與文件間的相似度。
運(yùn)用文本可視化技術(shù)將文件內(nèi)容以文字云的方式呈現(xiàn)。

4、關(guān)鍵詞提取

【熟知】

TF、DF及IDF
詞性
關(guān)鍵詞的提取方法

【應(yīng)用】

對多篇文件及查詢中的詞，計算TF、DF、IDF及詞性并提取重要的關(guān)鍵詞。

5、文本非結(jié)構(gòu)數(shù)據(jù)轉(zhuǎn)結(jié)構(gòu)

【熟知】

詞袋模型
PCA
矩陣分解
詞嵌入模型Glove
詞嵌入模型Word2Vec（Skip-Gram & CBOW）

【應(yīng)用】

對多篇文件進(jìn)行詞嵌入模型的訓(xùn)練及使用。
將結(jié)構(gòu)化后的文件進(jìn)行文本分類、情緒分析、文本聚類及文本摘要的應(yīng)用。

PART 4 機(jī)器學(xué)習(xí)算法

1、樸素貝葉斯

【熟知】

樸素貝葉斯（獨立性假設(shè)、概率的正規(guī)化、拉普拉斯變換、空值的問題）

【應(yīng)用】

運(yùn)用數(shù)據(jù)挖掘軟件建立樸素貝葉斯模型，解讀模型結(jié)果，并評估模型效能。

2、決策樹（分類樹及回歸樹）

【領(lǐng)會】

PRISM決策規(guī)則算法
CHAID決策樹算法（CHAID的字段選擇方式）

【熟知】

ID3決策樹算法（ID3的字段選擇方式、如何使用決策樹來進(jìn)行分類預(yù)測、決策樹與決策規(guī)則間的關(guān)系、ID3算法的弊端）
C4.5決策樹算法，包括C4.5的字段選擇方式、C4.5的數(shù)值型字段處理方式、C4.5的空值處理方式、C4.5的剪枝方法（預(yù)剪枝法、悲觀剪枝法）
CART決策樹算法（分類樹與回歸樹、CART分類樹的字段選擇方式、CART分類樹的剪枝方法）
CART回歸樹算法（CART回歸樹的字段選擇方式、如何利用模型樹來提升CART回歸樹的效能）

【應(yīng)用】

運(yùn)用數(shù)據(jù)挖掘軟件建立分類樹模型，解讀模型結(jié)果，并評估模型效能。
運(yùn)用數(shù)據(jù)挖掘軟件建立回歸樹模型，解讀模型結(jié)果，并評估模型效能。

3、神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

【領(lǐng)會】

BP神經(jīng)網(wǎng)絡(luò)概述（理解神經(jīng)網(wǎng)絡(luò)的由來及發(fā)展歷程）
卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks, CNN）（理解卷積神經(jīng)網(wǎng)絡(luò)CNN的由來及發(fā)展歷程）
遞歸神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Networks, RNN）（理解遞歸神經(jīng)網(wǎng)絡(luò)RNN的由來及發(fā)展歷程）

【熟知】

感知機(jī)（Perceptron）及感知機(jī)的極限
多層感知機(jī)（Multi-Layer Perceptron）
BP神經(jīng)網(wǎng)絡(luò)的架構(gòu)方式
神經(jīng)元的組成：組合函數(shù)（Combination Function）與活化函數(shù)（Activation Function）
BP神經(jīng)網(wǎng)絡(luò)如何傳遞信息
修正權(quán)重值及常數(shù)項
訓(xùn)練模型前的數(shù)據(jù)準(zhǔn)備（分類模型的數(shù)據(jù)準(zhǔn)備、預(yù)測模型的數(shù)據(jù)準(zhǔn)備）
BP神經(jīng)網(wǎng)絡(luò)與邏輯回歸、線性回歸及非線性回歸間的關(guān)系

【應(yīng)用】

運(yùn)用數(shù)據(jù)挖掘軟件建立BP神經(jīng)網(wǎng)絡(luò)模型，解讀模型結(jié)果，并評估模型效能。

4、支持向量機(jī)

【領(lǐng)會】

支持向量機(jī)概述
線性可分
最佳的線性分割超平面
決策邊界

【熟知】

支持向量
線性支持向量機(jī)
非線性轉(zhuǎn)換
核函數(shù)（Polynomial Kernel、Gaussian Radial Basis Function、Sigmoid Kernel）
非線性支持向量機(jī)
支持向量機(jī)與神經(jīng)網(wǎng)絡(luò)間的關(guān)系

【應(yīng)用】

運(yùn)用數(shù)據(jù)挖掘軟件建立支持向量機(jī)模型，解讀模型結(jié)果，并評估模型效能。

5、集成方法

【領(lǐng)會】

集成方法概述

【熟知】

抽樣技術(shù)
訓(xùn)練數(shù)據(jù)上的抽樣方法
輸入變量上的抽樣方法
袋裝法（隨機(jī)森林）
提升法（Adaboost、xgboost、GBDT、LightGBM）

【應(yīng)用】

運(yùn)用數(shù)據(jù)挖掘軟件建立組合方法模型，解讀模型結(jié)果，并評估模型效能。

6、聚類分析

【領(lǐng)會】

聚類的概念

【熟知】

相似性的衡量（二元變量的相似性衡量、混合類別型變量與數(shù)值型變量的相似性衡量）
樣本點間距離的計算（Manhattan Distance、City-Block Distance、Euclidean Distance）
聚類算法（Exclusive vs. Non-Exclusive (Overlapping)的聚類算法、分層聚類法、劃分聚類法）
分層聚類算法（單一鏈結(jié)法、完全鏈結(jié)法、平均鏈結(jié)法、中心法、Ward’s 法）
劃分聚類算法（K-Means法、EM法、K-Medoids法、神經(jīng)網(wǎng)絡(luò)SOM法、兩步法）
密度聚類算法（DBSCAN）
群數(shù)的判斷(R-Squared (R2)、Semi-PARTial R-Squared、Root-Mean-Square Standard Deviation (RMSSTD)、輪廓系數(shù)(Silhouette Coefficient) )

【應(yīng)用】

運(yùn)用數(shù)據(jù)挖掘軟件建立聚類模型，解讀模型結(jié)果，并提供營銷建議。

7、關(guān)聯(lián)規(guī)則

【領(lǐng)會】

關(guān)聯(lián)規(guī)則的概念

【熟知】

關(guān)聯(lián)規(guī)則的評估指標(biāo)（支持度、置信度、提升度）
Apriori算法（暴力法的弊端、Apriori算法的理論基礎(chǔ)、候選項目組合的產(chǎn)生、候選項目組合的刪除）
支持度與置信度的問題（提升度指標(biāo)）
關(guān)聯(lián)規(guī)則的生成
關(guān)聯(lián)規(guī)則的延伸（虛擬商品的加入、負(fù)向關(guān)聯(lián)規(guī)則、相依性網(wǎng)絡(luò)）

【應(yīng)用】

運(yùn)用數(shù)據(jù)挖掘軟件建立關(guān)聯(lián)規(guī)則模型，解讀模型結(jié)果，并提供營銷建議。

8、序列模式

【領(lǐng)會】

序列模式的概念

【熟知】

序列模式的評估指標(biāo)（支持度、置信度）
AprioriAll算法（暴力法的問題、AprioriAll算法的理論基礎(chǔ)、候選項目組合的產(chǎn)生、候選項目組合的刪除）
序列模式的延伸（狀態(tài)移轉(zhuǎn)網(wǎng)絡(luò)）

【應(yīng)用】

運(yùn)用數(shù)據(jù)挖掘軟件建立序列模式模型，解讀模型結(jié)果，并提供營銷建議。

9、模型評估

【熟知】

混淆矩陣（正確率(Accuracy)、查準(zhǔn)率(Precision)、查全率(Recall)、F-指標(biāo)(F-Measure)）
KS圖（KS Chart）
ROC圖（ROC Chart）
GINI圖（GINI Chart）
回應(yīng)圖（Response Chart）
增益圖（Gain Chart）
提升圖（Lift Chart）
收益圖（Profit Chart）
平均平方誤差（Average Squared Error）

【應(yīng)用】

運(yùn)用數(shù)據(jù)挖掘軟件比較不同模型間的優(yōu)劣

PART 5 機(jī)器學(xué)習(xí)實戰(zhàn)

1、自動機(jī)器學(xué)習(xí)

【領(lǐng)會】

自動機(jī)器學(xué)習(xí)的基本概念
自動機(jī)器學(xué)習(xí)平臺

【熟知】

自動數(shù)據(jù)預(yù)處理的方法
自動機(jī)器學(xué)習(xí)的模型建置方法
自動模型的評估方法

【應(yīng)用】

運(yùn)用自動機(jī)器學(xué)習(xí)技術(shù)，快速建立模型，解讀模型結(jié)果，并評估模型效能。

2、類別不平衡問題

【領(lǐng)會】

不平衡數(shù)據(jù)定義
不平衡數(shù)據(jù)場景
傳統(tǒng)學(xué)習(xí)方法在不平衡數(shù)據(jù)中的局限性
類別不平衡所造成的問題

【熟知】

類別不平衡問題的檢測方法
過采樣技術(shù)（Over-sampling）
欠采樣技術(shù)（Under-sampling）
模型懲罰技術(shù)

【應(yīng)用】

能運(yùn)用類別不平衡的處理技術(shù)，提升模型的效能

3、半監(jiān)督學(xué)習(xí)

【領(lǐng)會】

監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)及半監(jiān)督學(xué)習(xí)間的關(guān)系

【熟知】

半監(jiān)督學(xué)習(xí)的基本思路
半監(jiān)督學(xué)習(xí)的基本假設(shè)
半監(jiān)督分類
半監(jiān)督回歸
半監(jiān)督聚類
半監(jiān)督降維
掌握基于SVM的半監(jiān)督學(xué)習(xí)算法
基于核方法的半監(jiān)督學(xué)習(xí)算法
EM半監(jiān)督學(xué)習(xí)算法

【應(yīng)用】

能運(yùn)用半監(jiān)督學(xué)習(xí)，降低開發(fā)決策模型的成本

4、模型優(yōu)化

【領(lǐng)會】

模型參數(shù)優(yōu)化的目的
建模門檻值優(yōu)化的目的

【熟知】

模型參數(shù)優(yōu)化的方法
建模門檻值優(yōu)化的方法

【應(yīng)用】

運(yùn)用模型參數(shù)優(yōu)化建立更精準(zhǔn)的數(shù)據(jù)挖掘模型
運(yùn)用建模門檻值優(yōu)化建立更精準(zhǔn)的數(shù)據(jù)挖掘模型

六、推薦學(xué)習(xí)書目

說明：推薦學(xué)習(xí)書目中，部分書籍結(jié)合軟件，考試中客觀選擇題部分不考查軟件操作使用，案例實操部分需要考生運(yùn)用相關(guān)軟件進(jìn)行建模分析，考生可根據(jù)自身需求選擇性學(xué)習(xí)。參考書目不需全部學(xué)完，根據(jù)考綱知識點進(jìn)行針對性學(xué)習(xí)即可。

[1] Jiawei Han, Micheline Kamber, Jian Pei.數(shù)據(jù)挖掘:概念與技術(shù)（原書第3版）[M].范明,孟小峰譯,機(jī)械工業(yè)出版社,2012.（必讀）
[2] 周志華.機(jī)器學(xué)習(xí)[M].清華大學(xué)出版社,2016.（必讀）
[3] Chris Albon. Python機(jī)器學(xué)習(xí)手冊:從數(shù)據(jù)預(yù)處理到深度學(xué)習(xí).電子工業(yè)出版社,2019.（必讀）
[4] 李博.機(jī)器學(xué)習(xí)實踐應(yīng)用.人民郵電出版社,2017.（必讀）
[5] 愛麗絲·鄭,阿曼達(dá)·卡薩麗.精通特征工程.人民郵電出版社,2019.（必讀）
[6] 迪潘揚(yáng)·薩卡爾（Dipanjan Sarkar）.Python文本分析[M].機(jī)械工業(yè)出版社,2018.（必讀）
[7] 經(jīng)管之家.SPSS Modeler+Weka數(shù)據(jù)挖掘從入門到實戰(zhàn),電子工業(yè)出版社,2019.（選讀）
[8] Pang-Ning Tan, Michael Steinbach, Vipin Kumar.數(shù)據(jù)挖掘?qū)д摚ㄔ瓡?版）[M].段磊,張?zhí)鞈c 譯,機(jī)械工業(yè)出版社,2019.（選讀）
[9] 趙衛(wèi)東,董亮. Python機(jī)器學(xué)習(xí)實戰(zhàn)案例. 清華大學(xué)出版社,2019.（選讀）
[10] 約阿夫·戈爾德貝格.基于深度學(xué)習(xí)的自然語言處理[M].機(jī)械工業(yè)出版社,2018.（選讀）
[11] 魯偉.深度學(xué)習(xí)筆記.北京大學(xué)出版社,2020.（選讀）
[12] 數(shù)據(jù)挖掘網(wǎng)站：KDnuggets (https://www./)（拓展學(xué)習(xí)）
[13] 數(shù)據(jù)挖掘網(wǎng)站：Kaggle (https://www./)（拓展學(xué)習(xí)）

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：農(nóng)夫的凳子 > 《大數(shù)據(jù)分析》

舉報/認(rèn)領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

農(nóng)夫的凳子

關(guān)注對話

TA的最新館藏

開學(xué)了！孩子在學(xué)校吃得安全嗎？“星期三查餐廳”突擊學(xué)校食堂了！
[轉(zhuǎn)] 高血壓自然降壓16法
[轉(zhuǎn)] 【早晨漂亮祝福圖早安問候句子】
[轉(zhuǎn)] 11月5日非常暖心早安問候祝福語早上好動圖早上好祝福語表情包
[轉(zhuǎn)] 6大高效搜索術(shù)：信息獲取的能力差距，正拉開你和別人的財富差距
[轉(zhuǎn)] 為什么“ 認(rèn)知 ”越低的人，越固執(zhí)？（深度）

喜歡該文的人也喜歡更多

熱門閱讀換一換

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

CDA LEVEL Ⅲ考試大綱

一、總則

二、考試形式與試卷結(jié)構(gòu)

三、知識要求

四、考試科目

PART 1 數(shù)據(jù)挖掘概論（占比15%）

PART 2 高級數(shù)據(jù)處理與特征工程（占比25%）

PART 3 自然語言處理與文本分析（占比20%）

PART 4 機(jī)器學(xué)習(xí)算法（占比40%）

PART 5 機(jī)器學(xué)習(xí)實戰(zhàn)

五、科目內(nèi)容

1、數(shù)據(jù)挖掘概要

【領(lǐng)會】

【熟知】

【應(yīng)用】

2、數(shù)據(jù)挖掘方法論

【熟知】

【應(yīng)用】

3、基礎(chǔ)數(shù)據(jù)挖掘技術(shù)

【領(lǐng)會】

【熟知】

【應(yīng)用】

4、進(jìn)階數(shù)據(jù)挖掘技術(shù)

【熟知】

1、高級數(shù)據(jù)預(yù)處理

【領(lǐng)會】

【熟知】

【應(yīng)用】

2、特征工程概要

【領(lǐng)會】

【熟知】

3、特征建構(gòu)

【領(lǐng)會】

【熟知】

【應(yīng)用】

4、特征選擇

【熟知】

【應(yīng)用】

5、特征轉(zhuǎn)換

【領(lǐng)會】

【熟知】

【應(yīng)用】

6、特征學(xué)習(xí)

【熟知】

【應(yīng)用】

1、自然語言處理概要

【領(lǐng)會】

【熟知】

【運(yùn)用】

2、分詞與詞性標(biāo)注

【領(lǐng)會】

【熟知】

【運(yùn)用】

3、文本挖掘概要

【領(lǐng)會】

【熟知】

【應(yīng)用】

4、關(guān)鍵詞提取

【熟知】

【應(yīng)用】

5、文本非結(jié)構(gòu)數(shù)據(jù)轉(zhuǎn)結(jié)構(gòu)

【熟知】

【應(yīng)用】

1、樸素貝葉斯

【熟知】

【應(yīng)用】

2、決策樹（分類樹及回歸樹）

【領(lǐng)會】

【熟知】

【應(yīng)用】

3、神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

【領(lǐng)會】

【熟知】

【應(yīng)用】

4、支持向量機(jī)

【領(lǐng)會】

【熟知】

【應(yīng)用】

5、集成方法

二、考試形式與試卷結(jié)構(gòu)

三、知識要求

四、考試科目

五、科目內(nèi)容

1、數(shù)據(jù)挖掘概要

3、基礎(chǔ)數(shù)據(jù)挖掘技術(shù)

2、特征工程概要

4、特征選擇

5、特征轉(zhuǎn)換

6、特征學(xué)習(xí)

1、自然語言處理概要

2、分詞與詞性標(biāo)注

4、關(guān)鍵詞提取

5、文本非結(jié)構(gòu)數(shù)據(jù)轉(zhuǎn)結(jié)構(gòu)

1、樸素貝葉斯

2、決策樹（分類樹及回歸樹）

4、支持向量機(jī)

5、集成方法

6、聚類分析

7、關(guān)聯(lián)規(guī)則

8、序列模式

9、模型評估

2、類別不平衡問題

4、模型優(yōu)化