熱線電話:13121318867

登錄
首頁精彩閱讀數據挖掘的分類技術分析
數據挖掘的分類技術分析
2017-01-26
收藏

數據挖掘的分類技術分析

1、過分擬合問題:

造成原因有:

(1)噪聲造成的過分擬合(因為它擬合了誤標記的訓練記錄,導致了對檢驗集中記錄的誤分類)

(2)根據少量訓練記錄做出分類決策的模型也容易受過分擬合的影響。(由于訓練數據缺乏具有代表性的樣本,在沒有多少訓練記錄的情況下,學習算法仍然繼續細化模型就會產生這樣的模型,當決策樹的葉節點沒有足夠的代表性樣本時,很可能做出錯誤的預測)


(3)多重比較也可能會導致過分擬合(大量的候選屬性和少量的訓練記錄最后導致了模型的過分擬合)

2、泛化誤差的估計:

(1)樂觀估計(決策樹歸納算法簡單的選擇產生最低訓練誤差的模型作為最終的模型)

(2)悲觀誤差估計(使用訓練誤差與模型復雜度罰項的和計算泛化誤差)

(3)最小描述長度原則(模型編碼的開銷加上誤分類記錄編碼的開銷)

(4)估計統計上界(泛化誤差可以用訓練誤差的統計修正來估計,因為泛化誤差傾向于比訓練誤差大,所以統計修正通常是計算訓練誤差的上界)

(5)使用確認集(如2/3的訓練集來建立模型,剩下的用來做誤差估計) 

3、處理決策樹中的過分擬合:

A):先剪枝(提前終止規則):當觀察到的不純性度量的增益(或估計的泛化誤差的改進)低于某個確定的閾值時就停止擴展葉節點。  B):初始決策樹按照最大規模生長,然后進行剪枝的步驟,按照自底向上的方式修剪完全增長的決策樹。

修剪有兩種方法:(1)用新的葉節點替換子樹,該葉節點的類標號由子樹下記錄中的多數類確定;(2)用子樹中常見的分支替代子樹。當模型不能再改進時終止剪枝步驟。與先剪枝相比,后剪枝技術傾向于產生更好的結果。數據分析培訓

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢