熱線電話:13121318867

登錄
首頁精彩閱讀決策樹算法基礎:ID3與C4.5
決策樹算法基礎:ID3與C4.5
2018-08-07
收藏

決策樹算法基礎:ID3與C4.5

設X是一個取有限個值得離散隨機變量,其概率分布為P(X=xi)=pi,   i=1,2,…,n。則隨機變量X的信息熵為

條件熵H(Y|X)表示在已知隨機變量X的條件下隨機變量Y的不確定性。H(Y|X)的計算公式為

所以決策樹分支后信息總熵H(D|A)=P1*H1+P2*H2+...+Pn*Hn,(特征A條件下D的經驗條件熵)

所以信息增益ΔH=H(D)-H(D|A)

H(D|A)越小,ΔH越大,該特征A越適合作為當前的決策節點。

選取最佳特征偽代碼:

計算信息總熵H(D)

遍歷每一個特征下的關于D的經驗條件熵H(D|A)

計算每一個特征的信息增益ΔH

將信息增益ΔH最大的特征作為最佳特征選為當前決策節點


ID3算法偽代碼:

如果第一個標簽的數量等于所有的標簽數量,說明這是一個單節點樹,返回這個標簽作為該節點類

如果特征只有一個,說明這是一個單節點樹,用多數表決法投票選出標簽返回作為該節點類

否則,按信息增益最大的特征A作為當前決策節點,即決策樹父節點

如果該特征的信息增益ΔH小于閾值,則用多數表決法投票選出標簽返回作為該節點類

否則,對于該特征A的每一個可能值ai,將原空間D分割為若干個子空間Di

對于若干個非空子集Di,將每個Di中實例數最大的類作為標記,構建子節點

以Di為訓練空間,遞歸調用上述步驟

由于信息增益存在偏向于選擇取值較多的特征的問題,而C4.5算法中,將ID3算法里的信息增益換成信息增益比,較好地解決了這個問題。

決策樹的優點在于計算量簡單,適合有缺失屬性值的樣本,適合處理不相關的特征。而缺點是容易過擬合,可以通過剪枝來簡化模型,另外隨機森林也解決了這個問題。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢