熱線電話:13121318867

登錄
首頁精彩閱讀常見決策樹分類算法都有哪些?
常見決策樹分類算法都有哪些?
2019-02-22
收藏


我們都知道,在機器學習中我們有很多的問題都是需要使用決策樹來解決,由此我們不難發現決策樹是一個十分實用的內容,這是因為決策樹的算法是十分給力的。其實決策樹的算法也是有很多的,我們在這篇文章中給大家詳細地介紹一下決策樹的分類算法。


首先我們給大家介紹一下C4.5算法,這種算法就是基于ID3算法的改進,主要包括:使用信息增益率替換了信息增益下降度作為屬性選擇的標準;在決策樹構造的同時進行剪枝操作;避免了樹的過度擬合情況;可以對不完整屬性和連續型數據進行處理;使用k交叉驗證降低了計算復雜度;針對數據構成形式,提升了算法的普適性。


然后我們給大家介紹一下CLS算法。這種算法就是最原始的決策樹分類算法,基本流程是,從一棵空數出發,不斷的從決策表選取屬性加入數的生長過程中,直到決策樹可以滿足分類要求為止。CLS算法存在的主要問題是在新增屬性選取時有很大的隨機性。


接著我們給大家介紹一下ID3算法,這種算法就是對CLS算法的最大改進是摒棄了屬性選擇的隨機性,利用信息熵的下降速度作為屬性選擇的度量。ID3是一種基于信息熵的決策樹分類學習算法,以信息增益和信息熵,作為對象分類的衡量標準。ID3算法結構簡單、學習能力強、分類速度快適合大規模數據分類。但同時由于信息增益的不穩定性,容易傾向于眾數屬性導致過度擬合,算法抗干擾能力差。而ID3算法的核心思想:根據樣本子集屬性取值的信息增益值的大小來選擇決策屬性(,并根據該屬性的不同取值生成決策樹的分支,再對子集進行遞歸調用該方法,當所有子集的數據都只包含于同一個類別時結束。最后,根據生成的決策樹模型,對新的、未知類別的數據對象進行分類。這種算法的優點就是方法簡單、計算量小、理論清晰、學習能力較強、比較適用于處理規模較大的學習問題。缺點就是傾向于選擇那些屬性取值比較多的屬性,在實際的應用中往往取值比較多的屬性對分類沒有太大價值、不能對連續屬性進行處理、對噪聲數據比較敏感、需計算每一個屬性的信息增益值、計算代價較高。


我們在這篇文章中給大家介紹了決策樹分類算法的具體內容,不難發現決策樹的算法都是經過不斷的改造而趨于成熟的,希望這篇文章能夠幫助大家更好帶來理解決策樹的知識。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢