熱線電話:13121318867

登錄
首頁精彩閱讀決策樹歸納分類算法理解
決策樹歸納分類算法理解
2018-06-14
收藏

決策樹歸納分類算法理解

決策樹歸納是從類標記的訓練數據構建決策樹,屬于分類領域。遍歷根節點到全部葉節點的路徑,每條路徑都屬于一個元組分類。整棵決策樹形成分類規則。目前構造決策樹的算法包括ID3(iterative dichotomy),C4.5,CART,都基于如下抽象的算法流程,現通過一個詳細的數據集對算法進行詳細解釋:


該算法名稱Generate_decision_tree(,,),遞歸進行決策樹構建。

Input:
數據劃分D,即訓練數據,包含訓練元組(tuples)和對應類標記。
attribute_list是候選屬性集
attribute_selection_method 確定分裂準則splitting_criterion(確定將哪個屬性作為第一分裂屬性,應該是最合適的分裂屬性),包含確定分裂屬性和分裂子集/分裂點。
(分裂點:針對連續型元組(每一行數據代表一個元組);分裂子集:針對離散的數據)

Output:
決策樹


該數據集就是數據劃分D,包含4個屬性和及其對應的類標記。
attribute_list是{age,income,student,credit_rating}構成的候選屬性集合。數據劃分是根據屬性選擇度量(Gain、Gainratio、Gini指標)依次選取最合適的屬性作為分裂屬性。

以ID3算法為例:
分別計算四個屬性的信息增益值:Gain(age)、Gain(income)、Gain(student), Gain(credit_rating) (具體求解見博文……)得到Gain(age)最高,故其被選為第一個最合適的分裂屬性,其有三個分裂子集,分別對應youth、middle_aged、senior構成的子數據集。
算法中j表示屬性age的三個值youth、middle_aged、senior。
Dj表示按這三個值分類對應的新數據劃分,如下:

j的值就是age屬性擁有的值的個數,構成了新的數據劃分。然后分別針對D1,D2,D3遞歸調用Generate_decision_tree(,,)
遞歸出口:
1.Di中的元組都屬于同一類,直接將其所屬的類作為葉節點
2. 候選屬性集attribute_list為空,將Di中的多數類作為葉節點。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢