熱線電話:13121318867

登錄
首頁精彩閱讀CART算法
CART算法
2014-11-19
收藏

CART算法


一、介紹
       CART算法又稱為分類回歸樹算法,采用二分遞歸分割技術,將當前的樣本集分為兩個子樣本集,使得生成的每一個非葉子節點都有兩個分支,因此CART算法生成的二叉樹是結構最簡潔的二叉樹。
      CART決策樹包含的基本國策主要有分裂、剪枝和樹選擇。
二、重要思想
       第一個:遞歸地劃分自變量空間的想法;
       第二個:用驗證數據進行剪枝的想法。
三、劃分步驟:
        首先:一個自變量被選擇,將空間氛圍兩部分;
        其次:再把上步中得到的兩部分的一個部分,通過選擇一個部分,通過選擇一個變量和該變量的劃分值以相似的方式再劃分;
        重復上述步驟,直至把整個空間劃分成的每個小矩形都盡可能的是同構的。
四、用驗證數據進行剪枝
1. 用獨立的驗證集對根據訓練集生成的樹進行剪枝;
2. 目的:生成一個具有最小錯誤的樹;
3. 為什么要剪枝呢?
   3.1 在樹生成過程中可能存在不能提高分類純度的劃分節點;
   3.2 存在過擬合訓練數據。
4. CART剪枝方法
   4.1 CART用“成本復雜性”標準來剪枝;
   4.2 成本復雜性標準是分類樹的a簡單誤分加上一個對樹的大小的懲罰因素。即=Err(T)+α|L(T)|,其中Err(T)是驗證數據被樹誤分部分;L(T)是樹T的葉節點數;α是每個節點懲罰成本,α是一個從0向上變動的數字。
   4.3 最小誤差樹:從這個序列的樹中選擇一個在驗證數據集上具有最小誤分的樹稱為最小誤差樹。
   4.4 最佳剪枝樹:它是在剪枝序列中含有誤差在最小誤差樹的一個標準誤差之內最小的樹。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢