熱線電話:13121318867

登錄
首頁精彩閱讀隨機森林進行特征重要性度量的詳細說明
隨機森林進行特征重要性度量的詳細說明
2018-03-17
收藏

隨機森林進行特征重要性度量的詳細說明

特征選擇方法中,有一種方法是利用隨機森林,進行特征的重要性度量,選擇重要性較高的特征。下面對如何計算重要性進行說明。

1 特征重要性度量

計算某個特征X的重要性時,具體步驟如下:

1)對每一顆決策樹,選擇相應的袋外數據(out of bag,OOB)計算袋外數據誤差,記為errOOB1.

所謂袋外數據是指,每次建立決策樹時,通過重復抽樣得到一個數據用于訓練決策樹,這時還有大約1/3的數據沒有被利用,沒有參與決策樹的建立。這部分數據可以用于對決策樹的性能進行評估,計算模型的預測錯誤率,稱為袋外數據誤差。

這已經經過證明是無偏估計的,所以在隨機森林算法中不需要再進行交叉驗證或者單獨的測試集來獲取測試集誤差的無偏估計。

2)隨機對袋外數據OOB所有樣本的特征X加入噪聲干擾(可以隨機改變樣本在特征X處的值),再次計算袋外數據誤差,記為errOOB2。

3)假設森林中有N棵樹,則特征X的重要性=∑(errOOB2-errOOB1)/N。這個數值之所以能夠說明特征的重要性是因為,如果加入隨機噪聲后,袋外數據準確率大幅度下降(即errOOB2上升),說明這個特征對于樣本的預測結果有很大影響,進而說明重要程度比較高。

2 特征選擇

特征重要性的基礎上,特征選擇的步驟如下:

1)計算每個特征的重要性,并按降序排序

2)確定要剔除的比例,依據特征重要性剔除相應比例的特征,得到一個新的特征

3)用新的特征集重復上述過程,直到剩下m個特征(m為提前設定的值)。

4)根據上述過程中得到的各個特征集和特征集對應的袋外誤差率,選擇袋外誤差率最低的特征集。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢