熱線電話:13121318867

登錄
首頁精彩閱讀feature importance函數的簡要介紹!
feature importance函數的簡要介紹!
2020-05-19
收藏
feature importance特征重要性,在特征選擇的許多方法中,我們可以使用隨機森林模型中的特征重要屬性來篩選特征,并得到其與分類的相關性。


由于隨機森林存在的固有隨機性,該模型可能每次給予特征不同的重要性權重。但是通過多次訓練該模型,即每次通過選取一定量的特征與上次特征中的交集進行保留,以此循環一定次數,從而我們最后可以得到一定量對分類任務的影響有重要貢獻的特征。



具體來說,在隨機森林中某個特征X的重要性的計算方法如下:



1:對于隨機森林中的每一顆決策樹,使用相應的OOB(袋外數據)數據來計算它的袋外數據誤差,記為errOOB1.



2: 隨機地對袋外數據OOB所有樣本的特征X加入噪聲干擾(就可以隨機的改變樣本在特征X處的值),再次計算它的袋外數據誤差,記為errOOB2.



3:假設隨機森林中有Ntree棵樹,那么對于特征X的重要性=∑(errOOB2-errOOB1)/Ntree,之所以可以用這個表達式來作為相應特征的重要性的度量值是因為:若給某個特征隨機加入噪聲之后,袋外的準確率大幅度降低,則說明這個特征對于樣本的分類結果影響很大,也就是說它的重要程度比較高。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢