熱線電話:13121318867

登錄
首頁精彩閱讀數據挖掘中的特征選擇問題
數據挖掘中的特征選擇問題
2018-02-26
收藏

數據挖掘中的特征選擇問題

特征工程包括特征選擇和特征提取。數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已。通常而言,特征選擇是指選擇獲得相應模型和算法最好性能的特征集,工程上常用的方法:

①計算每一個特征與響應變量的相關性:計算皮爾遜系數和互信息系數,皮爾遜系數只能衡量線性相關性而互信息系數能夠很好地度量各種相關性,但是計算相對復雜一些,好在很多toolkit里邊都包含了這個工具(如sklearn的MINE),得到相關性之后就可以排序選擇特征了;

②構建單個特征的模型,通過模型的準確性為特征排序,借此來選擇特征;

③通過L1正則項來選擇特征:L1正則方法具有稀疏解的特性,因此天然具備特征選擇的特性,但是要注意,L1沒有選到的特征不代表不重要,原因是兩個具有高相關性的特征可能只保留了一個,如果要確定哪個特征重要應再通過L2正則方法交叉檢驗;

④訓練能夠對特征打分的預選模型:RandomForest和LogisticRegression等都能對模型的特征打分,通過打分獲得相關性后再訓練最終模型;

⑤通過特征組合后再來選擇特征:如對用戶id和用戶特征最組合來獲得較大的特征集再來選擇特征,這種做法在推薦系統和廣告系統中比較常見,這也是所謂億級甚至十億級特征的主要來源,原因是用戶數據比較稀疏,組合特征能夠同時兼顧全局模型和個性化模型。

⑥通過深度學習來進行特征選擇:目前這種手段正在隨著深度學習的流行而成為一種手段,尤其是在計算機視覺領域,原因是深度學習具有自動學習特征的能力,這也是深度學習又叫unsupervised feature learning的原因。從深度學習模型中選擇某一神經層的特征后就可以用來進行最終目標模型的訓練了。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢