
作者 | Jason Brownlee編譯 | CDA數據分析師
特征選擇是在開發預測模型時減少輸入變量數量的過程。
希望減少輸入變量的數量,以減少建模的計算成本,并且在某些情況下,還需要改善模型的性能。
基于特征的特征選擇方法包括使用統計信息評估每個輸入變量和目標變量之間的關系,并選擇與目標變量關系最密切的那些輸入變量。盡管統計方法的選擇取決于輸入和輸出變量的數據類型,但是這些方法可以快速有效。
這樣,當執行基于過濾器的特征選擇時,對于機器學習從業者來說,為數據集選擇適當的統計量度可能是具有挑戰性的。
在本文中,您將發現如何為統計數據和分類數據選擇統計度量,以進行基于過濾器的特征選擇。
閱讀這篇文章后,您將知道:
本教程分為三個部分:他們是:
特征選擇方法旨在將輸入變量的數量減少到被認為對模型最有用的那些變量,以預測目標變量。
一些預測性建模問題包含大量變量,這些變量可能會減慢模型的開發和訓練速度,并需要大量的系統內存。此外,當包含與目標變量無關的輸入變量時,某些模型的性能可能會降低。
特征選擇算法有兩種主要類型:包裝器方法和過濾器方法。
包裝器特征選擇方法會創建許多具有不同輸入特征子集的模型,并根據性能指標選擇那些導致最佳性能模型的特征。這些方法與變量類型無關,盡管它們在計算上可能很昂貴。RFE是包裝功能選擇方法的一個很好的例子。
包裝器方法使用添加和/或刪除預測變量的過程來評估多個模型,以找到使模型性能最大化的最佳組合。
—第490頁,應用預測建模,2013年。
過濾器特征選擇方法使用統計技術來評估每個輸入變量和目標變量之間的關系,這些分數將用作選擇(過濾)將在模型中使用的那些輸入變量的基礎。
過濾器方法在預測模型之外評估預測變量的相關性,然后僅對通過某些標準的預測變量進行建模。
—第490頁,應用預測建模,2013年。
通常在輸入和輸出變量之間使用相關類型統計量度作為過濾器特征選擇的基礎。這樣,統計量度的選擇高度依賴于可變數據類型。
常見的數據類型包括數字(例如高度)和類別(例如標簽),但是每種數據類型都可以進一步細分,例如數字變量的整數和浮點數,類別變量的布爾值,有序數或標稱值。
常見的輸入變量數據類型:
對變量的數據類型了解得越多,就越容易為基于過濾器的特征選擇方法選擇適當的統計量度。
在下一部分中,我們將回顧一些統計量度,這些統計量度可用于具有不同輸入和輸出變量數據類型的基于過濾器的特征選擇。
在本節中,我們將考慮兩大類變量類型:數字和類別;同樣,要考慮的兩個主要變量組:輸入和輸出。
輸入變量是作為模型輸入提供的變量。在特征選擇中,我們希望減小這些變量的大小。輸出變量是模型要預測的變量,通常稱為響應變量。
響應變量的類型通常指示正在執行的預測建模問題的類型。例如,數字輸出變量指示回歸預測建模問題,而分類輸出變量指示分類預測建模問題。
通常在基于過濾器的特征選擇中使用的統計量度是與目標變量一次計算一個輸入變量。因此,它們被稱為單變量統計量度。這可能意味著在過濾過程中不會考慮輸入變量之間的任何交互。
這些技術大多數都是單變量的,這意味著它們獨立地評估每個預測變量。在這種情況下,相關預測變量的存在使選擇重要但多余的預測變量成為可能。此問題的明顯后果是選擇了太多的預測變量,結果出現了共線性問題。
—第499頁,應用預測建模,2013年。
使用此框架,讓我們回顧一些可用于基于過濾器的特征選擇的單變量統計量度。
這是帶有數字輸入變量的回歸預測建模問題。
最常見的技術是使用相關系數,例如使用Pearson進行線性相關,或使用基于秩的方法進行非線性相關。
這是帶有數字輸入變量的分類預測建模問題。
這可能是最常見的分類問題示例,
同樣,最常見的技術是基于相關的,盡管在這種情況下,它們必須考慮分類目標。
Kendall確實假定類別變量為序數。
這是帶有分類輸入變量的回歸預測建模問題。
這是回歸問題的一個奇怪示例(例如,您不會經常遇到它)。
不過,您可以使用相同的“ 數值輸入,分類輸出 ”方法(如上所述),但要相反。
這是帶有分類輸入變量的分類預測建模問題。
分類數據最常見的相關度量是卡方檢驗。您還可以使用信息論領域的互信息(信息獲?。?。
實際上,互信息是一種強大的方法,可能對分類數據和數字數據都有用,例如,與數據類型無關。
使用基于過濾器的功能選擇時,本節提供了一些其他注意事項。
scikit-learn庫提供了大多數有用的統計度量的實現。
例如:
此外,SciPy庫提供了更多統計信息的實現,例如Kendall的tau(kendalltau)和Spearman的排名相關性(spearmanr)。
一旦針對具有目標的每個輸入變量計算出統計信息,scikit-learn庫還將提供許多不同的過濾方法。
兩種比較流行的方法包括:
我經常自己使用SelectKBest。
考慮轉換變量以訪問不同的統計方法。
例如,您可以將分類變量轉換為序數(即使不是序數),然后查看是否有任何有趣的結果。
您還可以使數值變量離散(例如,箱);嘗試基于分類的度量。
一些統計度量假設變量的屬性,例如Pearson假設假定觀測值具有高斯概率分布并具有線性關系。您可以轉換數據以滿足測試的期望,然后不管期望如何都可以嘗試測試并比較結果。
沒有最佳功能選擇方法。
就像沒有最佳的輸入變量集或最佳的機器學習算法一樣。至少不是普遍的。
相反,您必須使用認真的系統實驗來發現最適合您的特定問題的方法。
嘗試通過不同的統計量度來選擇適合不同特征子集的各種不同模型,并找出最適合您的特定問題的模型。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25