熱線電話:13121318867

登錄
首頁精彩閱讀機器學習中訓練樣本不均衡問題
機器學習中訓練樣本不均衡問題
2018-04-03
收藏

機器學習中訓練樣本不均衡問題

在實際中,訓練模型用的數據并不是均衡的,在一個多分類問題中,每一類的訓練樣本并不是一樣的,反而是差距很大。比如一類10000,一類500,一類2000等。解決這個問題的做法主要有以下幾種:

欠采樣:就是把多余的樣本去掉,保持這幾類樣本接近,在進行學習。(可能會導致過擬合

過采樣:就是增加比較少樣本那一類的樣本數量,比如你可以收集多一些數據,或者對數據增加噪聲,如果是圖像還可以旋轉,裁剪,縮放,平移等,或者利用PCA增加一些樣本,等方法

第三種:就是直接采用不均衡數據進行訓練,可以在代價函數那里需要增加樣本權重,用來平衡這個問題,也就是類別數量少的那一類代價就高,權重就比較大。在評價模型好壞的時候也需要考慮樣本權重問題。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢