熱線電話:13121318867

登錄
首頁大數據時代3種常見集成算法模型的詳細理解
3種常見集成算法模型的詳細理解
2020-07-08
收藏

集成算法(Emseble Learning)是構建多個學習器,然后通過一定策略將這些學習器組合起來,讓它們來完成學習任務的,通??梢垣@得比單一學習顯著優越的學習器。

常見的集成算法模型有:Bagging、Boosting、Stacking。下面小編對這三種模型進行簡單的介紹。

1.Bagging的原理首先是在自助采樣法(bootstrap sampling)的基礎上,隨機得到一些樣本集訓練,分別對不同的基學習器進行訓練,然后對不同的基學習器得到的結果投票,從而得出最終的分類結果。自助采樣法得到的樣本大概會有63%的數據樣本被使用,剩下的可以用來做驗證集。

Bagging最典型代表是:隨機森林

隨機森林,需要分為隨機和 森林來進行理解

隨機就是每個分類器的數據采樣和選擇特征都是隨機的,但是數量都是一樣的,而且都是有放回的選取

森林,就是決策樹,多個決策樹也就構成了森林。

2.Boosting 串行:以一個弱分類器開始,然后不斷增加分類器,以權重參數表示其重要性

本思想是“逐步強化”。計算過程為:

所有樣本權重相同,訓練得到第一個弱分類器。

根據上一輪的分類效果,調整樣本的權重,上一輪分錯的樣本權重提高,重新進行訓練。

重復以上步驟,直到達到約定的輪數結束。

由于處于分類邊界的點容易分錯,因此會得到更高的權重。

典型代表是AdaBoost、XgBoost算法。

3.Stacking 堆疊:聚合使用多個分類器

計算過程:

使用多個分類器各自獨立進行第一輪的的訓練,然后測試得到第一輪的結果,

緊接著將第一輪的訓練結果作為第二輪的訓練輸入,得出結果

不斷迭代,直到達到迭代的次數限制為止。

優點:

Stacking綜合使用了多個分類器,準確率很高,

第一輪中多個分類器獨立訓練,較好地避免了過擬合的現象出現。

缺點:效率非常低

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢