熱線電話:13121318867

登錄
首頁大數據時代半監督學習的種類都有哪些?
半監督學習的種類都有哪些?
2020-07-14
收藏

半監督學習(SSL),全稱Semi-Supervised Learning,類屬于機器學習(Machine Learning,ML)。在只有少量標記樣本,大部分樣本都是無標記的情況下,可以使用半監督學習方法,根據無標記樣本與標記樣本間的相似度、以及無標記樣本潛在的分布,這兩個核心思想,對無標記的樣本進行標記。下面介紹一下半監督學習的種類:

1 生成式方法

生成式方法(generative methods)是直接基于生成式模型的方法,這一方法是假設所有數據(無論是有標記還是沒有標記)都是由同一潛在的模型生成的。這個假設利用潛在模型的參數,將未標記數據與學習目標聯系起來,而未標記數據的標記能夠當作模型的缺失參數,然后基于EM算法,進行極大似然估計求解。生成式方法的重點在于生成式模型的假設,不同的模型假設會產生不同的方法。當然這一方法的關鍵也就是這個模型假設必須是準確的,也就是假設的生成式模型必須是與真實數據分布相吻合的;不然利用未標記數據反而會降低泛化性能。生成式方法方法實現簡單,但是在實際應用中,事先很難做出準確的模型假設。

2半監督支持向量機

半監督支持向量機,Semi-Supervised Vector Machin,是支持向量機半監督學習上的推廣。在不考慮未標記樣本的情況下,支持向量機試圖找到最大間隔劃分超平面;在考慮未標記樣本的情況下,半監督支持向量機試圖找到,能將兩類有標記樣本區分開,并且穿過數據低密度區域的劃分超平面。低密度分隔(low-densityseparation)假設是聚類假設在考慮了線性超平面劃分后的推廣。TSVM是采用局部搜索的策略來進行迭代求解,也就是首先使用有標記樣本集訓練出一個初始SVM,接著通過該學習器對未標記樣本進行打標,這樣使得所有樣本都有了標記,并基于這些有標記的樣本重新訓練SVM,之后再尋找易出錯樣本不斷調整。

3協同訓練(基于分歧的方法)

協同訓練基于大量模型,讓每一個模型去尋找最有把握的樣本,并作為其他模型的訓練樣本,這一互相學習、共同進步的過程不斷迭代,直到兩個分裂期不再變化。不同的視圖、不同的算法、不同的數據、不同的參數都是產生差異的渠道。協同訓練能夠通過將樣本集拆分成不同的子樣本集,并分別在子樣本集上訓練模型,就會產生多個模型;也可以對樣本集建立不同的分類模型,通過各個模型決定樣本的置信度,與集成學習類似。

4圖半監督學習

5半監督聚類

聚類是無監督學習任務,為了利用現實任務中獲得的監督信息,提出半監督聚類(semi-supervised clustering)來利用監督信息以獲得更好的效果。

聚類任務中獲得的監督信息分兩種:1)有必連(must-link)和勿連(cannot-link)約束,必連是指樣本必屬于同一個簇,勿連是指樣本必不屬于同一個簇;2)含有少量的有標記樣本。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢