# Semi-supervised Learning 半監督式學習 :::info ### intro * semi-supervised learning 由少部分labeled data和大部分unlabeled data構成 ![](https://i.imgur.com/39gF1Jw.png) * 藉由資料集的分布,或模型的判斷,來自行標示資料。 ::: :::success ### 實作 * Semi-supervised Generative Model 不斷加入unlabeled data,影響原本generative model的分布。 ![](https://i.imgur.com/DXJX6Yz.png) :::spoiler 推導 每加入一筆資料,重新估測一次分布模型,影響的程度由data屬於那個class的機率決定(越有可能是A-Class,對A的影響越大)。 ![](https://i.imgur.com/kGZDagh.png) ![](https://i.imgur.com/uNYMA6A.png) ::: * Self-training 由現有模型判斷機率,如果屬於機率A比較大,將那筆資料視為A資料,再放回訓練。 ![](https://i.imgur.com/UWeOr48.png) * Entropy-based Regularization 如果資料集分布很明確(Ex.不是狗就是貓),通過最小化loss function,要求Entropy降低(Entropy越低,資料越集中),達成正規化。 ![](https://i.imgur.com/5GcFTnC.png) * Cluster and then label 劃分為同一cluster的unlabeled data,視為那一個cluster的label。需要能明確劃分,才能得到比較好的效果。 ![](https://i.imgur.com/bfifKal.png) * Graph-based Approach 圖論中,相連接的Data,視為同一個label,並且會沿著edge影響其他data。 ![](https://i.imgur.com/AQZoHg7.png) :::spoiler 推導 ::: * Better Representation 尋找更好的因素來區分資料。Ex.想要找鬍子,先找到頭?? ![](https://i.imgur.com/RTa1SxT.png) ::: ###### tags: `ML2020`