Semi-Supervised Learning半监督学习的简介
半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性,因此,半监督学习正越来越受到人们的重视。最大的特点是监督学习与无监督学习相结合。
半监督学习的研究的历史可以追溯到20世纪70年代,这一时期,出现了自训练(Self-Training)、直推学习(Transductive Learning)、生成式模型(Generative Model)等学习方法。
半监督学习是监督学习与无监督学习相结合的一种学习方法。半监督学习一般针对的问题是数据量大,但是有标签数据少或者说标签数据的获取很难很贵的情况,训练的时候有一部分是有标签的,而有一部分是没有的。与使用所有标签数据的模型相比,使用训练集的训练模型在训练时可以更为准确,而且训练成本更低。常见的两种半监督的学习方式是直推学习(Transductive learning)和归纳学习(Inductive learning)。
1、直推学习Transductive learning
没有标记的数据是测试数据,这个时候可以用测试的数据进行训练。这里需要注意,这里只是用了测试数据中的特征(feature)而没有用标签(label),所以并不是一种欺骗的方法。
2、归纳学习Inductive learning
没有标签的数据不是测试集。
Semi-Supervised Learning半监督学习的应用
1、SSL根据学习场景可分为四大类
源自《百度百科》
1.1、半监督分类
半监督分类(Semi-Supervised Classification):是在无类标签的样例的帮助下训练有类标签的样本,获得比只用有类标签的样本训练得到的分类器性能更优的分类器,弥补有类标签的样本不足的缺陷,其中类标签 取有限离散值 。
1.2、半监督回归
半监督回归(Semi-Supervised Regression):在无输出的输入的帮助下训练有输出的输入,获得比只用有输出的输入训练得到的回归器性能更好的回归器,其中输出 取连续值 ;
1.3、半监督聚类
半监督聚类(Semi-Supervised Clustering):在有类标签的样本的信息帮助下获得比只用无类标签的样例得到的结果更好的簇,提高聚类方法的精度;
1.4、半监督降维
半监督降维(Semi-Supervised Dimensionality Reduction):在有类标签的样本的信息帮助下找到高维输入数据的低维结构,同时保持原始高维数据和成对约束(Pair-Wise Constraints)的结构不变,即在高维空间中满足正约束(Must-Link Constraints)的样例在低维空间中相距很近,在高维空间中满足负约束(Cannot-Link Constraints)的样例在低维空间中距离很远。
Semi-Supervised Learning半监督学习的经典案例
后期更新……