中国人工智能学会通讯——弱监督机器学习的研究进展 1.1 监督学习、非监督学习和半监督学习概述-阿里云开发者社区

中国人工智能学会通讯——弱监督机器学习的研究进展 1.1 监督学习、非监督学习和半监督学习概述

2017-09-01 2355

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

回到我们所讨论的话题，首先还是要去关注一个最简单的问题，就是二元分类的问题。

我们会有一些训练数据（见下图），其中蓝色圈点代表正例，而红色叉点代表负例。这样的二分类问题，其实已经被研究很多年了，由于我们已经有了大量的标注数据，所以能够得到非常好的分类结果，我们都知道现在最优的分类结果是这样的。

然而，想要获取大量的标注数据是非常耗时耗力的，我们希望也能够对无标注数据进行分类，这就是无监督分类的由来。

其实无监督分类和聚类是一样的，比如下面这张图中的数据点聚成了两簇，每一个簇代表一个类别，这样才是非常好的分类结果。然而很遗憾现在我们这个假设（即聚类的结果表示一个类别）并未得到相应的验证，所以从这个层面上来看，还没有非常合理的办法来做无监督分类。

我非常喜欢2011年前提出另一种方法的论文：由于我们有大量的无标注数据和少量的标注数据，那么基于少量的标注数据就能在一定程度上找到边界，然后结合所找到的边界和大量无标注数据的聚类结果，从而找出更多的边界。这就是半监督分类。

然而，半监督分类和无监督分类面临同样的问题，也就是簇要能够跟类别对应起来。如果一个簇总能对应着一个类别，这样就完美了。但事实并非如此，这就是我们今天所要讨论的内容。

接下来我先总结一下前面说过的内容。

对于不同类型的分类方法，标注的成本有高有低，所取得的分类准确率也有高有低。对于监督分类，能够取得很高的分类准确率但同时标注的成本非常高；而对于半监督和非监督分类，标注的成本都比较低（甚至没有），但取得的分类准确率并不高。

如何让左下角的这两种方法（即半监督和非监督分类）能够取得较高的分类准确率，同时保持比较低的标注成本？

这是我们所面临和需要解决的难题。

现在深度学习技术非常热门，但我今天讲的东西不是深度学习，这并不是说要忽视深度学习，其实这个话题跟深度学习也是有关系的。

模型方面，从简单到复杂，我们有线性模型、增量模型、基于核函数的模型和深度学习模型等；机器学习方法方面，有监督学习、无监督学习、半监督学习和增强学习等。

任意的学习方法和模型都是可以相结合的，不过我今天要讲的东西是关于学习方法的，它可以使用任何的模型，包括深度学习模型。当然我更倾向于使用线性模型，因为这更简单，如果你想使用更加复杂的模型也是完全可以的。

下面是今天演讲的议程，接下来会给大家介绍四种不同的分类方法，后面如果有机会我会介绍一下理化学研究所AIP研究中心。

中国人工智能学会通讯——弱监督机器学习的研究进展 1.1 监督学习、非监督学习和半监督学习概述