中国人工智能学会通讯——弱监督机器学习的研究进展 1.1 监督学习、非监督学习和半监督学习概述

简介:

1.1 监督学习、非监督学习和半监督学习概述

回到我们所讨论的话题,首先还是要去关注一个最简单的问题,就是二元分类的问题。

我们会有一些训练数据(见下图),其中蓝色圈点代表正例,而红色叉点代表负例。这样的二分类问题,其实已经被研究很多年了,由于我们已经有了大量的标注数据,所以能够得到非常好的分类结果,我们都知道现在最优的分类结果是这样的。

image

然而,想要获取大量的标注数据是非常耗时耗力的,我们希望也能够对无标注数据进行分类,这就是无监督分类的由来。

其实无监督分类和聚类是一样的,比如下面这张图中的数据点聚成了两簇,每一个簇代表一个类别,这样才是非常好的分类结果。然而很遗憾现在我们这个假设(即聚类的结果表示一个类别)并未得到相应的验证,所以从这个层面上来看,还没有非常合理的办法来做无监督分类。

image

我非常喜欢2011年前提出另一种方法的论文:由于我们有大量的无标注数据和少量的标注数据,那么基于少量的标注数据就能在一定程度上找到边界,然后结合所找到的边界和大量无标注数据的聚类结果,从而找出更多的边界。这就是半监督分类。

image

然而,半监督分类和无监督分类面临同样的问题,也就是簇要能够跟类别对应起来。如果一个簇总能对应着一个类别,这样就完美了。但事实并非如此,这就是我们今天所要讨论的内容。

接下来我先总结一下前面说过的内容。

对于不同类型的分类方法,标注的成本有高有低,所取得的分类准确率也有高有低。对于监督分类,能够取得很高的分类准确率但同时标注的成本非常高;而对于半监督和非监督分类,标注的成本都比较低(甚至没有),但取得的分类准确率并不高。

如何让左下角的这两种方法(即半监督和非监督分类)能够取得较高的分类准确率,同时保持比较低的标注成本?

这是我们所面临和需要解决的难题。

image

现在深度学习技术非常热门,但我今天讲的东西不是深度学习,这并不是说要忽视深度学习,其实这个话题跟深度学习也是有关系的。

模型方面,从简单到复杂,我们有线性模型、增量模型、基于核函数的模型和深度学习模型等;机器学习方法方面,有监督学习、无监督学习、半监督学习和增强学习等。

任意的学习方法和模型都是可以相结合的,不过我今天要讲的东西是关于学习方法的,它可以使用任何的模型,包括深度学习模型。当然我更倾向于使用线性模型,因为这更简单,如果你想使用更加复杂的模型也是完全可以的。

image

下面是今天演讲的议程,接下来会给大家介绍四种不同的分类方法,后面如果有机会我会介绍一下理化学研究所AIP研究中心。

image

相关文章
|
8月前
|
机器学习/深度学习 算法 数据可视化
可解释性机器学习:基于随机森林和Ceteris-paribus的乳腺癌早期诊断研究
可解释性机器学习:基于随机森林和Ceteris-paribus的乳腺癌早期诊断研究
322 1
|
7月前
|
机器学习/深度学习 数据采集 搜索推荐
机器学习在智能推荐系统中的个性化算法研究
机器学习在智能推荐系统中的个性化算法研究
|
2月前
|
机器学习/深度学习
自动化机器学习研究MLR-Copilot:利用大型语言模型进行研究加速
【10月更文挑战第21天】在科技快速发展的背景下,机器学习研究面临诸多挑战。为提高研究效率,研究人员提出了MLR-Copilot系统框架,利用大型语言模型(LLM)自动生成和实施研究想法。该框架分为研究想法生成、实验实施和实施执行三个阶段,通过自动化流程显著提升研究生产力。实验结果显示,MLR-Copilot能够生成高质量的假设和实验计划,并显著提高任务性能。然而,该系统仍需大量计算资源和人类监督。
43 4
|
5月前
|
机器学习/深度学习 存储 分布式计算
Hadoop与机器学习的融合:案例研究
【8月更文第28天】随着大数据技术的发展,Hadoop已经成为处理大规模数据集的重要工具。同时,机器学习作为一种数据分析方法,在各个领域都有着广泛的应用。本文将介绍如何利用Hadoop处理大规模数据集,并结合机器学习算法来挖掘有价值的信息。我们将通过一个具体的案例研究——基于用户行为数据预测用户留存率——来展开讨论。
367 0
|
7月前
|
人工智能 自然语言处理 自动驾驶
人工智能领域最新研究进展
人工智能领域最新研究进展
|
6月前
|
机器学习/深度学习 人工智能 API
在人工智能和机器学习的领域中,语音识别(Speech Recognition,SR)是一个重要的研究方向。它旨在将人类的语音转换为计算机可读的文本。
在人工智能和机器学习的领域中,语音识别(Speech Recognition,SR)是一个重要的研究方向。它旨在将人类的语音转换为计算机可读的文本。
|
8月前
|
机器学习/深度学习 边缘计算 人工智能
利用机器学习优化数据中心能效的研究
【5月更文挑战第21天】 在数据中心运营的成本结构中,能源消耗占据了显著的比例。随着计算需求的不断增长,如何在保持高性能的同时降低能耗成为一大挑战。本文通过探索机器学习技术在数据中心能源管理中的应用,提出了一种新的能效优化框架。该框架采用预测算法动态调整资源分配,并通过仿真实验证明其在降低能耗和提高资源利用率方面的有效性。研究结果不仅对理解数据中心能源消耗模式具有理论意义,也为实际操作提供了可行的节能策略。
|
8月前
|
机器学习/深度学习 资源调度 算法
利用机器学习优化数据中心能效的策略研究
【4月更文挑战第28天】 在数据中心设计和运营中,能源效率已经成为一个核心议题。随着计算需求的不断增长,数据中心的能耗问题愈发凸显,而传统的节能方法逐渐显得力不从心。本文旨在探讨如何通过机器学习技术提升数据中心的能源效率,降低运营成本,并对环境影响最小化。文中详细分析了机器学习在数据中心制冷管理、资源调度、故障预测及维护等方面的应用,并提出了一套综合策略,以期达到智能化管理和节能减排的双重目标。
|
8月前
|
机器学习/深度学习 存储 人工智能
利用机器学习优化数据中心能效的策略研究
【5月更文挑战第30天】 在信息技术日益发展的当下,数据中心作为其支撑的基础设施之一,承担着处理和存储海量数据的重要任务。随着数据中心规模的扩张和计算需求的增加,如何在保证性能的同时降低能耗成为了业界关注的焦点。本文通过引入机器学习技术,探讨了数据中心能效优化的新方法。文中首先概述了数据中心能效的重要性及其面临的挑战,随后详细介绍了机器学习在数据中心能效管理中的应用方式,包括预测模型的构建、能源消耗模式的分析以及动态调整策略的实施。最后,通过一系列实验验证了所提策略的有效性,并与传统方法进行了对比分析。
|
8月前
|
机器学习/深度学习 安全 网络安全
利用机器学习优化数据中心能效的研究数字堡垒的构建者:网络安全与信息安全的深层探索
【5月更文挑战第29天】在云计算和大数据时代,数据中心的能效问题成为关键挑战之一。本文通过集成机器学习技术与现有数据中心管理策略,提出了一种新型的智能优化框架。该框架能够实时分析数据中心的能耗模式,并自动调整资源分配,以达到降低能耗的目的。研究结果表明,应用机器学习算法可以显著提升数据中心的能源使用效率,同时保持服务质量。