小样本学习总结

简介: 近年来,大规模的标注数据被用于深度学习的模型训练中,极大地提高了模型的鲁棒性和泛化能力。然而,在现实应用中,有些深度学习训练的样本数或者标注样本数很少,若直接用于训练会产生过拟合问题。小样本学习(Few-shot Learning)实现了在原始样本有限的情况下,依然能够训练出具有较高泛化能力的模型。

小样本学习的研究对于推动深度学习的发展具有重要意义,它基于先验知识和少量的样本
也能学习样本蕴含的模式,并泛化到新样本的推理中。此外,小样本学习还能减少数据收集和
标注的人工成本,且由于训练模型所依赖的数据量变少,训练时的计算复杂度和空间复杂度也
被显著降低。
小样本学习与单样本学习(One-shot Learning)、零样本学习(Zero-shot Learning)的区别
主要在于数据集中的标注样本的个数。以分类问题为例,小样本学习的训练样本中每个类别中
包含的标注样本数较少,单样本学习的训练样本中每个类别仅包括1个标注样本,零样本学习
所用的训练数据集不包含带有标签信息的样本。
为了解决小样本学习问题,近年来出现了大量的相关算法和模型。这些小样本学习方法
大致分为3类:第1类方法主要基于数据增强的思想,利用标注数据以外的辅助信息,例如
结合标签的属性信息来辅助模型更好地进行分类。此外,还可以利用无标签数据来弥补数据
集在样本多样性上的缺陷;第2类方法主要基于迁移学习的思想,首先在数据资源丰富的相
关领域训练模型,然后将学习到的知识迁移到目标新领域指导模型训练;第3 类方法主要基
于元学习的思想,不仅依靠经验风险最小化的方法训练模型,还借助先验知识来指导模型的
训练过程。这3类方法从不同的角度来学习先验知识,用于辅助模型的训练,提升小样本学
习模型的泛化能力。
(1)基于数据增强的方法
在基于数据增强的小样本学习中,通常采用扩充数据集和特征增强的方法。前者通过增加
样本数量来提升样本多样性,而后者则是从样本质量的角度增加辅助分类的特征。扩充数据集
的方法可以分为基于无标签数据的方法和基于数据合成的方法。其中基于无标签数据的方法采
用机器学习的策略给未标记的样本分配伪标签,然后再用该部分样本来扩充目标任务中的小样
本数据集。基于数据合成的方法合成新的带标签的样本,以此扩充训练数据。较为常用的算法
是生成对抗网络。基于特征增强的方法利用标签信息或其他特定任务场景中的辅助信息来增强
样本特征的多样性,以此帮助模型更好地分类。
(2)基于迁移学习的方法
近年来,迁移学习的方法也被广泛用于解决小样本学习问题。不同于模型微调,迁移学习
将模型在大规模数据集中学习到的知识迁移到新的领域中,在源数据集和目标数据集分布不相
似时依然能够保持较好的分类效果。
(3)基于元学习的方法
元知识通常指模型的超参、初始权值、优化器等模型训练过程外可以学习到的先验知识。
元学习是指从一个非目标数据集中获取元知识,然后利用学习到的元知识来指导模型在目标任
务中的训练。
小样本学习的方法在早期主要被用于图像分类、文本分类等任务,近年也被广泛应用到目
标识别、人脸识别、短文本的情感分类、对话系统、疾病诊断、农作物病害识别等领域。

节选自:赵卫东,董亮.《机器学习(第2版)》.北京 人民邮电出版社,2022

目录
相关文章
|
6月前
|
机器学习/深度学习 资源调度 算法
【机器学习基础】对数几率回归(logistic回归)
【机器学习基础】对数几率回归(logistic回归)
146 0
|
8天前
|
机器学习/深度学习
【机器学习】贝叶斯统计中,“似然”和“后验概率”有什么区别?
【5月更文挑战第11天】【机器学习】贝叶斯统计中,“似然”和“后验概率”有什么区别?
|
8天前
|
机器学习/深度学习 数据可视化
数据分享|R语言逻辑回归Logisitc逐步回归训练与验证样本估计分析心脏病数据参数可视化
数据分享|R语言逻辑回归Logisitc逐步回归训练与验证样本估计分析心脏病数据参数可视化
|
8天前
|
数据可视化 数据挖掘 计算机视觉
R语言用贝叶斯线性回归、贝叶斯模型平均 (BMA)来预测工人工资
R语言用贝叶斯线性回归、贝叶斯模型平均 (BMA)来预测工人工资
|
8天前
|
存储 数据可视化
R语言中的Stan概率编程MCMC采样的贝叶斯模型
R语言中的Stan概率编程MCMC采样的贝叶斯模型
|
10月前
特征选择:回归,二分类,多分类特征选择有这么多差异需要注意
特征选择:回归,二分类,多分类特征选择有这么多差异需要注意
104 0
|
11月前
|
机器学习/深度学习 算法 固态存储
目标检测误检与负样本问题
目标检测误检与负样本问题
209 0
|
机器学习/深度学习 算法 Python
机器学习 - 决策树中,信息增益、信息增益率计算以及最佳特征挑选的Python实现
本文介绍决策树中,信息增益、信息增益率计算以及最佳特征挑选的Python实现
322 0
|
机器学习/深度学习 测试技术
【从零开始学习深度学习】12. 什么是模型的训练误差?基于三阶多项式的欠拟合与过拟合训练过程演示
【从零开始学习深度学习】12. 什么是模型的训练误差?基于三阶多项式的欠拟合与过拟合训练过程演示
【从零开始学习深度学习】12. 什么是模型的训练误差?基于三阶多项式的欠拟合与过拟合训练过程演示
|
机器学习/深度学习 算法 Python
【阿旭机器学习实战】【10】朴素贝叶斯模型原理及3种贝叶斯模型对比:高斯分布朴素贝叶斯、多项式分布朴素贝叶斯、伯努利分布朴素贝叶斯
【阿旭机器学习实战】【10】朴素贝叶斯模型原理及3种贝叶斯模型对比:高斯分布朴素贝叶斯、多项式分布朴素贝叶斯、伯努利分布朴素贝叶斯
【阿旭机器学习实战】【10】朴素贝叶斯模型原理及3种贝叶斯模型对比:高斯分布朴素贝叶斯、多项式分布朴素贝叶斯、伯努利分布朴素贝叶斯