少样本学习系列(一)【Metrics-Based Methods】

简介: 少样本学习系列(一)【Metrics-Based Methods】

  如下图所示,传统的图像分类任务是基于左边的给定训练数据,获得model,然后在右边的数据集上测试model的好坏。

  而对于小样本问题,其训练数据和测试数据如下所示:

  我们拥有的是大量的上方这些数据,也就是对于training中的airplaneautomobile等,我们有很多类数据,而对于下方Testing中像dogfrog等新的分类问题,就没有那么多类的标注数据。

  在了解Matching Networks之前,先要理解一下One-Shot Learning中的一个非常基础的概念N-way K-shot

  N-way K-shot:从Meta-dataset中随机抽取N类样本,(更简单的说法就是Support set中的类别数量,其label的组成通常称之为label set),每类样本随机抽取K+1个实例。其中每类样本中抽取K个实例组成Support set,剩下的实例组成Test set(通常为了区分真正的testing,将其称之为Query Set)。

  在特殊情况下:

  • K=1,称之为One-Shot Learning
  • K=0,称之为Zero-Shot Learning


背景


  人类能够利用已有的先验知识对为见过的类别,只需要少量数据就可以学到。较早的研究few-shot learning的文章:

  • Li Fe-Fei, Robert Fergus, and Pietro Perona. A bayesian approach to unsupervised one-shot learning of object categories. In Computer Vision, 2003. Proceedings. Ninth IEEE International Conference on, pages 1134. 1141. IEEE, 2003.
  • Li Fei-Fei, Robert Fergus, and Pietro Perona. One-shot learning of object categories. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 28(4):594{611, 2006.

  和通过因果关系的:

  • Brenden M Lake, Ruslan R Salakhutdinov, and Josh Tenenbaum. One-shot learning by inverting a compositional causal process. In Advances in neural information processing systems, pages 2526{2534, 2013.
  • Brenden M Lake, Chia-ying Lee, James R Glass, and Joshua B Tenenbaum. One-shot learning of generative speech concepts. Cognitive Science Society, 2014.

  传统的计算机视觉处理图像的方法主要就是基于特征的学习和基于度量的学习,像基于度量的就是将特征编码到隐空间,早些年可能也有用核函数的方法。也有通过因果关系的,更多的是从可解释性的手段上做这些事情。


Metrics-Based Methods


  Metrics-Based Methods最主要的还是基于小样本学一个数据的表示,同时机器学习中也有一个专门的分支做这件事情:表示学习,Representation Learning

  传统的参数学习期望是给定输入X XX预测输出Y YY,通过最小化损失函数来做到这件事情,常见的损失函数有以下几类:

Siamese Network

  • 论文题目:Siamese Neural Networks for One-Shot Image Recognition

  机器学习中当只有少量数据时,获取好的特征表征是非常难做到的一件事情。作者提出孪生网络,去获取输入特征之间的相似度排序,一旦这种抽取特征的网络得到,就可以应用于新的类别数据,依据相似度去做分类。这样做的好处在于,它不仅能够在新的数据上做分类,非当前这个分布下的数据也能够很好地分类。

  孪生网络首次被提出是在下面这篇论文中:

  • Jane Bromley, James W Bentz, Leon Bottou, Isabelle Guyon, Yann LeCun, Cli Moore, Eduard Sackinger, and Roopak Shah. Signature veri cation using a siamese time delay neural network. International Journal of Pattern Recognition and Arti cial Intelligence, 7(04):669{688, 1993.

  Siamese Network通过特殊的loss函数学会去区分给定的两个输入是否相同,由两个参数一样的神经网络组成,其网络结构如下图所示:

  核心思想是将输入编码到一个隐空间,有点类似迁移学习,但是不同之处在于Siamese Network是通过contrastive loss function来做到这一点的。

  为什么要用两个参数一样的神经网络来做呢?两个网络参数一样能够学地更快,并且能够将其编码到相同的特征空间中。

  在数据预处理部分,如果两张图片是同一类,我们需要将其标为1,否者标签为0。损失函数方面,常用两类损失函数:contrastive loss functiontriplet loss function

  • Contrastive Loss Function

image.png

其中image.png表示Siamese Network,m mm表示margin,是为了使得label=1时,期望D w  的输出为0,这样就很容易将网络的权重W WW也学成0,因此加一个margin。

  • Triplet loss function

 Triplet loss function的效果一般比Contrastive Loss Function还要好一点。因为其将正例、负例样本都有考虑进loss function:


  1. Anchor ( A ): The main data point。
  2. Positive ( P ): A data point similar to Anchor。
  3. Negative ( N ):A different data point than Anchor。


 如果用距离度量的话,我们期望测试样本距离正例的距离小于负例的距离,可表示为:


image.png

其中α也是用于控制网络对任意输入输出都为0的这种情况。因此其损失函数可表示为:

image.png

Matching Network


  • 论文题目:Matching Networks for One Shot Learning

  尽管机器学习已经取得了很大的成功,但是对于给定少量数据快速学习new concepts的能力还是欠缺。作者提出了一种新的网络框架来解决这个问题。

  non-parametric的方法(e.g., nearest neighbors)可以很快学习到一种样本之间的度量方式,进而将样本分类。基于(S Roweis, G Hinton, and R Salakhutdinov. Neighbourhood component analysis. NIPS, 2004.)这篇文章,作者提出了matching network,融合parametricnon-parametric的方式。

  Matching Network将输入和标签编码到一个空间中,测试的输入也将其编码到这个空间,之后计算余弦相似度,我们就可以得到匹配信息,从而进行预测。

image.png


  其中余弦相似度c cc计算的就是support setquery set在编码空间中的相似度。那如何将数据编码呢?图像领域可以采用VGG16或者Inception这种网络结构。

  为了考虑整个support set中样本之间的关系,我们可以考虑采用bi-directional Long Short-Term Memoryg ( x i ) g(x_{i})g(xi)做优化,这样就考虑了support set中样本的context信息。

  如果在训练的时候考虑了context信息,那么由于希望编码到相同的空间,那么对于测试样本x ^,我们也希望去考虑support setcontext信息,那f ( x ^ ) 就可以表示为:


image.png

 也就是说support set样本经过g ( S ) g(S)g(S)之后得到的输出可以修改query set中样本的embedding模型(通过一个固定步数的LSTMsupport setattention,再结合emeddings ( x ^ ) \text {emeddings}(\hat{x})emeddings(x^)K KKLSTM的步数)。

Full Conditional Embedding g gg

  将Full Conditional Embeddingg gg 打开,如下图所示:

  首先将x i x_{i}xi编码成一个向量g ′ g^{\prime}g,这个可以用VGG或者Inception这种网络做个特征提取即可,之后将其经过一个Bi-LSTM,再将其三者求和。

Full Conditional Embedding f ff

  将Full Conditional Embeddingf ff 打开,如下图所示:

  先不考虑support sets ssQuery Set中的样本x ^ 先编码得到f ′ f^{\prime}f,之后经过一个LSTM得到h ^ ,再与f ′ ( x ^ )相加。


image.png


总结


  上述过程可简化为以下几步:

image.png



相关文章
|
10月前
|
机器学习/深度学习 人工智能 计算机视觉
AI图像质感还原堪比专业摄影!Miracle F1:美图WHEE全新AI图像生成模型,支持超写实与多风格生成
美图WHEE推出的Miracle F1采用扩散模型技术,通过精准语义理解和多风格生成能力,可产出具有真实光影质感的专业级图像作品。
498 5
AI图像质感还原堪比专业摄影!Miracle F1:美图WHEE全新AI图像生成模型,支持超写实与多风格生成
|
9月前
|
机器学习/深度学习 人工智能 算法
深度解析:基于卷积神经网络的宠物识别
宠物识别技术随着饲养规模扩大而兴起,传统手段存在局限性,基于卷积神经网络的宠物识别技术应运而生。快瞳AI通过优化MobileNet-SSD架构、多尺度特征融合及动态网络剪枝等技术,实现高效精准识别。其在智能家居、宠物医疗和防走失领域展现广泛应用前景,为宠物管理带来智能化解决方案,推动行业迈向新高度。
|
7月前
|
机器学习/深度学习 监控 安全
基于YOLOv8的有无戴安全帽检测识别项目
本项目通过集成 YOLOv8 强大的目标检测能力与 PyQt5 的可视化界面,构建了一个 实用性强、易于部署、安全帽自动识别系统。无论是单张图片、视频监控,还是实时摄像头输入,该系统均可稳定工作,准确判断佩戴与未佩戴状态,极大减轻了传统人工巡查压力。
基于YOLOv8的有无戴安全帽检测识别项目
|
存储 监控 安全
《ArkTS模型更新秘籍:安全升级与一键回滚攻略》
在鸿蒙Next的ArkTS开发中,模型的安全更新和回滚机制至关重要。本文探讨了版本控制与校验、增量更新策略、更新过程中的安全防护、安全审计与监控等有效方法,确保应用稳定性和数据安全。同时,介绍了备份与恢复、基于版本的回滚及自动化触发等回滚机制,保障用户良好体验。
407 29
|
存储 安全 数据安全/隐私保护
ERP系统的灾备与数据恢复:保障企业业务连续性
【7月更文挑战第29天】 ERP系统的灾备与数据恢复:保障企业业务连续性
682 2
|
存储 监控 数据可视化
从繁琐到高效:数字化工具助力HR管理的实际案例
随着数字化转型加速,人力资源管理(HRM)正经历深刻变革。传统纸质记录和手动流程逐渐被数字化工具取代,提升了效率并带来全新管理模式。本文探讨了看板工具、HR管理系统等如何改变传统HRM模式,并重点介绍了板栗看板的独特价值,包括任务可视化、跨部门协作、自定义功能、数据驱动决策及移动端支持,助力企业优化流程、提升效率和员工体验。
|
11月前
|
机器学习/深度学习 人工智能 算法
强化学习:Gym的库的实践——小车上山(包含强化学习基础概念,环境配置国内镜像加速)——手把手教你入门强化学习(一)
本文开启“手把手教你入门强化学习”专栏,介绍强化学习基础概念及实践。强化学习通过智能体与环境交互,学习最优策略以最大化累积奖励,适用于复杂动态决策问题。文章讲解智能体、环境等核心概念,并使用Gym库进行案例实操,如CartPole和MountainCar环境的代码实现。最后预告下期将深入马尔科夫决策过程(MDP)。适合初学者系统了解强化学习并动手实践。创作不易,欢迎关注、点赞与收藏!
1482 4
|
机器学习/深度学习 API 计算机视觉
4.2 图像分类基本概念和ResNet设计思想
这篇文章介绍了图像分类的基本概念,详细阐述了ResNet(残差网络)的设计思想和实现方法,包括残差单元的结构设计、整体网络结构以及如何使用飞桨框架的高层API快速构建和训练图像分类模型。
|
算法 安全 量子技术
【2023 年第十三届 MathorCup 高校数学建模挑战赛】 B 题 城市轨道交通列车时刻表优化问题 42页论文及代码
本文介绍了2023年第十三届MathorCup高校数学建模挑战赛B题的研究成果,提供了城市轨道交通列车时刻表优化问题的详细建模方案、C++代码实现以及42页的完整论文,旨在通过贪心算法、二分搜索法和多目标规划等方法最小化企业运营成本并最大化服务水平。
337 0
【2023 年第十三届 MathorCup 高校数学建模挑战赛】 B 题 城市轨道交通列车时刻表优化问题 42页论文及代码
|
并行计算 Linux TensorFlow
TensorFlow各个GPU版本CUDA和cuDNN对应版本
TensorFlow各个GPU版本CUDA和cuDNN对应版本
TensorFlow各个GPU版本CUDA和cuDNN对应版本