零示例学习中的映射域迁移 (projection domain shift) 问题-阿里云开发者社区

开发者社区> 雷锋网> 正文

零示例学习中的映射域迁移 (projection domain shift) 问题

简介: 本文介绍了两种解决零示例学习中的映射域迁移问题的方法 AEZSL 和 DAEZSL 。
+关注继续查看

雷锋网(公众号:雷锋网) AI 科技评论按:本文由上海交通大学副教授牛力为 AI 科技评论提供的独家稿件,未经许可不得转载。

在传统的机器学习中,训练和测试都在相同的种类集合上进行。而在零示例学习 (zero-shot learning) 中,训练种类集合和测试种类集合没有重合,即在属于训练种类集合的数据上训练模型,然后在属于测试种类集合的数据上进行预测。训练种类和测试种类需要通过所有种类的语义信息建立联系,才能把在训练种类的分类模型用于测试种类。常见的种类语义信息包括属性 (attribute) 和词向量 (word vector) 等等。其中属性需要人工标注,但是更精确,因而效果更好。我们把图像的视觉特征称为视觉空间 (visual space),把种类的语义信息称为语义空间 (semantic space)。现有的一大类零示例学习的方法是把视觉空间映射到语义空间,或者把语义空间映射到视觉空间,或者把两者映射到共同的子空间。其中学习到的映射称为视觉语义映射 (visual-semantic mapping)。比如语义空间有一种属性是 has_tail,我们需要学习从视觉空间到该属性的映射,这样给定一张新的动物图片,我们就可以判断它有没有尾巴。在这种情况下,视觉语义映射相当于由若干个属性分类器构成。但是对于不同种类来说,视觉语义映射有很大的差异。比如斑马和猪都有尾巴,但是它们尾巴的视觉呈现差别很大,因而对应的属性分类器差异也很大。如果对于所有种类使用相同的视觉语义映射,在测试种类上得到的效果就会大打折扣。这个问题被称为零示例学习中的映射域迁移 (projection domain shift) 问题。

之前大多数解决映射域迁移的方法都是在训练阶段使用未标注的测试种类数据,为训练种类和测试种类学习一个共同的映射,或者为训练种类和测试种类分别学习一个映射。但是由于各个种类的映射之间差异性都很大,仅仅学习一个或两个映射是远远不够的。所以我们提出为每一个种类都学习一个不同的视觉语义映射 (category-specific visual-semantic mapping),文章发表在期刊 Transaction on Image Processing (T-IP) . 具体来说,我们先提出了一种传统的方法 AEZSL,利用种类之间的相似关系为每一个测试种类训练一个视觉语义映射。但是对于大规模任务来说这种训练成本十分高昂,所以我们又提出一种基于深度学习的方法 DAEZSL,只需要训练一次就可以应用到任意测试种类。下面分别介绍 AEZSL 和 DAEZSL。

(1) Adaptive Embedding Zero-Shot Learning (AEZSL)

我们的方法基于 Embarrassingly Simple Zero-Shot Learning (ESZSL)。ESZSL 的表达式如下,

TB1lIlqg4naK1RjSZFtXXbC2VXa.png

其中 X 是视觉特征,A 是语义信息,W 是视觉语义映射,Y 是种类标签信息。ESZSL 为所有种类学习一个相同的视觉语义映射 W。我们在 ESZSL 的基础上稍作修改,利用每一个测试种类和所有训练种类的相似关系(根据种类的语义信息计算得到),为每一个测试种类学一个单独的视觉语义映射,表达式如下:

TB1JRE6gMDqK1RjSZSyXXaxEVXa.png

其中 Wc 是第 c 个测试种类的视觉语义映射,Sc 是第 c 个测试种类和所有训练种类的相似矩阵。这样就可以利用种类之间的相似关系把视觉语义映射迁移到各个测试种类。但是我们的 AEZSL 需要对每一个测试种类都训练一个视觉语义映射,对于大规模的任务训练成本非常高昂。因此我们又提出了一种基于深度学习的方法 Deep AEZSL (DAEZSL),只需要在训练种类上训练一次就能应用到任意测试种类,具体介绍如下。

(2) Deep AEZSL (DAEZSL)

我们旨在学习一个从语义信息到视觉语义映射的映射函数,这样给定任意一个种类的语义信息,我们就能很方便地获得该种类的视觉语义映射。但是这样一个映射函数复杂度较高,所以我们采取一种替代的方式,假设每一个种类都存在学习视觉特征权重,然后学习从语义信息到视觉特征权重的映射函数。学习针对每个种类的视觉特种权重相当于隐性地学习针对每个种类的视觉语义映射,具体解释请参考论文。我们设计的网络结构如下图。在训练阶段,假设共有 C 个训练种类,在上面的子网络中,训练图片的视觉特征被复制成 C 份,在下面的子网络中,所有种类的语义信息通过 MLP 产生所有种类的视觉特征权重,作用于复制了 C 份的视觉特征。加权后的视觉特征通过全连接层(相当于视觉语义映射)后和所有种类的语义信息相乘得到最终的预测值。在测试阶段,测试图片通过上面的子网络,所有测试种类的语义信息通过下面的子网络,相乘得到该测试图片的预测值。

TB1wMs7gNTpK1RjSZR0XXbEwXXa.png

我们在三个小规模数据库 CUB, SUN, Dogs 和一个大规模数据库 ImageNet 上做了大量的实验,实验结果表明我们的方法在小规模和大规模数据库上均取得了最优的结果。除了定量结果,我们也提供了深入的定性分析。我们选择了两张「flea market」种类的图片,这两张图片被我们的 AEZSL 方法成功分类,却被 ESZSL 错分为「shoe shop」。通过对比「flea market」和「shoe shop」的语义信息,「cloth」和「cluttered space」这两个属性更能代表「flea market」。我们在下图列出了两张图片通过 ESZSL 和 AEZSL 方法得到的在「cloth」和「cluttered space」两属性上的投影值。从下图可以看出我们的方法 AEZSL 在两个属性上有更高的投影值,也就是说我们的方法能更好地捕获「flea market」种类在「cloth」和「cluttered space」两属性上的语义信息。

 

TB1XXtog4YaK1RjSZFnXXa80pXa.png

为了更好的解释说明,我们列举了同样包含「cloth」属性的两个种类「badminton court」和「bedchamber」, 以及同样包含「cluttered space」属性的两个种类「recycling plant」和「landfill」。从下图可以看出,同一个属性在不同种类上的视觉呈现和语义信息大相径庭。

TB1uXM_gMHqK1RjSZFgXXa7JXXa.png

对于「flea market」种类,我们列举了和它最相近的几个种类 bazaar, thrift shop, market, general store(如下图所示)。可见对于「cloth」和「cluttered space」两个属性,「flea market」和上述种类更为接近。我们的方法通过关联和「flea market」相近的几个种类,更好地捕获了「flea market」种类的「cloth」和「cluttered space」属性的语义信息,学到了更契合该种类的视觉语义映射。

TB1Etc7gPDpK1RjSZFrXXa78VXa.jpg

总结一下,我们提出了为每一个种类学习单独的视觉语义映射,更好地捕获每个种类的语义信息,从而解决零示例学习中的映射域迁移问题。具体来说,我们提出了传统的 AEZSL 方法和基于深度学习的 DAEZSL 方法。AEZSL 方法为每个测试种类训练得到一个视觉语义映射,而 DAEZSL 只需要在训练种类上训练一次便可应用到任意测试种类。在四个数据库上的定量结果和定性分析充分展示了我们方法的优越性。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Gmail宕机 备份问题成云计算新题
本文讲的是Gmail宕机 备份问题成云计算新题,周二的Gmail宕机事件不仅给用户带来了不便,还再次引发了用户对于云计算可行性的担忧。一种比较流行的说法是,今后的电脑无需大容量硬盘,因为所有的应用和个人数据(包括图片、视频、文档和电子邮件)都将被存储于远程服务器中,这也就是所谓的“云计算”。
1130 0
java编程学习笔记——mybatis SQL注入问题
 SQL 注入攻击   首先了解下概念,什么叫SQL 注入:   SQL注入攻击,简称SQL攻击或注入攻击,是发生于应用程序之数据库层的安全漏洞。
1251 0
jQuery学习笔记之DOM操作、事件绑定(2)
jQuery学习笔记之DOM操作、事件绑定(2) ————————————————————学习目录———————————————————————— 4.DOM操作 5.事件绑定 源码地址: https://github.com/iyun/jQueryDemo.git ————————————————————学习目录———————————————————————
1397 0
Spring 4.0.2 学习笔记(2) - 自动注入及properties文件的使用
接上一篇继续, 学习了基本的注入使用后,可能有人会跟我一样觉得有点不爽,Programmer的每个Field,至少要有一个setter,这样spring配置文件中才能用...来注入. 能否不要这些setter方法? 答案是Yes 一、为Spring配置文件,添加annotation支持,以及 de...
668 0
(二十六)svn的问题二
<span style="font-size:18px">   上周五请了一天假,电脑放在公司没有带回来,三天的时间都没有看代码,使得我电脑上的东西与svn上相差了太多,因为不一样,所以就要更新同步,因为要更新同步的东西多,便又出了一些问题,也因此对svn有了更进一步的理解。<br>    上周算是对svn有了一个大概过程的理解,基本上知道了每一大步应该是怎样的,但是涉及到具体的细节却依
1150 0
MaxCompute客户端(odpscmd)在windows命令行下查询中文乱码问题处理实践
MaxCompute客户端工具是阿里云大数据计算服务MaxCompue产品官方客户端工具,通过客户端工具可以连接MaxCompute项目,完成包括数据管理、数据上下传、作业执行、用户及授权管理等各项操作。
5432 0
嵌入式linux、QT、ARM、android研发学习交流,软考嵌入式系统设计师交流群,欢迎大家加入,群号95388240
 嵌入式linux、QT、ARM、android研发学习交流,软考嵌入式系统设计师交流群,欢迎大家加入,群号95388240
897 0
+关注
516
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载