CVPR论文 | 所见所想所找:基于生成模型的跨模态检索

简介: 视觉-文本跨模态检索已经成为计算机视觉和自然语言处理领域结合的一个热点。对于跨模态检索而言,如何学到合适的特征表达非常关键。本文提出了一种基于生成模型的跨模态检索方法,该方法可以学习跨模态数据的高层次特征相似性,以及目标模态上的局部相似性。

image

〔小叽导读〕:视觉-文本跨模态检索已经成为计算机视觉和自然语言处理领域结合的一个热点。对于跨模态检索而言,如何学到合适的特征表达非常关键。本文提出了一种基于生成模型的跨模态检索方法,该方法可以学习跨模态数据的高层次特征相似性,以及目标模态上的局部相似性。本文通过大量的实验证明了所提出的方法可以准确地匹配图像和文本,并且在MSCOCO以及Flickr30K的数据集上都取得了state-of-the-art的效果。

引言

我们已经进入到了一个大数据时代,不同模态的数据例如文本、图像等正在以爆炸性的速度增长。这些异质的模态数据也给用户的搜索带来了挑战。

对于文本-视觉的跨模态表示,常见的方法就是首先每个模态的数据编码成各自模态的特征表示,再映射到一个共同空间内。通过ranking loss来对其进行优化,使得相似的图像-文本对映射出的特征向量之间的距离小于不相似的图像-文本对之间的距离。

尽管这种方法学习出的特征可以很好地描述多模态数据高层语义,但是没有充分地挖掘图像的局部相似度和句子的句子层次相似度。例如文本检索图片时,我们会更多地关注图片的颜色、纹理以及布局等细节信息。而仅仅进行高层次特征匹配,显然无法考虑到局部的相似度。

本文的想法来源于对人的思维的思考。对于人来说,给定一段文字描述去检索匹配的图像,一名训练有素画家可以比普通人找到更匹配的图像,那是因为画家知道预期的图片是什么样;类似,给一幅图片去检索匹配的文字描述,一名作家也往往会给出比普通人更好的描述。我们把这种对检索目标有预期的过程称为——“Imagine”或者“脑补”。因此,我们提出了一种基于生成模型的跨模态特征学习框架(generative cross-modal feature learning framework,GXN),下图展示了本文的思想:

image

我们把原来的Look和Match变成了三个步骤:Look,Imagine和Match,也称为”所看所想所找”。Look叫“所看”,“看”是理解,实际就是提取特征。Imagine叫“所想”,根据“所看”去“脑补”预期的匹配结果, 也就是从得到的局部特征去生成目标模态的数据;Match也叫“所找”,根据生成/脑补的结果进行局部层次(sentence-level/pixel-level)匹配和高层次语义特征匹配。

方法

GXN包括三个模块:多模态特征表示(上部区域);图像 -文本生成特征学习(蓝色路径)和文本 - 图像生成对抗特征学习(绿色路径)。

image

第一个部分(上部区域)和基本的跨模态特征表示做法类似,将不同模态的数据映射到共同空间。这里包括一个图像编码器和两个句子编码器和。之所以分开2个句子编码器,是便于学到不同层次的特征。其中,是高层语义特征而作为局部层次的特征。这里的局部层次特征是通过生成模型学习得到的。

第二部分(蓝色路径)从底层视觉特征生成一个文本描述。包括一个图像编码器和一个句子解码器。这里计算损失时我们结合了增强学习的思想,通过奖励的方式来确保生成句子和真实句子之间具有最大的相似度。

第三部分(绿色路径)通过使用一个从文本特征中生成一幅图像,包括一个生成器和一个判别器。判别器用来区分基于文本生成的图像与真实图像。

最终,我们通过两路的跨模态特征生成学习学习到更好的跨模态特征表示。在测试时,我们只需要计算和之间的相似度来进行跨模态检索。

实验

本文提出的方法在MSCOCO数据集上和目前前沿的方法进行比较,并取得了state-of-the-art的结果。

image

总结

本文创新性地将图像-文本生成模型和文本-图像生成模型引入到传统的跨模态表示中,使其不仅能学习到多模态数据的高层的抽象表示,还能学习到底层的表示。显著超越state-of-the-art方法的表现证实了该方法的有效性。

原文发布时间为:2018-07-19
本文作者:匿名
本文来自云栖社区合作伙伴“阿里巴巴机器智能 ”,了解相关信息可以关注“ 阿里巴巴机器智能 ”。

相关文章
|
人工智能 自然语言处理 开发者
AIGC创作活动 | 跟着UP主秋葉一起部署AI视频生成应用!
本次AI创作活动由 B 站知名 AI Up 主“秋葉aaaki”带您学习在阿里云 模型在线服务(PAI-EAS)中零代码、一键部署基于ComfyUI和Stable Video Diffusion模型的AI视频生成Web应用,快速实现文本生成视频的AI生成解决方案,帮助您完成社交平台短视频内容生成、动画制作等任务。制作上传专属GIF视频,即有机会赢取乐歌M2S台式升降桌、天猫精灵、定制保温杯等好礼!
|
资源调度
一天掌握latex论文编辑,从标题作者,段落,数学公式,图片,图表,到参考文献全流程
一天掌握latex论文编辑,从标题作者,段落,数学公式,图片,图表,到参考文献全流程
1923 0
|
存储 API Docker
只需10分钟!就能用Flask,Docker和Jenkins部署机器学习模型
一杯茶的功夫部署完成机器学习模型!
3828 0
|
12月前
|
关系型数据库 分布式数据库 数据库
一库多能:阿里云PolarDB三大引擎、四种输出形态,覆盖企业数据库全场景
PolarDB是阿里云自研的新一代云原生数据库,提供极致弹性、高性能和海量存储。它包含三个版本:PolarDB-M(兼容MySQL)、PolarDB-PG(兼容PostgreSQL及Oracle语法)和PolarDB-X(分布式数据库)。支持公有云、专有云、DBStack及轻量版等多种形态,满足不同场景需求。2021年,PolarDB-PG与PolarDB-X开源,内核与商业版一致,推动国产数据库生态发展,同时兼容主流国产操作系统与芯片,获得权威安全认证。
|
传感器 机器学习/深度学习 编解码
一文尽览 | 基于点云、多模态的3D目标检测算法综述!(Point/Voxel/Point-Voxel)(下)
目前3D目标检测领域方案主要包括基于单目、双目、激光雷达点云、多模态数据融合等方式,本文主要介绍基于激光雷达雷达点云、多模态数据的相关算法,下面展开讨论下~
一文尽览 | 基于点云、多模态的3D目标检测算法综述!(Point/Voxel/Point-Voxel)(下)
|
11月前
|
传感器 存储 Java
Android 3D效果的实现
本文详细讲解了如何在Android中实现3D效果,基于官方Demo并结合实际需求进行调整。通过传感器(Sensor)获取设备旋转数据,利用OpenGL ES绘制3D立方体,实现了动态旋转的视觉效果。文章分为需求分析、效果展示、实现步骤及源码解析,涵盖传感器注册与注销、OpenGL核心方法使用等内容,适合初学者学习参考。文末附完整代码,便于实践操作。
349 0
Android 3D效果的实现
|
人工智能 自然语言处理 计算机视觉
Janus-Pro:DeepSeek 开源的多模态模型,支持图像理解和生成
Janus-Pro是DeepSeek推出的一款开源多模态AI模型,支持图像理解和生成,提供1B和7B两种规模,适配多元应用场景。通过改进的训练策略、扩展的数据集和更大规模的模型,显著提升了文本到图像的生成能力和指令跟随性能。
2738 20
Janus-Pro:DeepSeek 开源的多模态模型,支持图像理解和生成
|
物联网 5G UED
|
人工智能 自然语言处理 人机交互
询问ChatGPT对于多模态知识图谱的理解,以及如何构建一个多模态知识图谱?
询问ChatGPT对于多模态知识图谱的理解,以及如何构建一个多模态知识图谱?
53022 0
|
存储 人工智能 Java
Neo4j从入门到精通:打造高效知识图谱数据库 | AI应用开发
在大数据和人工智能时代,知识图谱作为一种高效的数据表示和查询方式,逐渐受到广泛关注。本文从入门到精通,详细介绍知识图谱及其存储工具Neo4j,涵盖知识图谱的介绍、Neo4j的特点、安装步骤、使用方法(创建、查询)及Cypher查询语言的详细讲解。通过本文,读者将全面了解如何利用Neo4j处理复杂关系数据。【10月更文挑战第14天】
1906 6

热门文章

最新文章