CVPR论文 | 所见所想所找:基于生成模型的跨模态检索

简介: 我们已经进入到了一个大数据时代,不同模态的数据例如文本、图像等正在以爆炸性的速度增长。这些异质的模态数据也给用户的搜索带来了挑战。

image.png

〔小叽导读〕:视觉-文本跨模态检索已经成为计算机视觉和自然语言处理领域结合的一个热点。对于跨模态检索而言,如何学到合适的特征表达非常关键。本文提出了一种基于生成模型的跨模态检索方法,该方法可以学习跨模态数据的高层次特征相似性,以及目标模态上的局部相似性。本文通过大量的实验证明了所提出的方法可以准确地匹配图像和文本,并且在MSCOCO以及Flickr30K的数据集上都取得了state-of-the-art的效果。

引言

我们已经进入到了一个大数据时代,不同模态的数据例如文本、图像等正在以爆炸性的速度增长。这些异质的模态数据也给用户的搜索带来了挑战。

对于文本-视觉的跨模态表示,常见的方法就是首先每个模态的数据编码成各自模态的特征表示,再映射到一个共同空间内。通过ranking loss来对其进行优化,使得相似的图像-文本对映射出的特征向量之间的距离小于不相似的图像-文本对之间的距离。

尽管这种方法学习出的特征可以很好地描述多模态数据高层语义,但是没有充分地挖掘图像的局部相似度和句子的句子层次相似度。例如文本检索图片时,我们会更多地关注图片的颜色、纹理以及布局等细节信息。而仅仅进行高层次特征匹配,显然无法考虑到局部的相似度。

本文的想法来源于对人的思维的思考。对于人来说,给定一段文字描述去检索匹配的图像,一名训练有素画家可以比普通人找到更匹配的图像,那是因为画家知道预期的图片是什么样;类似,给一幅图片去检索匹配的文字描述,一名作家也往往会给出比普通人更好的描述。我们把这种对检索目标有预期的过程称为——“Imagine”或者“脑补”。因此,我们提出了一种基于生成模型的跨模态特征学习框架(generative cross-modal feature learning framework,GXN),下图展示了本文的思想:

image.png

我们把原来的Look和Match变成了三个步骤:Look,Imagine和Match,也称为”所看所想所找”。Look叫“所看”,“看”是理解,实际就是提取特征。Imagine叫“所想”,根据“所看”去“脑补”预期的匹配结果, 也就是从得到的局部特征去生成目标模态的数据;Match也叫“所找”,根据生成/脑补的结果进行局部层次(sentence-level/pixel-level)匹配和高层次语义特征匹配。

方法

GXN包括三个模块:多模态特征表示(上部区域);图像 -文本生成特征学习(蓝色路径)和文本 - 图像生成对抗特征学习(绿色路径)。

image.png

  • 第一个部分(上部区域)和基本的跨模态特征表示做法类似,将不同模态的数据映射到共同空间。这里包括一个图像编码器和两个句子编码器和。之所以分开2个句子编码器,是便于学到不同层次的特征。其中,是高层语义特征而作为局部层次的特征。这里的局部层次特征是通过生成模型学习得到的。
  • 第二部分(蓝色路径)从底层视觉特征生成一个文本描述。包括一个图像编码器和一个句子解码器。这里计算损失时我们结合了增强学习的思想,通过奖励的方式来确保生成句子和真实句子之间具有最大的相似度。
  • 第三部分(绿色路径)通过使用一个从文本特征中生成一幅图像,包括一个生成器和一个判别器。判别器用来区分基于文本生成的图像与真实图像。

最终,我们通过两路的跨模态特征生成学习学习到更好的跨模态特征表示。在测试时,我们只需要计算和之间的相似度来进行跨模态检索。

实验

本文提出的方法在MSCOCO数据集上和目前前沿的方法进行比较,并取得了state-of-the-art的结果。

image.png

总结

本文创新性地将图像-文本生成模型和文本-图像生成模型引入到传统的跨模态表示中,使其不仅能学习到多模态数据的高层的抽象表示,还能学习到底层的表示。显著超越state-of-the-art方法的表现证实了该方法的有效性。

目录
相关文章
|
6月前
|
人工智能 监控 安全
紧急!!慎用Cursor V1.5.7版本!!!存在恶意大规模攻击用户项目文件行为
Cursor v1.5.7 利用DeepSeek 3.1的架构感知和代码能力,对用户项目文件进行多批次恶意攻击
985 12
|
安全 Java 应用服务中间件
组件漏洞修复---修改SpringBoot内置tomcat的版本号
安全反应Tomcat9.0.41存在安全漏洞,让将所有服务的Tomcat版本升级到9.0.44,我们都知道SpingBoot中是集成的有内置的Tomcat的,叫Embed-Tomcat,这个Tomcat和我们用于部署war包的Tomcat还是有有一些区别的,但是版本一直和Tomcat基本保持一致。
3521 0
组件漏洞修复---修改SpringBoot内置tomcat的版本号
|
7月前
|
JSON 文件存储 数据安全/隐私保护
微博超话自动签到神器, 微博自动签到神器app,贴吧微博签到脚本工具助手
核心模块包含超话列表获取和签到功能‌2使用配置文件存储cookies避免硬编码‌1
|
7月前
|
缓存 Cloud Native Java
Java 面试微服务架构与云原生技术实操内容及核心考点梳理 Java 面试
本内容涵盖Java面试核心技术实操,包括微服务架构(Spring Cloud Alibaba)、响应式编程(WebFlux)、容器化(Docker+K8s)、函数式编程、多级缓存、分库分表、链路追踪(Skywalking)等大厂高频考点,助你系统提升面试能力。
478 0
|
搜索推荐 Linux 定位技术
|
9月前
|
人工智能 运维 云计算
专家对谈|AI推动文化传媒行业向“新”发展
随着“人工智能+”行动的深入推进,文化传媒行业正经历深刻变革。云计算与AI深度融合,重构内容生产、分发全流程,为行业注入新动能。预计到2025年,我国AI核心产业规模将破万亿,文化传媒作为技术应用先锋,以两位数增速迈向智能化。在CCBN活动现场,中央广播电视总台与阿里云探讨了大模型如何驱动行业升级,展望未来新图景。汪莹指出,大模型将重构文化消费形态,助力生产力与传播力倍增,推动中国文化走向世界。同时,解决AI应用“最后一公里”问题需产业链各方协同发力,基于现有大模型能力进行二次开发是切实可行路径。
556 4
|
9月前
|
人工智能 JSON 缓存
利用 CodeBuddy 构建高效可维护的《植物大战僵尸》游戏项目
本文介绍基于Python开发的《植物大战僵尸》游戏项目,采用模块化设计,包含游戏逻辑、资源管理、UI与音效系统。通过CodeBuddy平台,实现智能代码补全、错误诊断、实时协作等功能,大幅提升开发效率。项目支持5种植物与4种僵尸,具备可扩展架构与关卡配置驱动机制。未来将探索Web/移动端移植及联网对战功能,欢迎访问GitHub贡献代码或体验。
436 8
|
人工智能 自然语言处理 算法
大模型备案、登记全流程攻略
在AI浪潮下,大模型技术迅猛发展,为各行业带来变革。为确保算法安全有序发展,需进行相关备案登记。具体包括:大模型备案(面向公众提供生成式服务)、大模型登记(借助第三方大模型)、算法备案(5类算法)及双新评估(舆论属性服务)。未及时备案将面临法律处罚,备案流程涉及属地初审、中央终审等环节,周期约3-4个月。境外模型和特定行业有额外限制,备案后仍需常态化安全管理。
|
机器学习/深度学习 人工智能 自然语言处理
扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法
DGLM(Diffusion Guided Language Modeling)是一种新型框架,结合了自回归模型的流畅性和扩散模型的灵活性,解决了现有引导生成方法的局限性。DGLM通过扩散网络生成语义提案,并使用轻量级提示生成器将嵌入转化为软提示,引导自回归解码器生成文本。该方法无需微调模型权重,易于控制新属性,并在多个基准数据集上表现出色。实验结果显示,DGLM在毒性缓解、情感控制和组合控制等方面优于现有方法,为可控文本生成提供了新的方向。
357 11
扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法