李飞飞团队最新论文:如何对图像中的实体精准“配对”?(附代码&论文)

简介:

dba90d30da7d1945b0a0a64df2c6082e2d9eb801

以下内容编译自Referring Relationships论文:

图像不仅仅是对象集合,每个图像都代表一个互相关联的关系网络。实体之间的关系具有语义意义,并能帮助观察者区分实体的实例。例如,在一张足球比赛的图像中,可能有多人在场,但每个人都参与着不同的关系:一个是踢球,另一个是守门。

在本文中,我们制定了利用这些“指称关系”来消除同一类别实体之间的歧义的任务。我们引入了一种迭代模型,它将指称关系中的两个实体进行定位,并相互制约。我们通过建模谓语来建立关系中实体之间的循环条件,这些谓语将实体连接起来,将注意力从一个实体转移到另一个实体。

我们证明了我们的模型不仅好于在三种数据集上实现的现有方法--- CLEVR,VRD 和 Visual Genome ---而且它还可以产生视觉上有意义的谓语变换,可以作为可解释神经网络的一个实例。最后,我们展示了将谓语建模为注意力转换,我们甚至可以在没有其类别的情况下进行定位实体,从而使模型找到完全看不见的类别。

指称关系任务

指称表达可以帮助我们在日常交流中识别和定位实体。比如,我们能够指出“踢球人”来区分“守门员”(图 1)。在这些例子中,我们都可以根据他们与其它实体的关系来区分这两人。 当一个人射门时,另一个人守门。 最终的目标是建立计算模型,以识别其他人所指的实体。

84c2f6efa42bb3fe666357e5f592010569348d32

图1:指称关系通过使用实体间的相对关系来消除同一类别实例之间的歧义。给出这种关系之后,这项任务需要我们的模型通过理解谓语来正确识别图像中的踢球人。

指称关系任务的结构化关系输入允许我们评估如何明确地识别图像中同一类别的实体。我们在包含视觉关系的三个视觉数据集上评估我们的模型 2:CLEVR,VRD 和 Visual Genome 。这些数据集中 33%、60.3% 和 61% 的关系是指不明确的实体,也即指具有相同类别的多个实例的实体。我们扩展了模型,使用场景图的关系来执行注意力扫视。最后,我们证明,在没有主体或客体的情况下,我们的模型仍然可以在实体之间消除歧义,同时也可以定位以前从未见过的新类别。

指称关系模型

我们的目标是通过对指称关系的实体进行定位,从而使用输入的指称关系来消除图像中的实体歧义。 形式上而言,输入是具有指称关系的图像 I,R = <S - P - O>,它们分别是主体,谓语和对象类别。 预计这个模型可以定位主体和客体。

模型设计

我们设计了一个迭代模型,学习如何在视觉关系中使用谓语来操作注意力转移,这受到了心理学中移动聚光理论的启发。给出足球的初始估值后,它会学习踢球的人必须在哪里。同样,如果对人进行估值,它将会学习确定球的位置。通过在这些估值之间进行迭代,我们的模型能够专注于正确实例,并排除其它实例。

d85e2be03cccea5dd5c52df141a290f789123fab

图 2:指称关系的推理首先要提取图像特征,这是用于生成主体和客体的基础。接下来,这些估值可以用来执行转换注意力,注意力使用了从主体到我们所期望客体位置的谓语。在对客体的新估值进行细化的同时,我们通过关注转换区域来修改图像特征。同时,我们研究了从初始客体到主体的反向移位。通过两个预测移位模块迭代地在主体和对象之间传递消息,可以最终定位这两个实体。

实验

我们在跨三个数据集的指称关系中评估模型性能来进行实验操作,其中每个数据集提供了一组独特的特征来补充我们的实验。 接下来,我们评估在输入指称关系中缺少其中一个实体的情况下如何改进模型。 最后,通过展示模型如何模块化并用于场景图注意力扫视来结束实验。

以下是我们在 CLEVR、VRD 和 Visual Genome 上的评估结果。 我们分别标出了对主题和对象定位的 Mean IoU 和 KL 分歧:

6765823a5233dfd47764dfdc738de99baaf5b386

在三种测试条件下缺少实体的指称关系结果:

3c78ee01376fc019f305ba799e618b60b6938d89

图 3:(a)相对于图像中的主体,当使用<subject - left - of object>关系来查找客体时,左边的谓语会把注意力转移到右边。相反,当使用物体找到主体时,左侧的逆谓语会将注意力转移到左侧。在辅助材料中,我们可视化了 70 个 VRD、6 个 CLEVR 和 70 个 Visual Genome 的谓语和逆谓语转化(b)我们还看到,在查看用于了解它们的数据集时,这些转换是直观的。

2978775559e02530b1af06468c5f9adfdb4cc95c

图 4:这是 CLEVR 和 Visual Genome 数据集的注意力转移如何跨越多次迭代的示例。在第一次迭代时,模型仅接收试图找到以及尝试定位这些类别中所有实例的实体信息。在后面的迭代中,我们看到谓语转换注意力,这可以让我们的模型消除相同类别的不同实例之间的歧义。

74ef13231e62a07a54710152bc322bb486bb8406

图 5:我们可以将我们的模型分解成其注意力和转换模块,并将它们堆叠起来作为场景图的节点。 在这里,我们演示了如何使用模型从一个节点(手机)开始,并使用指称关系来通过场景图连接节点,并在短语<拿电话的人旁边有人身穿夹克>中定位实体。 第二个例子是关于<在戴帽子的人的右边有个人一张桌子前>中的实体。

结论

我们介绍了指称关系的目的,其中我们的模型利用视觉关系来消除了同一类别实例之间的歧义。我们的模型学习去迭代地使用谓语作为一种关系里,两个实体之间的注意力转换。它通过分别对主体和客体的先前位置进行预测,来更新其关于主体和客体的位置信息。我们展示了 CLEVR,VRD 和 Visual Genome 数据集的改进,证明了我们的模型产生了可解释的谓语转换,使我们能够验证模型实际上是在学习转移注意力。通过依赖部分指称关系以及如何将其扩展到场景图上执行注意力扫视,我们甚至展示了如何使用我们的模型来定位完全看不见的类别。指称关系的改进可能为视觉算法探测未见的实体铺路,并学习如何增强对视觉世界的理解。



原文发布时间为:2018-04-9

本文作者:费棋

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”微信公众号

相关文章
|
JavaScript 前端开发 C#
javascript之ProtoBuf在websocket中的使用
因为ProtoBuf的序列化效率和大小都非常好,所以它在网络通信上面应用越来越多;而webosocket也随着web3.0应用越来越广泛,而将这两个结合在一起的也会慢慢形成一种趋势;本人是为了测试自已写的一个C# websocket,所以在web上面结合pb也写了一个js实例: 1.
3538 0
目前还存活的多个电驴下载站点
<div id="link-report"> <div class="topic-content"> <p>0、<a href="http://www.douban.com/link2?url=http%3A//www.emule-project.net/" rel="nofollow" target="_blank">http://www.emule-pro<wbr>ject.net
22775 0
|
Java C++ 开发者
深入理解 Java 异常体系:Checked vs Unchecked Exception
本文深入解析Java异常体系,厘清Error、Exception与RuntimeException的关系,探讨Checked与Unchecked异常的本质区别及设计争议,并结合Spring等框架实践,给出自定义异常、异常处理等最佳实践建议,助你掌握Java异常核心逻辑。
350 7
|
人工智能 算法
图像伪造照妖镜!北大发布多模态LLM图像篡改检测定位框架FakeShield
北京大学研究团队提出了一种名为FakeShield的多模态框架,旨在解决图像伪造检测与定位(IFDL)中的黑箱问题及泛化能力不足。FakeShield不仅能评估图像真实性,生成篡改区域的掩码,还能提供像素级和图像级的篡改线索及详细文本描述,增强检测的可解释性。通过使用GPT-4o增强现有数据集,创建多模态篡改描述数据集(MMTD-Set),并引入领域标签引导的可解释伪造检测模块(DTE-FDM)和多模态伪造定位模块(MFLM),FakeShield在多种篡改技术的检测与定位上表现优异,为图像真实性维护提供了有力工具。
783 14
|
9月前
|
5G Linux 网络架构
一款简单纯粹的在线测速工具 - 免费开源 | 基于LibreSpeed开源项目开发
龙腾测速网是由龙毅基于开源项目LibreSpeed美化开发的免费在线测速工具,界面简洁、功能纯粹,支持所有现代浏览器。提供上传下载速度、延迟、抖动等网络信息,测速结果精准稳定,可自动保存并导出历史记录。适用于Windows、macOS、Linux系统,无需安装,打开网页即可使用,是判断网络问题的实用工具。项目完全开源,可自由二次开发。
1257 0
|
SQL 关系型数据库 MySQL
宝塔面板之MySQL无法远程连接
宝塔面板默认安装的MySQL,root用户无远程权限。本文详细介绍如何使root支持远程连接:确保3306端口已放行,通过SSH登录服务器并进入MySQL,修改root用户的host为&#39;%&#39;,最后刷新权限。具体步骤包括使用SQL命令修改用户主机设置,并确保网络配置正确,从而实现root的远程访问。
3037 35
|
数据采集 存储 监控
网络爬虫的最佳实践:结合 set_time_limit() 与 setTrafficLimit() 抓取云盘数据
本文探讨了如何利用 PHP 的 `set_time_limit()` 与爬虫工具的 `setTrafficLimit()` 方法,结合多线程和代理 IP 技术,高效稳定地抓取百度云盘的公开资源。通过设置脚本执行时间和流量限制,使用多线程提高抓取效率,并通过代理 IP 防止 IP 封禁,确保长时间稳定运行。文章还提供了示例代码,展示了如何具体实现这一过程,并加入了数据分类统计功能以监控抓取效果。
327 17
网络爬虫的最佳实践:结合 set_time_limit() 与 setTrafficLimit() 抓取云盘数据
|
存储 监控
显示器中的HDR10、HDR400、HDR600有什么区别?
HDR10是通用的HDR标准,无需支付版权费;HDR400、HDR600等是VESA的DisplayHDR等级,根据亮度、色域、色深等指标划分,数值越高代表性能越强,如HDR400要求400nit亮度,HDR600则需600nit以上。
|
机器学习/深度学习 传感器 边缘计算
基于深度学习的图像识别技术在自动驾驶汽车中的应用##
本文深入探讨了深度学习技术在自动驾驶汽车图像识别领域的应用,通过分析卷积神经网络(CNN)、循环神经网络(RNN)等关键技术,阐述了如何利用这些先进的算法来提升自动驾驶系统对环境感知的准确性和效率。文章还讨论了当前面临的挑战,如数据多样性、模型泛化能力以及实时处理速度等问题,并展望了未来发展趋势,包括端到端学习框架、跨模态融合及强化学习方法的应用前景。 --- ##
401 1
|
监控 网络协议 网络安全
ssh服务中如何批量管理100多台机器(Paramiko、 psutil模块)、跳板机(堡垒机)
ssh服务中如何批量管理100多台机器(Paramiko、 psutil模块)、跳板机(堡垒机)

热门文章

最新文章