【CVPR 2018热文】MIT提出“透明设计”网络,揭开视觉黑盒

简介: MIT和普朗克航空系统公司的研究人员合作,提出了一类“透明设计网络”,在李飞飞等人提出的视觉理解数据库CLEVR上达到了99.1%的准确率,他们设计的模块使用注意力机制,缩小了现有视觉理解模型在性能和可解释性之间的差距,相关论文已被CVPR 2018接收,你也可以用公布的代码构建自己的视觉理解模型。

根据看到的图像来回答问题,需要在图像识别和分类的基础上再进一步,形成对图中物体彼此关系的推理和理解,是机器完成复杂任务所需的一项基本能力,也是视觉研究人员目前正在努力攻克的问题。

最近,在视觉推理任务中,模块化的网络展现出了很高的性能,但它们在可解释性方面还多有欠缺。为了解决这个问题,MIT和普朗克航空系统公司的研究人员合作,围绕视觉注意力机制,提出了一组视觉推理原语(primitives),组合起来后得到的模型,能够以明确可解释的方式,执行复杂的视觉推理任务,在视觉理解数据集CLEVR上达到了99.1%的准确率

他们将这种设计模型的方法称之为“透明设计”(Transparency-by-Design,TbD),使用这种方法设计出的网络则称为“透明设计网络”(TbD-nets)。

347b32c43f7f8e0f2531aa1f81710259cdbc28c9

CLEVR视觉问答任务示意:新提出的透明设计网络(TbD-net)组成了一系列的注意力掩码(mask),使其能够正确计数图像中的两个大型(Large)金属(Metal)圆柱体(Cyliner)。

由上可见,模块在输出时,将结果高亮显示,这样人类也能够检查每个模块的中间输出,并且从一个高的层次理解模块的行为,研究人员认为,这样的模型就可以说是“透明”的。他们在论文中写道,这些原语的输出的保真度(fidelity)和可解释性(interpretability),让我们在诊断所得模型的优缺点方面,获得了无与伦比的能力。由此,缩小了现有视觉理解模型在性能和可解释性之间的差距。

他们还表明,当提供给模型的数据集很小,而且其中含有从未见过的新数据时,模型也能很好地学会泛化表示。在CoGenT泛化任务中,得到了比现有最好技术提高了20个百分点的成绩。

相关论文《透明设计:缩小视觉推理中性能和可解释性之间的差距》(Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning),已经被CVPR 2018接收。利用开源代码,你也能构建视觉理解模型并在CLEVR数据集上测试,自己问问题,看看模型能否给出正确回答。

论文: https://arxiv.org/abs/1803.05268v1

代码: https://github.com/davidmascharka/tbd-nets

CLEVR:10 万图像+100 万问题,构建视觉理解基准

在介绍成果前,简单介绍一下这项工作的基础——CLEVR数据集。CLEVR是李飞飞领导的斯坦福人工智能实验室和Facebook AI Lab联合提出的一个视觉问题基准,结合语义和推理,测试机器的语言视觉(Language Vision)在语义(Syntax)和推理(Inference)方面的能力。

bbbf79b0e2617c0a00c1a638ae2588d015fb9481

CLEVR 包含 10 万张经过渲染的图像和大约 100 万个自动生成的问题,其中有 85.3 万个问题是互不相同的,包含了测试计数、比较、逻辑推理和在记忆中存储信息等视觉推理能力的图像和问题。

CoGenT是CLEVR的一个子任务,全称是Compositional Generalization Test,检验模型在测试时识别新组合的属性的能力。

4296513badf43cea52a16c2da0a1a403587ed116

CLEVR中的每个问题都以自然语言和函数编程(functional program)的形式表示,函数编程表示让人能精确确定模型回答每个问题所需的推理技能。

透明设计:围绕注意力机制构建,可解释的视觉推理原语

将一个复杂的推理链分解为一系列较小的子问题,其中每一个子问题都可以独立解决,然后组合起来,这是一种强大而直观的推理手段。像这样的模块化结构还允许在推理过程的每个步骤检查网络的输出,取决于产生可解释输出的模块设计。

受此启发,我们提出一个神经模块网络(neural module network),该网络在图像空间中构建一个注意力机制模型,我们称之为透明设计网络( Transparency by Design network ,TbD-net),因为透明度(Transparency)是我们设计决策的驱动因素。

这个设计决策考虑到一些模块只需要关注图像中某个局部的特征,例如注意力模块(Attention module)只关注不同的对象或特征一样。其他模块则需要在全局环境中执行操作,例如关联模块(Relate modules),它必须要将注意力转移到整个图像上。我们将每个模块任务的先验知识与经验实验相结合,从而为每个操作优化出一套新的模块化架构。

在视觉问题回答任务中,推理链中的大多数步骤都需要对具有一些明显可见属性的对象(例如颜色,材质等)进行定位。我们确保每个执行此类型过滤的TbD模块都输出一维注意力掩模(attention mask),它可以明确地划分相关的空间区域。因此, TbD-net不是在整个网络中细化高维特征映射,而是仅通过其模块之间的attention mask。通过故意强化这种行为,我们产生了一个极好的具有可解释性和直观性的模型。这意味着我们离打开复杂的神经网络的黑盒又近了一步。

图3显示了一个TbDnet如何在整个推理链中适当地转移注意力,它解决了一个复杂的VQA问题,并且通过直接显示它产生的attention mask,可以很容易地解释这个过程。这里显示的所有attention masks都是使用视觉均匀的颜色图生成的。

架构细节

以下描述每个模块的架构。表1显示了所有的模块概览。有几个模块共享输入和输出类型(例如Attention和Relate),但实现方式不同,这取决于它们的特定任务。

2d481b0c3cee2c7e13bcf05a3bf302ddd0a5533d

表1:Transparency by Design network中使用的模块。Attention和Encoding分别指前一模块的单维和高维输出。Stem是指训练的神经网络产生的图像特征。变量x和y表示场景中不同的对象,例如[property]表示颜色,形状,大小或材质

我们使用从ResNet-101中提取的图像特征,并通过一个简单的卷积模块“stem”提供这些特征。我们为大多数模块提供了stem特征,这确保了每个模块都可以轻松访问图像特征,并且在长的合成中不会丢失任何信息。stem可以将ResNet的高维特征输入转换为适合我们任务的低维特征。

具体的模块描述如下:

8481c8f592b7f349aa84a1de5c171db681516edf Attention 模块 处理包含具有指定属性的对象的图像区域。
8481c8f592b7f349aa84a1de5c171db681516edf And和Or模块 分别在一组交集和并集中组合两个attention masks。
8481c8f592b7f349aa84a1de5c171db681516edf Relate 模块 处理与另一个区域有一定空间关系的区域。
8481c8f592b7f349aa84a1de5c171db681516edfSame模块 处理一个区域,从该区域提取相关的属性,并出现在共享该属性的图像中其他区域。
8481c8f592b7f349aa84a1de5c171db681516edf Query 模块 从图像的参与区域提取特征。
8481c8f592b7f349aa84a1de5c171db681516edf Compare 模块 比较两个Query 模块输出的特征,并生成一个特征映射,用于对特征是否相同进行编码。
8481c8f592b7f349aa84a1de5c171db681516edf 最后一个模块是一个 classifier ,它将Query或Compare 模块中的特征映射作为输入,并产生一个分布答案。
493235a7144c68485dce30e52c882263749f8a53

图3. 从上到下看,透明设计网络(TbD-net)组成视觉attention masks来回答关于场景中对象的问题。树形图(左侧)表示TbD-net使用的模块,右侧显示了相应的attention masks。

实验:精度达到99.1%

我们使用CLEVR数据集和CLEVR-CoGenT来评估我们的模型。CLEVR是一个VQA数据集,包含70k图像和700k问题的训练集,以及15k图像和150k问题的测试和验证集。

CLEVR

我们的初始模型在CLEVR数据集上实现了98.7%的测试精度,远远超过其他基于神经网络的方法。我们利用模型生成的attention masks来优化这个初始模型,进而实现99.1%的精确度。考虑到针对CLEVR已有许多高效的模型,我们对模型进行了5次训练,以得到统计性能测量,结果平均验证准确率为99.1%,标准差为0.07。此外,我们注意到其他模型没有一个能够以直观的方式检查它们的推理过程。而我们的模型在视觉推理过程的每个阶段都提供了直接的、可解释的输出。

f20f736b3c6c0d9d9e9d430df49fed1ca082d441

图4. 输入图像(左)和Attention[large]模块产生的attention mask覆盖在输入图像上。如果不处罚attention mask输出(中间),attention mask会产生噪音并在背景区域产生响应。惩罚attention输出(右图)提供了一个信号来减少外界的attention。

透明度

我们检查了TbD模型的中间模块产生的attention masks。结果显示,我们的模型明确地构成了视觉attention masks以得出答案,从而导致神经网络具有前所未有的透明度(transparency)。

图3显示了整个问题的视觉注意力组成。在本节中,我们提供透明度的定量分析。我们进一步检查了几个模块的输出,表明任何组成的每一步都可以直接解释。

c286a54b725c4ce214053506842cadc648af798b

图5. 输入图像(左)和被要求注意蓝色柱状块后面区域以及大的青色椭球块前面区域产生的attention masks,输入特征分别是14×14(中)和28×28(右)。

3e5d9272724e8ee9bdddebcc59b2d40c6fc9f8bb

表2. CLEVR数据集上 state-of-the-art 模型的性能比较。我们的模型运行良好,同时保持模型透明度。我们在Query问题上实现了最先进的性能表现,同时保持了其他所有类别的竞争力。

54c6c6bb4e1c2caad673e3d2b67436558ee7e054

图6. 输入图像(左)和Attention[metal]模块(右)产生的attention mask。当attention mask叠加在输入图像顶部(中图)时,显然注意力集中在金属块上。

CLEVR-CoGenT

CLEVR-CoGenT数据集为泛化提供了极好的测试。它与CLEVR数据集的形式完全相同,只是它有两个不同的条件。在条件A中,所有立方体的颜色都是灰色,蓝色,棕色或黄色,并且所有圆柱体都是红色,绿色,紫色或青色中的一种; 在条件B中所有颜色交换。这可以检查模型是否将形状和颜色的概念关联在一起。

09d1d707fb97aa101e0540976a753cae5c03b2aa

图7. 一个输入图像(左)和Relate[right]模块(右)在紫色圆柱体受到注意时产生的attention mask。当attention mask叠加在输入图像顶部(中图)时,很明显注意力集中在紫色圆柱右侧的区域。

bf64353b039d0a550d34317078ce5bf7da7ebf23

表3. 仅在条件A数据(中间列)上训练,并且在微调具有新属性的少量数据(右侧列)之后的CoGenT数据集上,TbD-net与当前 state-of-the-art 模型的性能比较。

如表3所示,我们的模型在条件A上达到98.8%的准确性,但条件B上只有75.4%。然后我们使用3k图像和条件B数据中的30k个问题对我们的模型进行微调。其他模型在微调后会看到条件A数据的性能显着下降,而我们的模型保持高性能。如表3所示,我们的模型可以从少量的条件B数据中有效地学习。在微调后,我们在条件A上达到96.9%的准确度,在条件B上达到96.3%的准确度,远高于 state-of-the-art模型报告的条件A 76.1%和条件B 92.7%的准确度。

强大的诊断工具,有助于信任视觉推理系统

我们提出Transparency by Design网络,它构成了利用明确的注意力机制来执行推理操作的可视化基元。与此前的模型不同,由此产生的神经组件网络既具有高性能又易于解释。这是利用TbD模型的关键优势——通过生成的attention masks 直接评估模型的学习过程,这是一个强大的诊断工具。

人们可以利用这种能力来检查视觉操作的语义,例如“相同的颜色”,并重新设计模块以解决推理中明显的偏差。利用这些attention作为提高性能的手段,我们在具有挑战性的CLEVR数据集和CoGenT generalization任务上实现了最高的准确度。对神经网络操作的这种洞察也有助于用户建立对视觉推理系统的信任。


原文发布时间为:2018-03-16

本文作者:闻菲、肖琴

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:【CVPR 2018热文】MIT提出“透明设计”网络,揭开视觉黑盒

相关文章
|
3月前
|
机器学习/深度学习 人工智能
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念对齐人类
【10月更文挑战第18天】这篇论文提出了一种名为AligNet的框架,旨在通过将人类知识注入神经网络来解决其与人类认知的不匹配问题。AligNet通过训练教师模型模仿人类判断,并将人类化的结构和知识转移至预训练的视觉模型中,从而提高模型在多种任务上的泛化能力和稳健性。实验结果表明,人类对齐的模型在相似性任务和出分布情况下表现更佳。
87 3
|
8月前
|
机器学习/深度学习 计算机视觉 知识图谱
【YOLOv8改进】MobileViT 更换主干网络: 轻量级、通用且适合移动设备的视觉变压器 (论文笔记+引入代码)
MobileViT是针对移动设备的轻量级视觉Transformer网络,结合CNN的局部特征、Transformer的全局注意力和ViT的表示学习。在ImageNet-1k上,它以600万参数实现78.4%的top-1准确率,超越MobileNetv3和DeiT。MobileViT不仅适用于图像分类,还在目标检测等任务中表现出色,且优化简单,代码已开源。YOLOv8引入了MobileViT块,整合卷积和Transformer结构,提升模型性能。更多详情可参考相关专栏和链接。
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
卷积神经网络(CNN):视觉识别的革命先锋
卷积神经网络(CNN)作为人工智能领域的一颗璀璨明珠,在计算机视觉中发挥着核心作用。CNN的发展历程展现了从生物学灵感到技术创新的转变,历经LeNet-5至AlexNet、VGGNet、ResNet等里程碑式的进步。其独特结构包括卷积层、池化层及全连接层,能够层层递进地提取特征并作出决策。CNN不仅在图像分类、目标检测等领域表现卓越,还在人脸识别、医学影像分析等方面展现出巨大潜力。尽管存在局限性,如对序列数据处理能力有限及解释性问题,但通过引入注意力机制、自监督学习等方法,CNN将持续演进,引领人工智能技术走向更加精彩的未来。
401 2
|
机器学习/深度学习 编解码 PyTorch
CVPR 2023 | 主干网络FasterNet 核心解读 代码分析
本文分享来自CVPR 2023的论文,提出了一种快速的主干网络,名为FasterNet。核心算子是PConv,partial convolution,部分卷积,通过减少冗余计算和内存访问来更有效地提取空间特征。
6165 1
|
8月前
|
机器学习/深度学习
简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024
【5月更文挑战第30天】清华大学研究团队提出的EfficientTrain++是一种新型训练方法,旨在加速视觉基础网络(如ResNet、ConvNeXt、DeiT)的训练,最高可达3倍速度提升,同时保持模型准确性。该方法基于傅里叶谱裁剪和动态数据增强,实现了课程学习的创新应用。在ImageNet-1K/22K数据集上,EfficientTrain++能有效减少多种模型的训练时间,且在自监督学习任务中表现出色。尽管面临适应性与稳定性的挑战,EfficientTrain++为深度学习模型的高效训练开辟了新途径,对学术和工业界具有重要意义。
77 4
|
8月前
|
机器学习/深度学习 计算机视觉
【YOLOv8改进】骨干网络: SwinTransformer (基于位移窗口的层次化视觉变换器)
YOLO目标检测创新改进与实战案例专栏介绍了YOLO的有效改进,包括使用新型视觉Transformer——Swin Transformer。Swin Transformer解决了Transformer在视觉领域的尺度变化和高分辨率问题,采用分层结构和移位窗口自注意力计算,适用于多种视觉任务,如图像分类、目标检测和语义分割,性能超越先前最佳模型。此外,文章还展示了如何在YOLOv8中引入Swin Transformer,并提供了相关代码实现。
|
8月前
|
算法 计算机视觉 网络架构
CVPR 202:擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
【5月更文挑战第10天】在CVPR 2024会议上,清华大学与博世团队推出MagNet,一种针对复杂场景和语言表达的实例分割网络。MagNet通过Mask Grounding辅助任务强化视觉-语言对应,缩小模态差距,并结合跨模态对齐损失与模块,提升RIS任务的准确性。在RefCOCO、RefCOCO+和G-Ref基准上取得显著优势,但对罕见表达和复杂场景的处理仍有待优化。[论文链接](https://arxiv.org/abs/2312.12198)
195 5
|
8月前
|
机器学习/深度学习 算法 计算机视觉
【CVPR轻量级网络】- 追求更高的FLOPS(FasterNet)
【CVPR轻量级网络】- 追求更高的FLOPS(FasterNet)
373 2
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
|
8月前
|
机器学习/深度学习 PyTorch 算法框架/工具
探索未来的视觉革命:卷积神经网络的崭新时代(二)
探索未来的视觉革命:卷积神经网络的崭新时代(二)
探索未来的视觉革命:卷积神经网络的崭新时代(二)

热门文章

最新文章