CVPR‘2023 即插即用系列! | BiFormer: 通过双向路由注意力构建高效金字塔网络架构

简介: CVPR‘2023 即插即用系列! | BiFormer: 通过双向路由注意力构建高效金字塔网络架构

640.png


Title: BiFormer: Vision Transformer with Bi-Level Routing Attention

Paper: https://arxiv.org/pdf/2303.08810.pdf

Code:  https://github.com/rayleizhu/BiFormer

导读

众所周知,Transformer相比于CNNs的一大核心优势便是借助自注意力机制的优势捕捉长距离上下文依赖。正所谓物极必反,在原始的 Transformer 架构设计中,这种结构虽然在一定程度上带来了性能上的提升,但却会引起两个老生常态的问题:

  1. 内存占用大
  2. 计算代价高

因此,有许多研究也在致力于做一些这方面的优化工作,包括但不仅限于将注意力操作限制在:

  • inside local windows, e.g., Swin transformer and Crossformer;
  • axial stripes, e.g., Cswin transformer;
  • dilated windows, e.g., Maxvit and Crossformer;

Figure 1. Vanilla attention and its sparse variants.

让我们先简单的看下上图:其中图(a)是原始的注意力实现,其直接在全局范围内操作,导致高计算复杂性和大量内存占用;而对于图(b)-(d),这些方法通过引入具有不同手工模式的稀疏注意力来减轻复杂性,例如局部窗口、轴向条纹和扩张窗口等;而图(e)则是基于可变形注意力通过不规则网格来实现图像自适应稀疏性;

总的来说,作者认为以上这些方法大都是通过将 手工制作与内容无关 的稀疏性引入到注意力机制来试图缓解这个问题。因此,本文通过双层路由(bi-level routing)提出了一种新颖的动态稀疏注意力(dynamic sparse attention ),以实现更灵活的计算分配内容感知,使其具备动态的查询感知稀疏性,如图(f)所示。

此外,基于该基础模块,本文构建了一个名为BiFormer的新型通用视觉网络架构。由于 BiFormer 以查询自适应的方式关注一小部分相关标记,而不会分散其他不相关标记的注意力,因此它具有良好的性能和高计算效率。最后,通过在图像分类、目标检测和语义分割等多项计算机视觉任务的实证结果充分验证了所提方法的有效性。

方法

Bi-Level Routing Attention

为了缓解多头自注意力(Multi-Head Self-Attention, MHSA)的可扩展性问题,先前的一些方法提出了不同的稀疏注意力机制,其中每个查询只关注少量的键值对,而非全部。然而,这些方法有两个共性问题:

  1. 要么使用手工制作的静态模式(无法自适应);
  2. 要么在所有查询中共享键值对的采样子集(无法做到互不干扰);

为此,作者探索了一种动态的、查询感知的稀疏注意力机制,其关键思想是在粗糙区域级别过滤掉大部分不相关的键值对,以便只保留一小部分路由区域(这不就把冗余的信息干掉了吗老铁们)。其次,作者在这些路由区域的联合中应用细粒度的token-to-token注意力。

整个算法的伪代码流程如下所示:

可以看到,整个模块主要包含三个组件,即:

  • Region partition and input projection
  • Region-to-region routing with directed graph
  • Token-to-token attention

简单梳理下。假设我们输入一张特征图,通过线性映射获得QKV;其次,我们通过领接矩阵构建有向图找到不同键值对对应的参与关系,可以理解为每个给定区域应该参与的区域;最后,有了区域到区域路由索引矩阵 ,我们便可以应用细粒度的token-to-token注意力了。

具体的实现还是有些复杂,可以参考代码慢慢理解,笔者这里看的也是云里雾里的。

Bi-Level Routing Attention

上面是 BRA 模块的示意图。从图中可以看出,该方法是通过收集前 k 个相关窗口中的键值对,并利用稀疏性操作直接跳过最不相关区域的计算来节省参数量和计算量。值得一提的是,以上操作涉及 GPU 友好的密集矩阵乘法,利于服务器端做推理加速。

BiFormer

基于BRA模块,本文构建了一种新颖的通用视觉转换器BiFormer。如上图所示,其遵循大多数的vision transformer架构设计,也是采用四级金字塔结构,即下采样32倍。

具体来说,BiFormer在第一阶段使用重叠块嵌入,在第二到第四阶段使用块合并模块来降低输入空间分辨率,同时增加通道数,然后是采用连续的BiFormer块做特征变换。需要注意的是,在每个块的开始均是使用  的深度卷积来隐式编码相对位置信息。随后依次应用BRA模块和扩展率为  的 2 层 多层感知机(Multi-Layer Perceptron, MLP)模块,分别用于交叉位置关系建模和每个位置嵌入。

上表展示了不同模型变体的网络宽度和深度。其中FLOP是基于  输入计算的。

实验

Table 2. Comparison of different backbones on ImageNet-1K.

所有模型都在分辨率为  的图像上进行训练和评估。其中星号表示该模型是使用标记标签进行训练的。据笔者所知,这是在没有额外训练数据或训练技巧所能取得的最佳结果。此外,使用基于标记的蒸馏技术,BiFormer-S的准确率可以进一步提高到 !

可以看到,本文方法貌似对小目标检测效果比较好。这可能是因为BRA模块是基于稀疏采样而不是下采样,一来可以保留细粒度的细节信息,二来同样可以达到节省计算量的目的。

为了进一步了解双层路由注意力的工作原理,作者将路由区域和注意力响应进行可视化。从图中我们可以清楚地观察到语义相关区域已被成功定位。例如,在第一个场景中的街景所示,如果查询位置在建筑物或树上,则对应的路由区域覆盖相同或相似的实体。而在第二个室内场景中,当我们将查询位置放在鼠标上时,路由区域包含主机、键盘和显示器的一部分,即使这些区域彼此不相邻。这意味着双层路由注意力可以捕获远距离对上下文依赖。

总结

本文提出了一种双层路由注意力模块,以动态、查询感知的方式实现计算的有效分配。其中,BRA模块的核心思想是在粗区域级别过滤掉最不相关的键值对。它是通过首先构建和修剪区域级有向图,然后在路由区域的联合中应用细粒度的token-to-token注意力来实现的。值得一提的是,该模块的计算复杂度可压缩至 !最后,基于该模块本文构建了一个金字塔结构的视觉Transformer——BiFormer,它在四种流行的视觉任务、图像分类、目标检测、实例分割和语义分割方面均表现出卓越的性能。

目录
相关文章
|
1天前
|
负载均衡 网络协议 开发者
掌握 Docker 网络:构建复杂的容器通信
在 Docker 容器化环境中,容器间的通信至关重要。本文详细介绍了 Docker 网络的基本概念和类型,包括桥接网络、宿主网络、覆盖网络和 Macvlan 网络等,并提供了创建、管理和配置自定义网络的实用命令。通过掌握这些知识,开发者可以构建更健壮和灵活的容器化应用,提高应用的可扩展性和安全性。
|
2天前
|
人工智能 安全 算法
网络安全与信息安全:构建数字世界的防线
在数字化浪潮席卷全球的今天,网络安全与信息安全已成为维系社会秩序、保障个人隐私与企业机密的关键。本文旨在探讨网络安全漏洞的成因、加密技术的应用及安全意识的提升策略,以期为读者提供一个全面而深入的网络安全知识框架。
|
1天前
|
存储 安全 网络安全
网络安全与信息安全:构建安全防线的多维策略在当今数字化时代,网络安全已成为维护个人隐私、企业机密和国家安全的关键要素。本文旨在探讨网络安全漏洞的本质、加密技术的重要性以及提升公众安全意识的必要性,以期为构建更加坚固的网络环境提供参考。
本文聚焦于网络安全领域的核心议题,包括网络安全漏洞的现状与应对、加密技术的发展与应用,以及安全意识的培养与实践。通过分析真实案例,揭示网络安全威胁的多样性与复杂性,强调综合防护策略的重要性。不同于传统摘要,本文将直接深入核心内容,以简洁明了的方式概述各章节要点,旨在迅速吸引读者兴趣,引导其进一步探索全文。
|
2天前
|
安全 网络安全 云计算
云计算与网络安全:构建安全的数字未来
在数字化浪潮中,云计算已成为推动企业创新与发展的重要引擎。然而,随着云服务的普及,网络安全问题也日益凸显,成为制约云计算进一步发展的瓶颈。本文旨在深入探讨云计算环境下的网络安全挑战,分析云服务中的安全隐患,并提出相应的信息安全对策。通过构建安全的云计算环境,为企业数字化转型保驾护航,共同迈向安全的数字未来。
|
2天前
|
存储 安全 网络安全
网络安全与信息安全:构建防线的多维策略
在数字化浪潮中,网络安全已成为企业和个人不可忽视的重要议题。本文深入探讨了网络安全漏洞的本质、加密技术的核心作用以及提升安全意识的重要性。通过分析真实案例和最新研究成果,我们揭示了网络威胁的多样性和复杂性,同时提供了实用的防护措施和策略。无论你是技术专家还是普通用户,本文都将帮助你建立更全面的网络安全视角,共同守护数字世界的安全与和谐。
|
5天前
|
安全 网络安全 数据安全/隐私保护
网络安全与信息安全:构建数字世界的坚固防线
本文深入探讨了网络安全与信息安全的重要性,重点分析了网络安全漏洞、加密技术以及安全意识等关键领域。通过对这些方面的详细阐述,旨在提高公众对网络安全的认识,促进更加安全的数字环境。
|
2天前
|
数据采集 存储 JSON
从零到一构建网络爬虫帝国:HTTP协议+Python requests库深度解析
在网络数据的海洋中,网络爬虫遵循HTTP协议,穿梭于互联网各处,收集宝贵信息。本文将从零开始,使用Python的requests库,深入解析HTTP协议,助你构建自己的网络爬虫帝国。首先介绍HTTP协议基础,包括请求与响应结构;然后详细介绍requests库的安装与使用,演示如何发送GET和POST请求并处理响应;最后概述爬虫构建流程及挑战,帮助你逐步掌握核心技术,畅游数据海洋。
17 3
|
2天前
|
存储 安全 网络安全
云计算与网络安全:构建安全的数字天空##
随着数字化时代的到来,云计算已经成为企业和个人不可或缺的基础设施。然而,伴随其便利性而来的是一系列网络安全风险和挑战。本文将探讨云计算的基本概念、云服务的类型、网络安全的重要性及常见威胁,并讨论如何通过技术手段和管理策略来确保信息安全,以期为读者提供全面的理解和实用的建议。 ##
|
4天前
|
安全 算法 网络安全
网络安全与信息安全:构建数字世界的防线在数字化浪潮席卷全球的今天,网络安全和信息安全已成为维系社会秩序、保障个人隐私与企业机密的基石。本文旨在深入探讨网络安全漏洞的本质、加密技术的前沿进展以及提升公众安全意识的重要性,共同绘制一幅维护网络空间安宁的蓝图。
本文聚焦网络安全与信息安全的核心议题,通过剖析网络安全漏洞的成因与影响,阐述加密技术在保护信息安全中的关键作用,强调了提升全社会安全意识的紧迫性。不同于常规摘要,本文采用叙述式摘要,以第一人称视角引领读者走进网络安全的世界,揭示问题本质,展望未来趋势。
|
7天前
|
SQL 安全 算法
网络安全与信息安全:构建数字世界的坚固防线##
本文旨在探讨网络安全和信息安全的重要性,分析常见的安全漏洞及其利用方式,介绍加密技术在保护数据安全中的作用,强调提高安全意识的必要性。通过深入浅出的方式,帮助读者理解网络安全的核心概念和实用技术,从而在日常生活中更好地保护自己的信息安全。 ##