【FasterVIT】试图从FasterVIT网络结构中窥探出一些有用的信息

简介: 【FasterVIT】试图从FasterVIT网络结构中窥探出一些有用的信息

前言

  随着数据集的规模和模型的复杂性不断增加,ViT在处理大规模图像数据时面临着一些挑战。为了解决这些问题,研究人员提出了Faster Vision Transformer(FasterVIT),这是一种经过改进的ViT网络架构。注于计算机视觉(CV)应用的高图像吞吐量。FasterViT融合 了CNN中快速局部表示学习和ViT中全局建模特性的优势。引入了层次注意(HAT) 方法。这受益于基于窗口的高效自我关注。

核心

FasterVIT贡献摘要如下:

  1. 我们介绍了FasterViT,这是一种新颖的混合视频转换器架构,旨在实现性能和图像吞吐量之间的最佳权衡。对于不同的数据集和模型大小,FasterViT可以有效地缩放到更高分辨率的输入图像。
  2. 我们提出了分层注意力模块,该模块有效地捕捉局部区域的跨窗口交互,并对长期空间依赖进行建模。
  3. FasterViT在图像吞吐量和准确性权衡方面实现了新的SOTA Pareto前沿,并且明显快于可比的基于ViT的架构,与最近的SOTA模型相比,产生了显著的加速。它还在MS COCO数据集上的检测和实例分割以及ADE20K数据集上语义分割的下游任务上实现了有竞争力的性能。

关于网络的吞吐量:

  英伟达公司在人工智能领域开发CUDA编程模型,为研究人员和开发者提供了强大的工具来利用GPU加速计算,推动了人工智能算法的发展和应用。由英伟达设计的FasterViT架构提供Pareto准确性和延迟的权衡。

  在主流现成的硬件上实现计算机视觉任务的最高吞吐量,例如擅长并行计算的GPU。在这种情况下,计算涉及一组以CUDA和张量核为计算单元的流式多处理器(SM)。它需要频繁的数据传输进行计算,并且可能受到数据移动带宽的影响。因此,受计算限制的运算是数学限制的,而受内存转移限制的运算则是内存限制的。这需要在两者之间仔细平衡,以最大限度地提高吞吐量。

  在网络的初始阶段往往具较大的空间维度和较少的通道(例如输入图像的大小为:batch_size,3,640,640),这使得它们受到内存的限制。这表明在网络初始阶段属于计算密集型任务,例如密集卷积层,而不是对传输成本产生过多的开销的稀疏卷积(Sparse Convolution) 和深度可分离卷积(Depthwise Separable Convolution)。此外,不能以矩阵操作形式表示的操作,例如非线性激活函数、池化层、批处理归一化,也是受限于内存,应尽量减少使用。相反,网络的深层往往由于计算原因需要,计算密集型的运算受到了限制。例如,分层CNN具有具有高维核的大小为14x14的特征图。这为更具表现力的操作留下了空间,如层规范化、注意力机制等,对吞吐量的影响相当小。

结构

网络整体框架结构:

  FasterViT体系结构概述。在第1,2阶段中,我们使用了带有cnn和基于VIT的多尺度体系结构。在这里也映衬了上述关于网络的吞吐量的思考,在网络的浅层部分设上保留卷积网络的优势以及在深层部分发挥VIT网络的优势,对整体吞吐量进行平衡优化。

image.png

关于HAT结构:

  我们查看HAT的分层注意的可视化图,在特征空间通过对自窗口的注意力机制建立可实现信息的整体传播获取。该模块旨在以较低的计算成本促进局部和全局信息的交换,其中引入了载体标记(CTs)的概念,并执行分层自注意力操作。

image.png   

根据上图所示的方法,HAT模块首先将输入的特征图分成了许多小块,就像Swin一样。每个小块都有一组标记来表示。关键思想是引入了CTs(上下文摘要),用来总结每个小块内的信息。CTs是通过池化和卷积操作得到的,它们提供了每个小块的摘要信息。每个小块都有自己独特的CTs。

  在HAT块中,CTs经过了多头自注意力操作(MHSA),然后进行了层归一化和多层感知机操作(MLP)。这个注意力过程允许CTs之间交换信息,并总结全局特征。接下来,将小块的标记和CTs拼接在一起,并应用另一组注意力操作来建立它们之间的交互作用,从而实现了短距离和长距离空间信息的交流。然后,标记再次被分割成各自的小块和CTs,并在多个层上反复应用这些操作。为了促进长程交互,最后在该阶段进行了全局信息传播。输出结果通过对CTs进行上采样,并与小块的标记合并起来进行计算

结语

  通过本文的阅读,读者将对FasterVIT网络的结构和各个层的功能有更深入的了解。希望这篇博客能为学术界和工程界的研究人员提供有益的参考,同时也为广大读者对图像处理和深度学习领域的发展趋势有所启示。


相关文章
|
27天前
|
机器学习/深度学习 自然语言处理 语音技术
Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧
本文介绍了Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧,并通过TensorFlow和PyTorch等库展示了实现神经网络的具体示例,涵盖图像识别、语音识别等多个应用场景。
52 8
|
1月前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目DWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取分为区域残差化和语义残差化两步,提高了特征提取效率。它引入了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,优化了不同网络阶段的感受野。在Cityscapes和CamVid数据集上的实验表明,DWRSeg在准确性和推理速度之间取得了最佳平衡,达到了72.7%的mIoU,每秒319.5帧。代码和模型已公开。
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
|
1月前
|
监控 安全 测试技术
网络信息系统的整个生命周期
网络信息系统规划、设计、集成与实现、运行维护及废弃各阶段介绍。从企业需求出发,经过可行性研究和技术评估,详细设计系统架构,完成设备安装调试和系统集成测试,确保稳定运行,最终安全退役。
48 1
网络信息系统的整个生命周期
|
1月前
|
安全 网络协议 网络安全
【Azure 环境】从网络包中分析出TLS加密套件信息
An TLS 1.2 connection request was received from a remote client application, but non of the cipher suites supported by the client application are supported by the server. The connection request has failed. 从远程客户端应用程序收到 TLS 1.2 连接请求,但服务器不支持客户端应用程序支持的任何密码套件。连接请求失败。
|
1月前
|
安全 Linux 网络安全
nmap 是一款强大的开源网络扫描工具,能检测目标的开放端口、服务类型和操作系统等信息
nmap 是一款强大的开源网络扫描工具,能检测目标的开放端口、服务类型和操作系统等信息。本文分三部分介绍 nmap:基本原理、使用方法及技巧、实际应用及案例分析。通过学习 nmap,您可以更好地了解网络拓扑和安全状况,提升网络安全管理和渗透测试能力。
136 5
|
1月前
|
SQL 安全 算法
网络安全的隐形盾牌:漏洞防御与信息加密的艺术
【10月更文挑战第36天】在数字世界的海洋中,网络安全犹如一艘船的保护罩,守护着我们的隐私和数据安全。本文将揭开网络安全的神秘面纱,从常见的网络漏洞到先进的加密技术,再到培养必要的安全意识,我们将一步步构建起防御的堡垒。文章不仅分享技术细节,还强调了在个人和组织层面采取积极措施的重要性。
|
1月前
|
存储 关系型数据库 MySQL
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
707 2
|
1月前
|
安全 网络协议 算法
网络空间安全之一个WH的超前沿全栈技术深入学习之路(8-1):主动信息收集之ping、Nmap 就怕你学成黑客啦!
网络空间安全之一个WH的超前沿全栈技术深入学习之路(8-1):主动信息收集之ping、Nmap 就怕你学成黑客啦!
|
2月前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2融合YOLO-MS的MSBlock : 分层特征融合策略,轻量化网络结构
【YOLO11改进 - C3k2融合】C3k2融合YOLO-MS的MSBlock : 分层特征融合策略,轻量化网络结构
|
1月前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2融合DWRSeg二次创新C3k2_DWRSeg:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2融合DWRSDWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取方法分解为区域残差化和语义残差化两步,提高了多尺度信息获取的效率。网络设计了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,分别用于高阶段和低阶段,以充分利用不同感受野的特征图。实验结果表明,DWRSeg在Cityscapes和CamVid数据集上表现出色,以每秒319.5帧的速度在NVIDIA GeForce GTX 1080 Ti上达到72.7%的mIoU,超越了现有方法。代码和模型已公开。