LITv2来袭 | 使用HiLo Attention实现高精度、快速度的变形金刚,下游任务均实时(二)

简介: LITv2来袭 | 使用HiLo Attention实现高精度、快速度的变形金刚,下游任务均实时(二)

3实验


3.1 消融实验

1、HiLo与其他注意力机制的比较

基于 LITv2-S,将 HiLo 的性能与 ImageNet-1K 上的其他有效注意力机制进行了比较,包括 PVT 中的空间缩减注意力 (SRA)、Swin 中的基于移位窗口的注意力 (W-MSA) 以及Twinsz中的交替的局部和全局注意力 (T-MSA)。

image.png表 4

在实现中,直接用每个比较方法替换 HiLo。结果如表 4 所示。总的来说,HiLo 减少了更多的 FLOPs,同时实现了更好的性能和更快的速度。

image.png图3

此外,在图 3 中,提供了基于不同图像分辨率的更多注意力机制的综合基准,包括 FocalQuadTreePerformer。由于并行性较弱,它们甚至比在 GPU 上使用标准 MSA 还要慢。与它们相比,HiLoFLOPs吞吐量内存消耗方面取得了具有竞争力的结果。

2、α的影响

image.png图 4

如图 4 所示,由于在 224 × 224 的分辨率和窗口大小为2的情况下,Lo-Fi 的复杂度低于 Hi-Fi,因此更大的 α 有助于减少更多的 FLOPs,因为将更多的Head分配给 Lo-Fi

此外,作者发现 HiLo 在 α = 0 时表现不佳,在这种情况下,只剩下 Hi-FiHiLo 只关注高频。作者推测低频在自注意力中起着重要作用。对于其他 α 值,作者发现性能差异约为 0.2%,其中 α = 0.9 实现了最佳性能。

3、架构修改的影响

image.png表 5

基于 LITv2-S探索架构修改的效果。如表 5 所示,受益于早期扩大的感受野,深度卷积的采用提高了 ImageNetCOCO 的性能。接下来,通过去除相对位置编码提高了密集预测任务的 FPS,但在两个数据集上的性能略有下降。

另注意,由于深度卷积通过零填充对位置信息进行了编码,因此与之前的工作相比,RPE 的消除不会导致性能显着下降。最后,得益于 HiLo,在 ImageNetCOCO 上都获得了更多的模型效率提升。

4、HiLo光谱分析

image.png图 5

在图 5 中,分别可视化了来自 Hi-FiLo-Fi 注意力的输出特征图的频率幅度。可视化表明 Hi-Fi 捕获更多的高频,而 Lo-Fi 主要侧重于低频。这与在单个注意力层分离特征图中的高频和低频的目标非常一致。

3.2 图像分类

3.3 目标检测与实例分割

3.4 语义分割


4参考


[1].Fast Vision Transformers with HiLo Attention


5推荐阅读


即插即用 | SIoU 实现50.3 AP+7.6ms检测速度精度、速度完美超越YoloV5、YoloX

Sparse RCNN再升级 | ResNet50在不需要NMS和二分匹配的情况下达到48.1AP

即插即用 | RandomMix 集百家之长实现超越Mixup的数据增强方法!

相关文章
|
6月前
|
自然语言处理 测试技术 计算机视觉
ICLR 2024:谁说大象不能起舞! 重编程大语言模型实现跨模态交互的时序预测
【4月更文挑战第22天】**TIME-LLM** 论文提出将大型语言模型重编程用于时序预测,克服数据稀疏性问题。通过文本原型重编码和Prompt-as-Prefix策略,使LLMs能处理连续时序数据。在多基准测试中超越专业模型,尤其在少量样本场景下效果突出。但面临跨领域泛化、模型调整复杂性和计算资源需求的挑战。[论文链接](https://openreview.net/pdf?id=Unb5CVPtae)
108 2
|
6月前
|
机器学习/深度学习 传感器 算法
【论文速递】AAAI2023 - BEVDepth: 用于多视图三维物体检测的可靠深度采集
【论文速递】AAAI2023 - BEVDepth: 用于多视图三维物体检测的可靠深度采集
|
1月前
|
人工智能 计算机视觉
时序=图像?无需微调,视觉MAE跨界比肩最强时序预测大模型
【10月更文挑战第15天】《VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters》提出了一种创新方法,通过将时序数据转化为图像,利用视觉掩码自编码器(MAE)进行自监督预训练,实现时序预测。该模型在未进行任何时序域适配的情况下,展现了出色的零样本预测性能,并且通过少量微调即可达到最先进水平。这一研究为时序预测领域带来了新希望,同时也引发了关于模型解释性和可信度的讨论。
55 1
|
5月前
|
机器学习/深度学习 定位技术
ICLR 2024 Spotlight:连续数值分布式表征加持,浙大UIUC让语言模型擅长表格预测
【6月更文挑战第23天】在ICLR 2024会议上,浙大和UIUC的研究团队推出TP-BERTa,一种改进的BERT模型,专为表格预测。通过将连续数值特征转为文本并利用自注意力机制,TP-BERTa能有效处理高维、异构表格数据,提高预测性能。预训练和微调策略使其在XGBoost等传统方法及FT-Transformer等深度学习模型中脱颖而出。论文链接:[anzIzGZuLi](https://openreview.net/pdf?id=anzIzGZuLi)
111 5
|
6月前
|
机器学习/深度学习 数据处理 计算机视觉
【论文速递】ICCV2021 - 基于超相关压缩实现实时高精度的小样本语义分割
【论文速递】ICCV2021 - 基于超相关压缩实现实时高精度的小样本语义分割
117 0
|
6月前
|
机器学习/深度学习 编解码 计算机视觉
|
数据可视化 关系型数据库 数据挖掘
scRNA分析|一(尽)文(力)解决你的单细胞火山图问题
scRNA分析|一(尽)文(力)解决你的单细胞火山图问题
687 0
|
机器学习/深度学习 自然语言处理 搜索推荐
【论文速递】NAACL2022- 文档级事件论元抽取的双流AMR增强模型
以往的研究大多致力于从单个句子中抽取事件,而文档级别的事件抽取仍未得到充分的研究。在本文中,我们专注于从整个文档中抽取事件论元
178 0
|
机器学习/深度学习 编解码 自动驾驶
LITv2来袭 | 使用HiLo Attention实现高精度、快速度的变形金刚,下游任务均实时(一)
LITv2来袭 | 使用HiLo Attention实现高精度、快速度的变形金刚,下游任务均实时(一)
402 0
|
机器学习/深度学习 人工智能 算法
Nature子刊 | 不确定性驱动、用于主动学习的动力学用于自动采样
Nature子刊 | 不确定性驱动、用于主动学习的动力学用于自动采样
142 0
下一篇
无影云桌面