LITv2来袭 | 使用HiLo Attention实现高精度、快速度的变形金刚,下游任务均实时(二)

简介: LITv2来袭 | 使用HiLo Attention实现高精度、快速度的变形金刚,下游任务均实时(二)

3实验


3.1 消融实验

1、HiLo与其他注意力机制的比较

基于 LITv2-S,将 HiLo 的性能与 ImageNet-1K 上的其他有效注意力机制进行了比较,包括 PVT 中的空间缩减注意力 (SRA)、Swin 中的基于移位窗口的注意力 (W-MSA) 以及Twinsz中的交替的局部和全局注意力 (T-MSA)。

image.png表 4

在实现中,直接用每个比较方法替换 HiLo。结果如表 4 所示。总的来说,HiLo 减少了更多的 FLOPs,同时实现了更好的性能和更快的速度。

image.png图3

此外,在图 3 中,提供了基于不同图像分辨率的更多注意力机制的综合基准,包括 FocalQuadTreePerformer。由于并行性较弱,它们甚至比在 GPU 上使用标准 MSA 还要慢。与它们相比,HiLoFLOPs吞吐量内存消耗方面取得了具有竞争力的结果。

2、α的影响

image.png图 4

如图 4 所示,由于在 224 × 224 的分辨率和窗口大小为2的情况下,Lo-Fi 的复杂度低于 Hi-Fi,因此更大的 α 有助于减少更多的 FLOPs,因为将更多的Head分配给 Lo-Fi

此外,作者发现 HiLo 在 α = 0 时表现不佳,在这种情况下,只剩下 Hi-FiHiLo 只关注高频。作者推测低频在自注意力中起着重要作用。对于其他 α 值,作者发现性能差异约为 0.2%,其中 α = 0.9 实现了最佳性能。

3、架构修改的影响

image.png表 5

基于 LITv2-S探索架构修改的效果。如表 5 所示,受益于早期扩大的感受野,深度卷积的采用提高了 ImageNetCOCO 的性能。接下来,通过去除相对位置编码提高了密集预测任务的 FPS,但在两个数据集上的性能略有下降。

另注意,由于深度卷积通过零填充对位置信息进行了编码,因此与之前的工作相比,RPE 的消除不会导致性能显着下降。最后,得益于 HiLo,在 ImageNetCOCO 上都获得了更多的模型效率提升。

4、HiLo光谱分析

image.png图 5

在图 5 中,分别可视化了来自 Hi-FiLo-Fi 注意力的输出特征图的频率幅度。可视化表明 Hi-Fi 捕获更多的高频,而 Lo-Fi 主要侧重于低频。这与在单个注意力层分离特征图中的高频和低频的目标非常一致。

3.2 图像分类

3.3 目标检测与实例分割

3.4 语义分割


4参考


[1].Fast Vision Transformers with HiLo Attention


5推荐阅读


即插即用 | SIoU 实现50.3 AP+7.6ms检测速度精度、速度完美超越YoloV5、YoloX

Sparse RCNN再升级 | ResNet50在不需要NMS和二分匹配的情况下达到48.1AP

即插即用 | RandomMix 集百家之长实现超越Mixup的数据增强方法!

相关文章
|
10月前
|
自然语言处理 测试技术 计算机视觉
ICLR 2024:谁说大象不能起舞! 重编程大语言模型实现跨模态交互的时序预测
【4月更文挑战第22天】**TIME-LLM** 论文提出将大型语言模型重编程用于时序预测,克服数据稀疏性问题。通过文本原型重编码和Prompt-as-Prefix策略,使LLMs能处理连续时序数据。在多基准测试中超越专业模型,尤其在少量样本场景下效果突出。但面临跨领域泛化、模型调整复杂性和计算资源需求的挑战。[论文链接](https://openreview.net/pdf?id=Unb5CVPtae)
152 2
|
1天前
|
人工智能 编解码 数据建模
MIT颠覆传统!分形生成模型效率暴涨4000倍,高分辨率图像秒级生成
Fractal Generative Models 是麻省理工学院与 Google DeepMind 团队推出的新型图像生成方法,基于分形思想,通过递归调用模块构建自相似架构,显著提升计算效率,适用于高分辨率图像生成、医学图像模拟等领域。
25 0
MIT颠覆传统!分形生成模型效率暴涨4000倍,高分辨率图像秒级生成
|
23天前
|
机器学习/深度学习 存储 算法
《LSTM与ESN:动态系统数据处理的两大“神器”对决》
长短期记忆网络(LSTM)和回声状态网络(ESN)是动态系统数据处理中的两种关键技术。LSTM通过复杂的门控机制捕捉长期依赖,适用于数据量充足、对预测精度要求高的任务;而ESN结构简单,训练高效,擅长处理实时数据和不确定性较强的场景,具有较好的泛化能力和可解释性。两者各有优势,适用于不同场景。
|
7月前
|
机器学习/深度学习 存储 自然语言处理
天啊!深度神经网络中 BNN 和 DNN 基于存内计算的传奇之旅,改写能量效率的历史!
【8月更文挑战第12天】深度神经网络(DNN)近年在图像识别等多领域取得重大突破。二进制神经网络(BNN)作为DNN的轻量化版本,通过使用二进制权重和激活值极大地降低了计算复杂度与存储需求。存内计算技术进一步提升了BNN和DNN的能效比,通过在存储单元直接进行计算减少数据传输带来的能耗。尽管面临精度和硬件实现等挑战,BNN结合存内计算代表了深度学习未来高效节能的发展方向。
89 1
|
9月前
|
机器学习/深度学习 定位技术
ICLR 2024 Spotlight:连续数值分布式表征加持,浙大UIUC让语言模型擅长表格预测
【6月更文挑战第23天】在ICLR 2024会议上,浙大和UIUC的研究团队推出TP-BERTa,一种改进的BERT模型,专为表格预测。通过将连续数值特征转为文本并利用自注意力机制,TP-BERTa能有效处理高维、异构表格数据,提高预测性能。预训练和微调策略使其在XGBoost等传统方法及FT-Transformer等深度学习模型中脱颖而出。论文链接:[anzIzGZuLi](https://openreview.net/pdf?id=anzIzGZuLi)
172 5
|
Web App开发 调度 Windows
开源代码分享(8)—大规模电动汽车时空耦合双层优化调度(附matlab代码)
本文研究了发电机、电动汽车和风能的协同优化调度问题。提出了一种新颖的双层优化方法,用于解决在风能存在的情况下,电动汽车充放电负荷在时间和空间领域的调度问题。在输电系统中,上层优化协调了电动汽车、热发电机和基本负荷,考虑了风能因素,优化了电动汽车在时间域内的负荷时段。在配电系统中,下层优化则对电动汽车负荷的位置进行空间调度。通过对一个拥有10台发电机的输电网和一个IEEE 33节点的配电网的电力系统基准进行评估,评估了提出的双层优化策略的性能。分析了电价曲线、电动汽车普及率以及电动汽车负荷位置等因素的影响。
|
机器学习/深度学习 编解码 自动驾驶
LITv2来袭 | 使用HiLo Attention实现高精度、快速度的变形金刚,下游任务均实时(一)
LITv2来袭 | 使用HiLo Attention实现高精度、快速度的变形金刚,下游任务均实时(一)
465 0
|
机器学习/深度学习 数据可视化 知识图谱
ECCV 2022 | 仅用全连接层处理视频数据,美图&NUS实现高效视频时空建模
ECCV 2022 | 仅用全连接层处理视频数据,美图&NUS实现高效视频时空建模
127 0
|
机器学习/深度学习 传感器 人工智能
无需大量神经元,用神经形态机器人玩桌上足球,兼具速度与准确率
无需大量神经元,用神经形态机器人玩桌上足球,兼具速度与准确率
119 0
|
机器学习/深度学习 数据可视化 算法
SIGIR 2022 | 当多层级遇到多兴趣:快手联合武汉大学提出用于序列推荐的多粒度神经模型
SIGIR 2022 | 当多层级遇到多兴趣:快手联合武汉大学提出用于序列推荐的多粒度神经模型
198 0