别再用平均池化层了!Meta AI把注意力塞到池化层,性能立刻提升0.3(二)

简介: 注意力机制这么好用,怎么不把它塞到卷积网络里?最近Meta AI的研究人员提出了一个基于注意力的池化层,仅仅把平均池化层替换掉,就能获得+0.3%的性能提升!

研究人员对模型块的选择也提出了一些建议,例如在batch size够大的情况下,BatchNorm往往效果比LayerNorm更好。但训练大模型或者高分辨率的图像输入时,由于batch size更小,所以BatchNorm在这种情况下就不太实用了。

 

下一个模块就是基于注意力的池化层了。

 

在主干模型的输出端,预处理后的向量通过类似Transformer的交叉注意力层(cross attention layer)的方式进行融合。

96.jpg注意力层中的每个权重值取决于预测patch与可训练向量(CLS)之间的相似度,结果和经典ViT中的class token类似。

 

然后将产生的d维向量添加到CLS向量中,并经过一个前馈网络处理。

 

与之前提出的class-attention decoder不同之处在于,研究人员仅仅只用一个block和一个head,大幅度简化了计算量,也能够避免多个block和head之间互相影响,从而导致注意力权重失真。

 

因此,class token和预处理patch之间的通信只发生在一个softmax中,直接反映了池化操作者如何对每个patch进行加权。

 

也可以通过将CLS向量替换为k×d矩阵来对每个类别的attention map进行归一化处理,这样就可以看出每个块和每个类别之间的关联程度。

 

但这种设计也会增加内存的峰值使用量,并且会使网络的优化更加复杂。通常只在微调优化的阶段以一个小的学习率和小batch size来规避这类问题。

 

实验结果


在图像分类任务上,研究人员首先将模型与ImageNet1k和ImageNet-v2上的其他模型从参数量,FLOPS,峰值内存用量和256张图像batch size下的模型推理吞吐量上进行对比。

 

97.jpg实验结果肯定是好的,可以看到PatchConvNet的简单柱状结构(column architecture)相比其他模型更加简便和易于扩展。对于高分辨率图像来说,不同模型可能会针对FLOPs和准确率进行不同的平衡,更大的模型肯定会取得更高的准确率,相应的吞吐量就会低一些。

 

在语义分割任务上,研究人员通过ADE20k数据集上的语义分割实验来评估模型,数据集中包括2万张训练图像和5千张验证图像,标签超过150个类别。由于PatchConvNet模型不是金字塔式的,所以模型只是用模型的最后一层输出和UpperNet的多层次网络输出,能够简化模型参数。研究结果显示,虽然PatchConvNet的结构更简单,但与最先进的Swin架构性能仍处于同一水平,并且在FLOPs-MIoU权衡方面优于XCiT。

98.jpg在检测和实例分割上,研究人员在COCO数据集上对模型进行评估,实验结果显示PatchConvNet相比其他sota架构来说,能够在FLOPs和AP之间进行很好的权衡。99.jpg在消融实验中,为了验证架构问题,研究人员使用不同的架构对比了Transformer中的class attention和卷积神经网络的平均池化操作,还对比了卷积主干和线性投影之间的性能差别等等。实验结果可以看到卷积主干是模型取得最佳性能的关键,class-attention几乎没有带来额外的性能提升。

100.jpg另一个重要的消融实验时attention-based pooling和ConvNets之间的对比,研究人员惊奇地发现可学习的聚合函数甚至可以提高一个ResNet魔改后模型的性能。

 

通过把attention添加到ResNet50中,直接在Imagenet1k上获得了80.1%的最高准确率,比使用平均池化层的baseline模型提高了+0.3%的性能,并且attention-based只稍微增加了模型的FLOPs数量,从4.1B提升到4.6B。

相关文章
|
6天前
|
人工智能 安全 测试技术
[译][AI Meta Llama-3] 最强开源大模型Llama 3发布!
Meta发布开源大模型Llama 3,这是最先进的开放大型语言模型,将在多个云服务平台上线,并获多家硬件厂商支持。Llama 3致力于负责任的开发,提供新的信任和安全工具,如Llama Guard 2、Code Shield和CyberSec Eval 2。未来将推出新功能、更长上下文和增强性能。Llama 3基于文本的模型已发布,目标是与最佳专有模型竞争,并计划扩展至多语言和多模态。预训练模型在性能上树立新标准,展示出在各种基准测试中的优势。用户现可在Meta AI体验Llama 3技术。
[译][AI Meta Llama-3] 最强开源大模型Llama 3发布!
|
6天前
|
人工智能 安全 Linux
在云智融合浪潮下,服务器操作系统产业的未来发展将更加注重性能、安全性、稳定性以及对于AI和云计算的支持
在云智融合浪潮下,服务器操作系统产业的未来发展将更加注重性能、安全性、稳定性以及对于AI和云计算的支持
17 4
|
6天前
|
人工智能 分布式计算 算法
英特尔助力龙蜥加速 AI 应用及 LLM 性能
英特尔至强服务器平台加速大语言模型应用。
|
6天前
|
人工智能 程序员 测试技术
AI程序员Devin在软件开发中的性能评估
【2月更文挑战第29天】AI程序员Devin在软件开发中取得突破,成功解决SWE-bench基准测试13.86%的问题,超出未辅助基线1.96%。展示强大编程能力,但处理复杂任务成功率仅4.80%,表明局限性。Devin能执行多步计划和自我纠错,但在理解复杂逻辑和用户偏好上需改进。在测试驱动开发场景下,成功通过率提升至23%,显示出合作潜力。然而,AI在软件工程领域仍有很大改进空间。
46 1
AI程序员Devin在软件开发中的性能评估
|
6天前
|
机器学习/深度学习 人工智能 机器人
Meta首席科学家Yann LeCun:AI毁灭人类的概率为零
【2月更文挑战第22天】Meta首席科学家Yann LeCun:AI毁灭人类的概率为零
17 2
Meta首席科学家Yann LeCun:AI毁灭人类的概率为零
|
6天前
|
人工智能 前端开发 数据挖掘
Arm 发布 Neoverse 新品:数据分析性能提升 196%,奠定未来计算及 AI 的基石
北京时间 2 月 22 日,半导体巨头 Arm 更新了 Arm® Neoverse™ 产品路线图,宣布推出两款基于全新第三代 Neoverse IP 构建的全新计算子系统(CSS):Arm Neoverse CSS V3 和 Arm Neoverse CSS N3。
|
6天前
|
人工智能 安全 搜索推荐
OpenAI、谷歌、微软、Meta联名签署AI公开信
【2月更文挑战第16天】OpenAI、谷歌、微软、Meta联名签署AI公开信
28 2
OpenAI、谷歌、微软、Meta联名签署AI公开信
|
6天前
|
人工智能 前端开发 PyTorch
AI加速引擎PAI-TorchAcc:整体介绍与性能概述
PAI-TorchAcc(Torch Accelerator)是阿里云人工智能平台PAI开发的Pytorch上的大模型训练加速框架。PAI-TorchAcc提供了一套基于Pytorch的简洁、易用的接口,无需进行模型转换就可以无缝地接入HuggingFace上的模型,并用多种分布式策略进行训练加速。本文详细介绍PAI-TorchAcc的产品能力与性能。
|
6天前
|
人工智能 数据可视化 测试技术
Meta AI开源CLIP-DINOiser | 如何将自监督DINO的Trick教给CLIP?这里就是答案!
Meta AI开源CLIP-DINOiser | 如何将自监督DINO的Trick教给CLIP?这里就是答案!
57 0
|
机器学习/深度学习 人工智能 自然语言处理
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
第五届世界互联网大会正在如火如荼的举行。
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口

热门文章

最新文章