Tansformer | 详细解读：如何在CNN模型中插入Transformer后速度不变精度剧增？（二）-阿里云开发者社区

Tansformer | 详细解读：如何在CNN模型中插入Transformer后速度不变精度剧增？（二）

2023-05-22 366

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

交互式建模 PAI-DSW，每月250计算时 3个月

模型训练 PAI-DLC，100CU*H 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

简介： Tansformer | 详细解读：如何在CNN模型中插入Transformer后速度不变精度剧增？（二）

4将Transformer插入到CNN中

本文和之前将CNN与Transformer的方法一样遵循普遍做法，在网络Backbone中保留3D特征图，并使用全局平均池化层和全连接层来预测图像类别。这与现有的依赖另一个1D类标记进行预测的Transformer不同。

作者还观察到以往的Transformer网络通常采用GELU函数进行非线性激活。然而，在网络训练中，GELU函数非常耗费内存。作者通过经验发现，SiLU的功能与GELUs不相上下，而且更节省内存。因此，TransCNN选择使用SiLU函数进行非线性激活。

作者做了一组实验。在ImageNet验证集上，当训练为100个epoch时，提出的具有SiLU的跨网络网络(TransCNN)在ImageNet验证集上获得80.1%的top-1精度。GELU的TransCNN得到79.7%的top-1精度，略低于SiLU。当每个GPU的batchsize=128时，SiLU在训练阶段占用20.2GB的GPU内存，而GELU占用23.8GB的GPU内存。

TransCNN的总体架构如图所示。

在TransCNN的开始阶段使用了2个连续的个卷积，每个卷积的步长为2，将输入图像降采样到1/4的尺度。

然后，将H-MHSA和卷积块交替叠加，将其分为4个阶段，分别以1/4,1/8,1/16,1/32的金字塔特征尺度进行划分。这里采用的卷积模块是广泛使用的Inverted Residual Bottleneck(IRB，图c)，卷积是深度可分离卷积。

在每个阶段的末尾，作者设计了一个简单的二分支降采样块(TDB，图d)。它由2个分支组成:一个分支是一个典型的卷积，步长为2;另一个分支是池化层和卷积。在特征降采样中，这2个分支通过元素求和的方式融合，以保留更多的上下文信息。实验表明，TDB的性能优于直接降采样。

TransCNN的详细配置如表所示。提供了2个版本的TransCNN: TransCNN-Small和TransCNN-Base。TransCNN-Base的参数个数与ResNet50相似。需要注意的是，这里只采用了最简单的参数设置，没有进行仔细的调优，以证明所提概念H-MHSA和trannn的有效性和通用性。例如，作者使用典型的通道数，即64、128、256和512。MHSA中每个Head的尺寸被设置为64。作者提到对这些参数设置进行细致的工程调整可以进一步提高性能。

5实验

5.1 ImageNet图像分类

通过上表可以看出，将H-MHSA插入到相应的卷积模型中，可以以很少的参数量和FLOPs换取很大的精度提升。

5.2 MS-COCO 2017目标检测

通过上表可以看出，在比ResNet50更少的参数量的同时，RetinaNet的AP得到了很大的提升。

5.3 MS-COCO 2017语义分割

通过上表可以看出，在比ResNet50更少的参数量的同时，Mask R-CNN的AP得到了很大的提升。可见本文所提方法的实用性还是很强的。

6参考

[1].Transformer in Convolutional Neural Networks

Tansformer | 详细解读：如何在CNN模型中插入Transformer后速度不变精度剧增？（二）

4将Transformer插入到CNN中

5实验

5.1 ImageNet图像分类

5.2 MS-COCO 2017目标检测

5.3 MS-COCO 2017语义分割

6参考

ModelScope模型即服务

热门文章

最新文章

相关课程

相关电子书

相关实验场景