4PVTv2系列详细介绍
作者通过改变超参数将PVTv2从B0扩展到B5。具体如下:
- :第阶段overlapping patch embedding的stride;
- :第阶段输出的通道数;
- :第阶段中编码器层数;
- :第阶段SRA的reduction ratio;
- :第阶段线性SRA的adaptive average pooling size;
- :第阶段有效Self-Attention的head number;
- :第阶段前馈层的expansion ratio;
表1显示了PVT-v2系列的详细信息。设计遵循ResNet的原则。
- 随着层数的增加,通道维数增大,空间分辨率减小。
- 阶段3为大部分计算开销。
5实验
5.1 Image Classification
在表中可以看到PVT-v2是ImageNet-1K分类中最先进的方法。与PVT相比,PVT-v2具有相似的FLOPs和参数,但图像分类精度有了很大的提高。例如,PVTv2-B1比PVTv1-Tiny高3.6%,并且PVTv2-B4比PVT-Large高1.9%。
与最近的同类模型相比,PVT-v2系列在精度和模型尺寸方面也有很大的优势。例如,PVTv2-B5的ImageNet top-1准确率达到83.8%,比Swin Transformer和Twins高0.5%,而参数和FLOPs更少。
5.2 Object Detection
6参考
[1].PVTv2:Improved Baselines with Pyramid Vision Transformer