详细解读PVT-v2 | 教你如何提升金字塔Transformer的性能?(附论文下载)(二)

简介: 详细解读PVT-v2 | 教你如何提升金字塔Transformer的性能?(附论文下载)(二)

4PVTv2系列详细介绍


作者通过改变超参数将PVTv2从B0扩展到B5。具体如下:

  • :第阶段overlapping patch embedding的stride;
  • :第阶段输出的通道数;
  • :第阶段中编码器层数;
  • :第阶段SRA的reduction ratio;
  • :第阶段线性SRA的adaptive average pooling size;
  • :第阶段有效Self-Attention的head number;
  • :第阶段前馈层的expansion ratio;

表1显示了PVT-v2系列的详细信息。设计遵循ResNet的原则。

  1. 随着层数的增加,通道维数增大,空间分辨率减小。
  2. 阶段3为大部分计算开销。

5实验


5.1 Image Classification

在表中可以看到PVT-v2是ImageNet-1K分类中最先进的方法。与PVT相比,PVT-v2具有相似的FLOPs和参数,但图像分类精度有了很大的提高。例如,PVTv2-B1比PVTv1-Tiny高3.6%,并且PVTv2-B4比PVT-Large高1.9%。

与最近的同类模型相比,PVT-v2系列在精度和模型尺寸方面也有很大的优势。例如,PVTv2-B5的ImageNet top-1准确率达到83.8%,比Swin Transformer和Twins高0.5%,而参数和FLOPs更少。

5.2 Object Detection


6参考


[1].PVTv2:Improved Baselines with Pyramid Vision Transformer

相关文章
|
6月前
|
机器学习/深度学习 算法 固态存储
最强DETR+YOLO | 三阶段的端到端目标检测器的DEYOv2正式来啦,性能炸裂!!!
最强DETR+YOLO | 三阶段的端到端目标检测器的DEYOv2正式来啦,性能炸裂!!!
224 0
|
机器学习/深度学习 算法 数据挖掘
即插即用 | 通过自适应聚类Transformer来提升DERT目标检测器的速度(文末附论文下载)(一)
即插即用 | 通过自适应聚类Transformer来提升DERT目标检测器的速度(文末附论文下载)(一)
819 0
|
机器学习/深度学习 PyTorch 算法框架/工具
【论文泛读】 ResNeXt:深度神经网络的聚合残差变换(ResNet的改进,提出了一种新的维度)
【论文泛读】 ResNeXt:深度神经网络的聚合残差变换(ResNet的改进,提出了一种新的维度)
【论文泛读】 ResNeXt:深度神经网络的聚合残差变换(ResNet的改进,提出了一种新的维度)
|
5月前
|
边缘计算 计算机视觉 异构计算
【YOLOv8改进 - 特征融合NECK】Slim-neck:目标检测新范式,既轻量又涨点
YOLO目标检测专栏探讨了模型优化,提出GSConv和Slim-Neck设计,以实现轻量级模型的高效检测。GSConv减小计算复杂度,保持准确性,适合实时任务。Slim-Neck结合GSConv优化架构,提高计算成本效益。在Tesla T4上,改进后的检测器以100FPS处理SODA10M数据集,mAP0.5达70.9%。论文和代码可在提供的链接中获取。文章还介绍了YOLOv8中GSConv的实现细节。更多配置信息见相关链接。
|
6月前
|
机器学习/深度学习 算法 固态存储
MFDS-DETR开源 | HS-FPN多级特征融合+Deformable Self-Attention,再续DETR传奇
MFDS-DETR开源 | HS-FPN多级特征融合+Deformable Self-Attention,再续DETR传奇
808 0
|
机器学习/深度学习 编解码 自然语言处理
基于EasyCV复现ViTDet:单层特征超越FPN
ViTDet其实是恺明团队MAE和ViT-based Mask R-CNN两个工作的延续。MAE提出了ViT的无监督训练方法,而ViT-based Mask R-CNN给出了用ViT作为backbone的Mask R-CNN的训练技巧,并证明了MAE预训练对下游检测任务的重要性。而ViTDet进一步改进了一些设计,证明了ViT作为backone的检测模型可以匹敌基于FPN的backbone(如SwinT和MViT)检测模型。
|
机器学习/深度学习 存储 编解码
详细解读PVT-v2 | 教你如何提升金字塔Transformer的性能?(附论文下载)(一)
详细解读PVT-v2 | 教你如何提升金字塔Transformer的性能?(附论文下载)(一)
593 0
|
机器学习/深度学习 编解码 计算机视觉
Transformer新SOTA | 超越SWin、CSWin,MAFormer再探ViT Backbone新高度
Transformer新SOTA | 超越SWin、CSWin,MAFormer再探ViT Backbone新高度
267 0
|
计算机视觉
目标检测无痛涨点新方法 | DRKD蒸馏让ResNet18拥有ResNet50的精度(二)
目标检测无痛涨点新方法 | DRKD蒸馏让ResNet18拥有ResNet50的精度(二)
135 0
|
机器学习/深度学习 计算机视觉 索引
目标检测无痛涨点新方法 | DRKD蒸馏让ResNet18拥有ResNet50的精度(一)
目标检测无痛涨点新方法 | DRKD蒸馏让ResNet18拥有ResNet50的精度(一)
508 0