备案控制台

开发者社区人工智能文章正文

详细解读PVT-v2 | 教你如何提升金字塔Transformer的性能？（附论文下载)（二）

2023-05-23 455

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 详细解读PVT-v2 | 教你如何提升金字塔Transformer的性能？（附论文下载)（二）

4PVTv2系列详细介绍

作者通过改变超参数将PVTv2从B0扩展到B5。具体如下:

:第阶段overlapping patch embedding的stride;
:第阶段输出的通道数;
:第阶段中编码器层数;
:第阶段SRA的reduction ratio;
:第阶段线性SRA的adaptive average pooling size;
:第阶段有效Self-Attention的head number;
:第阶段前馈层的expansion ratio;

表1显示了PVT-v2系列的详细信息。设计遵循ResNet的原则。

随着层数的增加，通道维数增大，空间分辨率减小。
阶段3为大部分计算开销。

5实验

5.1 Image Classification

在表中可以看到PVT-v2是ImageNet-1K分类中最先进的方法。与PVT相比，PVT-v2具有相似的FLOPs和参数，但图像分类精度有了很大的提高。例如，PVTv2-B1比PVTv1-Tiny高3.6%，并且PVTv2-B4比PVT-Large高1.9%。

与最近的同类模型相比，PVT-v2系列在精度和模型尺寸方面也有很大的优势。例如，PVTv2-B5的ImageNet top-1准确率达到83.8%，比Swin Transformer和Twins高0.5%，而参数和FLOPs更少。

5.2 Object Detection

6参考

[1].PVTv2:Improved Baselines with Pyramid Vision Transformer

文章标签：

计算机视觉

编解码

数据挖掘

5i77ajz5u7ji6

目录

相关文章

5i77ajz5u7ji6

|

机器学习/深度学习算法数据挖掘

即插即用 | 通过自适应聚类Transformer来提升DERT目标检测器的速度(文末附论文下载)（一）

即插即用 | 通过自适应聚类Transformer来提升DERT目标检测器的速度(文末附论文下载)（一）

5i77ajz5u7ji6

847 0 0

楠竹11

|

2月前

|

机器学习/深度学习搜索推荐

CIKM 2024：LLM蒸馏到GNN，性能提升6.2%！Emory提出大模型蒸馏到文本图

【9月更文挑战第17天】在CIKM 2024会议上，Emory大学的研究人员提出了一种创新框架，将大型语言模型（LLM）的知识蒸馏到图神经网络（GNN）中，以克服文本图（TAGs）学习中的数据稀缺问题。该方法通过LLM生成文本推理，并训练解释器模型理解这些推理，再用学生模型模仿此过程。实验显示，在四个数据集上性能平均提升了6.2%，但依赖于LLM的质量和高性能。论文链接：https://arxiv.org/pdf/2402.12022

楠竹11

77 7 7

YOLO创新改进大师

|

4月前

|

机器学习/深度学习自然语言处理并行计算

【YOLOv8改进 -注意力机制】Mamba之MLLAttention ：基于Mamba和线性注意力Transformer的模型

YOLOv8专栏探讨了该目标检测模型的创新改进，包括使用Mamba模型的线性注意力Transformer变体，称为MLLA。Mamba的成功关键在于遗忘门和块设计，MLLA结合了这些优点，提升了视觉任务的性能。文章提供全面分析，并提出MLLA模型，其在效率和准确性上超过多种视觉模型。论文和代码可在提供的链接中找到。MLLA Block的代码示例展示了如何整合关键组件以实现高效运算。更多配置详情见相关链接。

YOLO创新改进大师

437 2 2

5i77ajz5u7ji6

|

6月前

|

机器学习/深度学习算法固态存储

MFDS-DETR开源 | HS-FPN多级特征融合+Deformable Self-Attention，再续DETR传奇

MFDS-DETR开源 | HS-FPN多级特征融合+Deformable Self-Attention，再续DETR传奇

5i77ajz5u7ji6

861 0 0

阿里云大数据Al技术

|

机器学习/深度学习编解码自然语言处理

基于EasyCV复现ViTDet：单层特征超越FPN

ViTDet其实是恺明团队MAE和ViT-based Mask R-CNN两个工作的延续。MAE提出了ViT的无监督训练方法，而ViT-based Mask R-CNN给出了用ViT作为backbone的Mask R-CNN的训练技巧，并证明了MAE预训练对下游检测任务的重要性。而ViTDet进一步改进了一些设计，证明了ViT作为backone的检测模型可以匹敌基于FPN的backbone(如SwinT和MViT)检测模型。

阿里云大数据Al技术

1067 0 0

LeapMay

|

Shell 开发工具计算机视觉

【vision transformer】DETR原理及代码详解（三）

【vision transformer】DETR原理及代码详解

LeapMay

199 0 1

LeapMay

|

机器学习/深度学习算法 PyTorch

【vision transformer】DETR原理及代码详解（一）

【vision transformer】DETR原理及代码详解

LeapMay

1371 0 1

LeapMay

|

SQL API

【vision transformer】DETR原理及代码详解（四）

【vision transformer】DETR原理及代码详解

LeapMay

542 0 1

5i77ajz5u7ji6

|

机器学习/深度学习存储编解码

详细解读PVT-v2 | 教你如何提升金字塔Transformer的性能？（附论文下载)（一）

详细解读PVT-v2 | 教你如何提升金字塔Transformer的性能？（附论文下载)（一）

5i77ajz5u7ji6

598 0 0

5i77ajz5u7ji6

|

机器学习/深度学习编解码 PyTorch

金字塔ViT | 华为提出使用金字塔结构改进Transformer，涨点明显（Pytorch逐行解读）

金字塔ViT | 华为提出使用金字塔结构改进Transformer，涨点明显（Pytorch逐行解读）

5i77ajz5u7ji6

298 0 0

热门文章

最新文章

Flutter之禅内存优化篇

《Cadence 16.6电路设计与仿真从入门到精通》——2.4 Design Entry CIS原理图图形界面　

记一次对网络抖动经典案例的分析

国外成人网站xHamster大量用户信息黑市变卖，部分账号涉及英美政府官员

用户密码以BCrypt加密的方式来防范被破解

带你理清CPU，cache和存储器之间的逻辑运作

Git设置代理服务器

【DSW Gallery】PAI-DSW开通及授权

吐血整理：机器学习的30个基本概念，都在这里了（手绘图解）

MOSS站点的迁移(备份还原)

设计模式之 5 大创建型模式，万字长文深剖，近 30 张图解！

《C++新特性：为多线程数据竞争检测与预防保驾护航》

Kotlin - 区间与数组

Kotlin - 参数与异常

Kotlin - 运算符与中缀表达式

Kotlin - 函数与Lambda表达式

Kotlin - 分支与循环

天气预报1天-中国气象局-地址查询版免费API接口教程

《C++智能合约与区块链底层交互全解析：构建坚实的去中心化应用桥梁》

相关课程

更多

【算法实战】8. 集成方法-Adaboost

【算法实战】7. 集成方法-随机森林

神经网络概览及算法详解

机器学习基础与回归算法

【算法实战】2. K近邻算法

【算法实战】10. 树回归算法

相关电子书

更多

展心展力MetaApp：基于DeepRec的稀疏模型训练实践

深度学习论文实现：空间变换网络-第一部分

机器能理解上下文吗 RNN和LSTM神经网络的原理及应用

相关实验场景

更多

如何快速训练大模型

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

AI克隆声音，基于函数计算部署GPT-Sovits语音生成模型

【文生图】一键部署Stable Diffusion基于函数计算

使用PAI-快速开始，低代码实现大语言模型微调和部署

【可换模型】基于函数计算一键部署 Stable Diffusion

下一篇

阿里云OSS设置跨域访问