HR-Former | 随迟但到,HRNet+Transformer轻装归来(非常值得学习!!!)(二)

简介: HR-Former | 随迟但到,HRNet+Transformer轻装归来(非常值得学习!!!)(二)

4实验


4.1 姿态估计

image.png

表3在COCO val上将HRT与具有代表性的卷积方法进行了比较,如HRNet和最近的几种变换方法,包括PRTR、TransPose-H-A6和TokenPose-L/D24。与384x288的HRNet-W48相比,HRT-B的增益为0.9%,参数减少了32%,FLOPs数减少了19%。因此,HRT-B已经达到77.2%的w/o使用任何先进的技术,如利用UDP或DARK方案HRT-B可以实现更好的结果。

image.png

作者还在表4中根据COCO测试集上的比较。HRT-B的性能比HRNet-W48高0.7%左右,参数和FLOPs更少。图4显示了在COCO val集合上进行人体姿态估计的一些示例结果。

4.2 语义分割

image.png

image.png

表5显示了Cityscapes val的结果。作者选择使用HRT+OCR作为语义分割架构。作者将本文方法与几种知名的基于Vision Transformer的方法和基于CNN的方法进行了比较。

具体来说,SETR-PUP和SETRMLA使用ViT-Large作为Backbone。DPT-Hybrid使用  ViT-Hybrid由一个ResNet-50和12个Transformer层组成。ViT-Large和ViT-Hybrid都是用ImageNet-21k上预训练的权值进行初始化的,在ImageNet上它们的Top1精度都达到了85:1%。

DeepLabv3和PSPNet是基于扩展的ResNet-101,输出stride为8。从表5的第4列可以看出,HRT+OCR整体上具有竞争力。例如,HRT-B+OCR与SETR-PUP在节省70%的参数和50%的FLOPs数的同时实现了相当的性能。

4.3 图像分类

image.png

作者将HRT与表6中一些代表性的CNN方法和ViT Transformer方法进行了比较,其中所有方法仅在  ImageNet-1K  上训练。为了公平性,  ViT-Large大数据集(如ImageNet-21K)的结果不包括在内。从表6可以看出,HRT取得了具有竞争力的效果。例如,HRT-B比DeiT-B增加了1.0%,同时节省了近40%的参数和20%的FLOPs。

4.4 消融实验

1. FFN中3×3深度卷积的影响

在表7中研究了基于HRT-T的FFN内的3×3深度卷积的影响。作者观察到,在FFN中应用3×3深度卷积显著提高了在多个任务上的性能,包括ImageNet分类、pascal上下文分割和COCO姿态估计。

例如,在ImageNet、PASCAL-Context和COCO上,HRT-T+FFN w/ 3×3深度卷积比HRT-T+FFN w/ 3× 3深度卷积分别高出0.65%、2.9%和4.04%。

2. FFN中移动窗口方案与3×3深度卷积的影响

作者将本文方法与表8中Swin Transformer的移位窗口方案进行了比较。为了进行公平的比较,按照与Swin Transformer相同的架构配置构造了一个Intra-Window transformer架构,只是不应用移位的窗口模式。

可以看到,在FFN中应用3×3深度卷积可以改善Swin-T和IntrawinT。令人惊讶的是,当在FFN内配备3× 3深度卷积时,Intrawin-T的性能甚至超过了Swin Transformer。

3. 移位窗口方案vs . 3×3基于HRT-T的FFN深度卷积

在表9中,比较了FFN方案中的3×3深度卷积与基于HRT-T的移位窗口方案。结果表明,在FFN中应用3×3深度卷积在所有不同任务中的性能显著优于移位窗口方案。

4. 与ViT、DeiT和Swin在姿态估计上的比较

image.png

在表10中比较了著名的Transformer模型,包括ViT-Large, DeiT-B和Swin-B的COCO位姿估计结果。值得注意的是,ViT-Large和Swin-B都是事先在ImageNet21K上进行预训练,然后在ImageNet1K上进行微调,分别达到85.1%和86.4%的top-1准确率。DeiT-B在ImageNet1K上训练1000个Epoch,达到85.2%的top-1精度。对于三种方法,使用反卷积模块按照SimpleBaseline对编码器的输出表示进行上采样。表10的第4列和第5列列出了参数和flop的数量。根据表10的结果,可以看到HRT-B在参数和FLOPs更少的情况下比这3种方法获得了更好的性能。

5. 相比HRNet

作者将HRT与具有几乎相同架构配置的卷积HRNet进行比较,方法是将所有的Transformer块替换为由2个3x3卷积组成的传统基本块。表11显示了ImageNet、PASCAL-Context和COCO的对比结果。

可以观察到,HRT在模型和计算复杂度更低的情况下,在各种配置下都显著优于HRNet。例如,HRT-T在3个任务中分别比HRNet-T高出2.0%、1.5%和1.6%,而只需要大约50%的参数和FLOPs。总之,HRT通过利用Transformer的好处获得了更好的性能。

6. 窗口尺寸

作者还比较了在不同分辨率下不同窗口大小的语义分割任务的结果。使用,用stride表示不同分辨率的feature map关联的窗口大小4,8,16,32。作者为更高分辨率的分支选择更大的窗口大小,因此,有。根据这些结果,可以看到,应用较大的窗口可以提高性能,而在不同分辨率下应用不同的窗口大小没有太大的区别。


5参考


[1].HRFormer: High-Resolution Transformer for Dense Prediction

相关文章
|
4月前
|
存储 运维 数据可视化
低代码可视化工作流的系统设计与实现路径研究
本系统基于BPMN 2.0标准,结合可视化建模与低代码开发,提供高效、灵活的业务流程管理方案。支持流程设计、审批配置、权限控制、子流程嵌套等丰富功能,具备高扩展性与易集成性,助力企业快速实现流程自动化,提升业务响应效率与管理能力。
|
存储 Web App开发 JavaScript
你的object可能没别人的快/小
本文深入探讨了JavaScript对象在V8引擎中的内存管理和优化策略,特别是在处理大规模数据时可能出现的性能和内存问题。
418 56
|
10月前
|
数据采集 数据可视化 数据挖掘
金融波动率的多模型建模研究:GARCH族与HAR模型的Python实现与对比分析
本文探讨了金融资产波动率建模中的三种主流方法:GARCH、GJR-GARCH和HAR模型,基于SPY的实际交易数据进行实证分析。GARCH模型捕捉波动率聚类特征,GJR-GARCH引入杠杆效应,HAR整合多时间尺度波动率信息。通过Python实现模型估计与性能比较,展示了各模型在风险管理、衍生品定价等领域的应用优势。
900 66
金融波动率的多模型建模研究:GARCH族与HAR模型的Python实现与对比分析
|
Kubernetes 容器
在K8S中,helm是什么?如何使用?
在K8S中,helm是什么?如何使用?
|
大数据 数据挖掘
【BetterBench】2024年都有哪些数学建模竞赛和大数据竞赛?
本文提供了2024年全年的数学建模和大数据竞赛时间表,列出了32个重要竞赛的报名时间、比赛时间、费用及报名地址等详细信息。
765 6
【BetterBench】2024年都有哪些数学建模竞赛和大数据竞赛?
|
前端开发 搜索推荐 SEO
【专栏:HTML 与 CSS 实践篇】使用 HTML 与 CSS 构建个人博客网站
【4月更文挑战第30天】本文介绍了使用HTML和CSS构建个性化个人博客网站的步骤。首先,规划设计网站主题、风格和结构;接着,利用HTML搭建首页、文章列表页和文章详情页的结构;然后,通过CSS设计整体风格、布局和交互效果;填充内容并进行SEO优化;最后,通过实际案例展示HTML和CSS的应用。构建博客网站不仅是展示自我和分享知识的平台,也是提升技能和创意实践的好机会。
401 1
|
IDE Java 程序员
Eclipse 安装插件报错:An error occurred while collecting items to be installed session context was...解决方法汇总
Eclipse 安装插件报错:An error occurred while collecting items to be installed session context was...解决方法汇总
1588 0
Eclipse 安装插件报错:An error occurred while collecting items to be installed session context was...解决方法汇总
|
存储 Kubernetes 数据安全/隐私保护
k8s学习--Secret详细解释与应用
Secret 支持四种类型: - **Opaque Secrets**:存储任意类型机密数据,需自行加密。 - **Service Account Token Secrets**:自动管理 API 访问令牌。 - **Docker Registry Secrets**:存储 Docker 私有仓库认证信息。 - **TLS Secrets**:存储 TLS 证书和私钥,用于加密通信。
1146 0
|
机器学习/深度学习 搜索推荐 计算机视觉
【阿里云OpenVI-人脸感知理解系列之人脸识别】基于Transformer的人脸识别新框架TransFace ICCV-2023论文深入解读
本文介绍 阿里云开放视觉智能团队 被计算机视觉顶级国际会议ICCV 2023接收的论文 "TransFace: Calibrating Transformer Training for Face Recognition from a Data-Centric Perspective"。TransFace旨在探索ViT在人脸识别任务上表现不佳的原因,并从data-centric的角度去提升ViT在人脸识别任务上的性能。
3140 341