迟到的 HRViT | Facebook提出多尺度高分辨率ViT，这才是原汁原味的HRNet思想（二）-阿里云开发者社区

迟到的 HRViT | Facebook提出多尺度高分辨率ViT，这才是原汁原味的HRNet思想（二）

2023-05-23 275

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 迟到的 HRViT | Facebook提出多尺度高分辨率ViT，这才是原汁原味的HRNet思想（二）

3实验

3.1 ImageNet分类

3.2 语义分割实验

在ADE20K上，HRViT优于其他ViT，具有更好的性能和效率权衡。例如，使用SegFormer头，HRViT-b1比MiT-B1的mIoU高3.68%，参数减少40%，计算量减少8%。HRViT-b3比最好的CSWin-S实现了更高的mIoU，但节省了23%的参数和13%的FLOPs。与卷积HRNetV2+OCR相比，HRViT具有明显的性能优势，硬件效率显著提高。

表4

在表4中，HRViT-b1比MiT-B1和CSWin-Ti高出+3.13和+2.47个mIoU，这表明更大的HR架构有效宽度在小网络上尤其有效。

当HRViT-b3在Cityscapes上训练时，将多分支窗口设置为1-2-3-9。HRViTb3表现优于MiT-b4, mIoU比MiT-b4高0.86，参数减少55.4%，FLOPs降低30.7%。与MiT和CSWin两个SoTA ViT Backbone相比，HRViT的mIoU平均提高了+2.16，参数减少了30.7%，计算量减少了22.3%。

3.3 消融实验

Sharing key-value

当去除Sharing key-value，即使用独立的key和Value时，HRViT-b1显示了相同的ImageNet-1K精度，但代价是较低的Cityscape分割mIoU，多9%的参数，多4%的计算。

Patch embedding

将有效的Patch embedding转换为基于卷积的overlap patch embedding。观察到多出了22%的参数和17%的FLOPs，同时并没有准确性和mIoU的提升。

MixCFN

去除MixCFN直接导致ImageNet精度下降0.66%，Cityscape mIoU损失0.11%，效率提高幅度很小。可以看到，MixCFN块是保证性能的一项重要技术。

Parallel CONV path

The embedded inverted residual path in the attention block非常轻量，但提高了0.46%的ImageNet精度和0.81%的mIoU。

Additional nonlinearity/BN

额外的Hardswish和BN引入了微不足道的开销，但提高了表达能力和可训练性，提高了0.15% ImageNet-1K精度和0.51%的mIoU。

Dense vs. sparse fusion layers

稀疏融合在HRViT中并不有效，因为它节省了微小的硬件成本(<1%)，但导致了0.57%的精度下降和0.37%的mIoU损失。

Diversity-enhanced shortcut

非线性shortcut(DES)有助于提高特征的多样性，有效地将多任务的性能提升到更高的水平。由于基于Kronecker分解的投影仪的高效率，引入了可忽略的硬件成本。

Naive HRNet-ViT vs. HRViT

表 6

在表6中，直接用transformer blocks替换HRNetV2中的残差块作为简单的Baseline。当将HRNet-MiT与顺序MiT进行比较时，注意到HR变体在显著节省硬件成本的同时具有可比的mIoUs。这表明多分支体系结构确实有助于提高多尺度的可表示性。

然而，HRNet-ViT忽略了Transformer的昂贵的计算成本。因此，它是不可扩展的，因为硬件成本很快超过了它的性能增益。相比之下，异构分支和优化组件实现了硬件成本的良好控制，增强了模型的可表征性，并保持了良好的可扩展性。

4参考

[1].HRViT: Multi-Scale High-Resolution Vision Transformer

迟到的 HRViT | Facebook提出多尺度高分辨率ViT，这才是原汁原味的HRNet思想（二）

3实验

3.1 ImageNet分类

3.2 语义分割实验

3.3 消融实验

Sharing key-value

Patch embedding

MixCFN

Parallel CONV path

Additional nonlinearity/BN

Dense vs. sparse fusion layers

Diversity-enhanced shortcut

Naive HRNet-ViT vs. HRViT

4参考

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

迟到的 HRViT | Facebook提出多尺度高分辨率ViT，这才是原汁原味的HRNet思想（二）

3实验

3.1 ImageNet分类

3.2 语义分割实验

3.3 消融实验

Sharing key-value

Patch embedding

MixCFN

Parallel CONV path

Additional nonlinearity/BN

Dense vs. sparse fusion layers

Diversity-enhanced shortcut

Naive HRNet-ViT vs. HRViT

4参考

热门文章

最新文章

相关课程

相关电子书

相关实验场景