NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(二)

简介: NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(二)

3、实验


3.1、消融实验

1、不同形式注意力的对比

为了验证提出的注意力的有效性,将RTFormer块中使用的注意力替换为不同类型和组合。如表5a所示,给出了多头自注意力、多头external attentionGPU-Friendly attention 交叉分辨注意力的不同组合的结果。

例如,“GFA+CA”意味着在低分辨率分支中使用GFA,在高分辨率分支中则使用CA。此外,通过M=d×r调整了多头外部注意中的超参数M,其中r是一个缩减率。可以发现,GPU-Friendly attention 优于所有多头外部注意设置,并且在M=d时比最佳注意设置更快,同时,GPU-Friendly attention 比多头自注意力更有效,性能相当。

这表明,在类似GPU的设备上,GPU-Friendly attention多头自注意力多头external attention在性能和效率之间取得更好的平衡。当引入交叉分辨率注意力时,性能会进一步提高,而FPS仅下降不到2。

2、不同形式的FFN的对比

表5b显示了由两个MLP层和一个3×3深度卷积层组成的典型FFN的结果,以及提出的包含两个3×3卷积层的FFN。结果表明,提出的FFN不仅在mIoU上,而且在FPS上都优于典型的FFN。这表明提出的FFN更适合于应该考虑类GPU设备延迟的情况。

3、分组双重标准化中组数的影响

研究了在使用GPU Friendly Attention对两个分支进行分组双重标准化的情况下,分组数目的影响。表5c显示了不同配置的结果。例如,“8+2”表示在低分辨率分支中使用8个组,在高分辨率分支中则使用2个组。特别是,当组的数目设置为1时,分组的双重归一化会退化为原始的双重归一化。在这里,当组数为8和2时,可以获得最佳mIoU,这说明分组的双重归一化比原始的双重归一化性能更好。值得注意的是,改变分组双重归一化中的组数并不影响推理效率,这使得GPU Friendly Attention能够在组数较大时保持较高的FPS。

4、交叉特征的空间大小对交叉分辨率注意的影响

image.png

作者还研究了交叉分辨率注意力中交叉特征的空间大小,包括应用6×6、8×8和12×12。如表5d所示,根据FPSmIoU之间的权衡,RTFormer Slim的交叉特征的8×8空间大小是最佳的。在一定程度上,这表明与高分辨率特征尺寸相近的交叉特征的空间尺寸是合适的,因为RTFormer Slim的高分辨率特征维数为64,等于8×8。

3.2、泛化性分析

表3显示了关于ADE20K的结果。RTFormer Base实现了42.1%的卓越mIoU和71.4FPS,优于所有其他方法。例如,与DDRNet-23-Slim相比,RTFormer Slim实现了更好的mIoU 36.7%,并且保持了几乎相同的速度。图6显示了ADE20K验证集的定性结果。与DDRNet-23相比,RTFormer显示了更好的细节和上下文信息。总之,这些结果表明,RTFormer在广义场景中的实时语义分割方面也显示出非常有前景的性能。在COCOStuff上,如表4所示,RTFormer Base以143.3 FPS的速度达到35.3 mIoU,以相当的推理速度超过DDRNet-23约3%,并创下了新的一流水平。

3.3、SOTA对比

3.4、分类实验对比


4、参考


[1].RTFormer: Efficient Design for Real-Time Semantic Segmentation with Transformer.


5、推荐阅读


即插即用 | CNN与Transformer都通用的Trick,即插即涨点即提速!

目标检测改进 | 如何使用IOU改进自注意力以提升Sparse RCNN目标检测性能

重参巅峰 | 你喜欢的RepVGG其实也是有缺陷的,RepOpt才是重参的巅峰

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
机器学习/深度学习 自然语言处理 算法
Jieba分词的准确率提升:使用paddle模式进行分词(使用百度飞桨深度学习模型进行分词)
jieba中的paddle模式是指使用飞桨(PaddlePaddle)深度学习框架加速分词的一种模式。相对于传统的分词算法,paddle模式采用了深度学习模型,可以获得更高的分词准确度和更快的分词速度。
|
1月前
|
机器学习/深度学习 监控 数据挖掘
基于Django和百度飞桨模型的情感识别Web系统
基于Django和百度飞桨模型的情感识别Web系统
37 5
|
6月前
|
机器学习/深度学习 计算机视觉
Backbone创新 | 中科大联合百度提出全新Transformer Backbone
Backbone创新 | 中科大联合百度提出全新Transformer Backbone
129 1
Backbone创新 | 中科大联合百度提出全新Transformer Backbone
|
机器学习/深度学习 编解码 机器人
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(一)
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(一)
177 0
|
数据采集 编解码 算法
百度飞桨常规赛------遥感影像地块分割实战(四月第九名)
百度飞桨常规赛------遥感影像地块分割实战(四月第九名)
百度飞桨常规赛------遥感影像地块分割实战(四月第九名)
|
前端开发 小程序 算法
【微信小程序】基于百度大脑人体检测、人脸识别以及调用阿里垃圾分类识别小程序利用canvas完成人脸画图、分割手部部分图片算法
【微信小程序】基于百度大脑人体检测、人脸识别垃圾分类人体出现在镜头里用红色框将人脸圈出来、用黄色框将手部圈出来,定时器触发后,通过百度返回的top+、left+、width+、height+将拍照的截图用canvas画出来,最后保存上传到阿里云垃圾分类识别检测博主用的是手部关键点识别,手部截取包括手肘部分,当出现手肘没有手掌时会出现截取不到目标的问题,目前解决办法:定时器设置时间长一点供演示员做好调整,另外就是出现手掌,可以尽量把掌心打开方便识别这样手肘部分就不会被检测到了在截取的时候canvas用不了..
318 0
【微信小程序】基于百度大脑人体检测、人脸识别以及调用阿里垃圾分类识别小程序利用canvas完成人脸画图、分割手部部分图片算法
|
监控 BI API
pyqt5 + 百度api 打造一个图像人脸识别、分割的程序
前序 这篇文章主要介绍利用 pyqt5 和 百度人脸识别 api 搭建一个具有人脸识别、头像裁剪等多个功能集一体的小工具,我们先看一下程序的最终效果
AI:百度飞桨EasyDL多门视频课程,手把手教你如何定制高精度AI模型
AI:百度飞桨EasyDL多门视频课程,手把手教你如何定制高精度AI模型
|
机器学习/深度学习 人工智能 文字识别
超越整句的流式多级Attention:解密百度输入法背后的语音识别模型
1 月 16 日,百度输入法举办了「AI·新输入全感官输入 2.0」发布会,正式对外发布百度输入法 AI 探索版,这是一款默认输入方式为全语音输入、并以注意力机制为语音核心的新产品。新语音模型结合了 CTC 和 Attention,为每日数亿条语音识别调用提供硬核支持,本文将带你一观新模型是如何劝君「动口不动手」。
422 0
超越整句的流式多级Attention:解密百度输入法背后的语音识别模型
AI:百度飞桨EasyDL多门视频课程,手把手教你如何定制高精度AI模型
AI:百度飞桨EasyDL多门视频课程,手把手教你如何定制高精度AI模型

热门文章

最新文章