计算机视觉中Transformer的应用，论文精选

2023-06-20 197

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 计算机视觉中Transformer的应用，论文精选

简介

个人建议，在不断学习深度学习知识的时候，通常现有的教材教程出现的算法都是几年前研究的了，我们也应该不断去学习新的算法，准确率效果更好的，学习新的关键技术，通常最直接的方法就是看论文，找到想看的英文论文，如果看英语太麻烦了，最简单办法就是复制英文论文标题，去网站搜索标题就行，有专门的博主对论文已经做好翻译的文章。

在过去的一年里，《注意力就是你所需要的》中的Transformer被很多人所关注。除了在翻译质量上产生重大改进外，它还为许多其他NLP任务提供了一个新的架构。这篇论文本身写得非常清楚，但传统的观点是，它的正确实现相当困难。

《注意力就是你所需要的》文章链接：

Attention Is All You Need

在计算机视觉领域，CNN自2012年以来已经成为视觉任务的主导模型。随着出现了越来越高效的结构。最早在在一系列序列建模任务中，Transformer展现出可以替代RNN的强大能力。Transformer弥补了RNN最明显的缺点：RNN内部按照时间步进行计算的方式使得它们没有办法实现并行计算。Transformer亦通过自注意力机制应对梯度消失问题。

于是逐渐的Transformer结构也应用到了视觉项目中，

为什么使用transformer结构：

Transformer被证明是一个简单和可扩展的框架，用于计算机视觉任务，如图像识别、分类和分割，或仅仅学习全局图像表示。

与传统方法相比，在训练效率上具有显著优势。在架构上，可以采用纯Transformer的方式使用，也可以与cnn结合使用混合的方式使用。

它也面临着挑战，比如在DETR中检测小目标的性能较低，在Vision Transformer (ViT)中，当预训练数据集较小时，性能也不是很好。

Transformer正在成为学习序列数据(包括文本、图像和时间序列数据)的更通用的框架。

计算机视觉中Transformer的应用，论文精选

简介

2D视觉

目标检测

图像分类

目标追踪

语义分割

图像合成

动作识别

3D视觉

点云处理

运动建模

人体建模

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

计算机视觉中Transformer的应用，论文精选

简介

2D视觉

目标检测

目标追踪

图像合成

动作识别

3D视觉

点云处理

运动建模

人体建模

热门文章

最新文章

相关课程

相关电子书