计算机视觉中Transformer的应用,论文精选

简介: 计算机视觉中Transformer的应用,论文精选

简介


个人建议,在不断学习深度学习知识的时候,通常现有的教材教程出现的算法都是几年前研究的了,我们也应该不断去学习新的算法,准确率效果更好的,学习新的关键技术,通常最直接的方法就是看论文,找到想看的英文论文,如果看英语太麻烦了,最简单办法就是复制英文论文标题,去网站搜索标题就行,有专门的博主对论文已经做好翻译的文章。


在过去的一年里,《注意力就是你所需要的》中的Transformer被很多人所关注。除了在翻译质量上产生重大改进外,它还为许多其他NLP任务提供了一个新的架构。这篇论文本身写得非常清楚,但传统的观点是,它的正确实现相当困难。


《注意力就是你所需要的》文章链接:

Attention Is All You Need


在计算机视觉领域,CNN自2012年以来已经成为视觉任务的主导模型。随着出现了越来越高效的结构。最早在在一系列序列建模任务中,Transformer展现出可以替代RNN的强大能力。Transformer弥补了RNN最明显的缺点:RNN内部按照时间步进行计算的方式使得它们没有办法实现并行计算。Transformer亦通过自注意力机制应对梯度消失问题。


于是逐渐的Transformer结构也应用到了视觉项目中,


为什么使用transformer结构:


Transformer被证明是一个简单和可扩展的框架,用于计算机视觉任务,如图像识别、分类和分割,或仅仅学习全局图像表示。

与传统方法相比,在训练效率上具有显著优势。在架构上,可以采用纯Transformer的方式使用,也可以与cnn结合使用混合的方式使用。

它也面临着挑战,比如在DETR中检测小目标的性能较低,在Vision Transformer (ViT)中,当预训练数据集较小时,性能也不是很好。

Transformer正在成为学习序列数据(包括文本、图像和时间序列数据)的更通用的框架。


下面是针对不同视觉任务下精选的论文


2D视觉


目标检测


图像分类


目标追踪


语义分割



图像合成


动作识别



3D视觉


点云处理



运动建模



人体建模



相关文章
|
7月前
|
机器学习/深度学习 编解码 人工智能
计算机视觉五大技术——深度学习在图像处理中的应用
深度学习利用多层神经网络实现人工智能,计算机视觉是其重要应用之一。图像分类通过卷积神经网络(CNN)判断图片类别,如“猫”或“狗”。目标检测不仅识别物体,还确定其位置,R-CNN系列模型逐步优化检测速度与精度。语义分割对图像每个像素分类,FCN开创像素级分类范式,DeepLab等进一步提升细节表现。实例分割结合目标检测与语义分割,Mask R-CNN实现精准实例区分。关键点检测用于人体姿态估计、人脸特征识别等,OpenPose和HRNet等技术推动该领域发展。这些方法在效率与准确性上不断进步,广泛应用于实际场景。
1037 64
计算机视觉五大技术——深度学习在图像处理中的应用
|
机器学习/深度学习 算法 PyTorch
【机器学习】大模型环境下的应用:计算机视觉的探索与实践
【机器学习】大模型环境下的应用:计算机视觉的探索与实践
347 1
|
机器学习/深度学习 数据采集 算法
隧道裂纹识别:基于计算机视觉与机器学习的应用分享
隧道裂纹的自动检测通过深度学习与计算机视觉技术实现,替代了传统人工检查,提高了检测精度与效率。本文介绍了一套完整的裂纹检测流程,包括图像采集、预处理、裂纹检测与标定、后处理及结果展示,提供了图像处理与深度学习模型的基本代码框架,旨在帮助读者掌握隧道裂纹检测的实际应用方法。
|
机器学习/深度学习 人工智能 自然语言处理
深度学习与计算机视觉的结合:技术趋势与应用
深度学习与计算机视觉的结合:技术趋势与应用
680 9
|
人工智能 并行计算 PyTorch
AI计算机视觉笔记十八:Swin Transformer目标检测环境搭建
本文详细记录了Swin Transformer在AutoDL平台上的环境搭建与训练过程。作者从租用GPU实例开始,逐步介绍了虚拟环境的创建、PyTorch安装、mmcv及mmdetection的配置,并解决了安装过程中遇到的各种问题,如cython版本冲突等。最后,通过修改代码实现目标检测结果的保存。如需了解更多细节或获取完整代码,请联系作者。原文链接:[原文链接](请在此处插入原文链接)。
1091 5
|
人工智能 计算机视觉 Python
AI计算机视觉笔记十九:Swin Transformer训练
本文介绍了使用自定义数据集训练和测试目标检测模型的步骤。首先,通过安装并使用标注工具labelme准备数据集;接着修改配置文件以适应自定义类别,并调整预训练模型;然后解决训练过程中遇到的依赖冲突问题并完成模型训练;最后利用测试命令验证模型效果。文中提供了具体命令及文件修改指导。
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
570 8
|
传感器 自动驾驶 安全
计算机视觉在自动驾驶中的应用:技术解析与未来展望
【8月更文挑战第4天】自动驾驶依托计算机视觉实现环境感知与决策,通过目标检测、跟踪及车道识别等技术保障行车安全与效率。面对数据处理、场景理解等挑战,未来技术将持续优化,深化智能驾驶体验,引领交通行业变革。
|
自然语言处理 监控 自动驾驶
大模型在自然语言处理(NLP)、计算机视觉(CV)和多模态模型等领域应用最广
【7月更文挑战第26天】大模型在自然语言处理(NLP)、计算机视觉(CV)和多模态模型等领域应用最广
1075 11
|
机器学习/深度学习 人工智能 监控
计算机视觉技术在安防领域的应用深度解析
【7月更文挑战第28天】计算机视觉技术作为人工智能领域的重要分支,在安防领域的应用前景广阔。通过不断提升技术性能和解决实际应用中的问题,计算机视觉技术将进一步提升安防工作的效率和准确性,为公共安全和社会稳定贡献更大的力量。

热门文章

最新文章