经典/最新计算机视觉论文及代码推荐

简介: 经典/最新计算机视觉论文及代码推荐

今日推荐几篇最新计算机视觉方向的论文,涉及诸多方面,具体内容详见论文原文和代码链接。

文本到图像生成


11fed285982310c84d45b41f28c0aac1.png

文本到图像的生成传统上侧重于寻找更好的建模假设,以便在固定数据集上进行训练。这些假设可能涉及复杂的体系结构、辅助损失或辅助信息,如训练期间提供的目标部分标签或分割掩码。我们描述了一种基于transformer的简单方法,其将文本和图像标记自动回归建模为单个数据流。由于有足够的数据和规模,当以零拍方式进行评估时,我们的方法与以前的领域特定模型具有竞争力。

5ceabc1074fea1068aaf291d24de79b3.png

跨模态3D目标检测框架


d2886175eab2bc39e031fa8497e1c595.png

作者提出了一个概念简单但有效的跨模态三维目标检测框架,称为Voxel Field Fusion。提出的方法旨在通过在Voxel field中将增强图像特征表示为ray并进行融合来保持跨模态一致性。为此,可学习采样器首先被设计用于从图像平面中采样重要特征,这些特征以点到射线的方式投影到体素网格,从而保持特征表示与空间上下文的一致性。此外,在构建的voxel field中进行光线融合,将特征与补充上下文进行融合。我们进一步开发了混合增强器来对齐特征变量转换,从而弥补了数据增强器中的模态差异。所提出的框架在各种基准测试中取得了一致的收益,并且优于以前基于KITTI和nuScenes数据集的融合方法。下图是基于voxel field融合的三维目标检测框架结构图:

7dc8a8d3ead7ec834a80432b188ca1c9.png

OnePose:无CAD模型的姿态估计


255fe27009ce27f075ce77aeb268bcc7.png

作者提出了一种新的物体姿态估计方法OnePose。与现有实例级或类别级方法不同,OnePose不依赖CAD模型,可以处理任意类别中的对象,而无需实例或特定类别的网络训练。OnePose借鉴了视觉定位的思想,只需对对象进行简单的RGB视频扫描即可构建对象的稀疏SfM模型。然后,使用通用特征匹配网络将该模型注册到新的查询图像中。为了缓解现有视觉定位方法运行缓慢的问题,我们提出了一种新的图形注意网络,该网络将查询图像中的2D兴趣点与SfM模型中的3D点直接匹配,从而实现高效、鲁棒的姿势估计。结合基于特征的姿势跟踪器,OnePose能够实时稳定地检测和跟踪日常家居对象的6D姿势。我们还收集了一个由150个对象的450个序列组成的大规模数据集。下图是OnePose的模型框架图:

78caa3f6df952ffe08044e7870022d5a.png

后续


下一期最新/经典视觉论文敬请期待!


相关文章
|
2月前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
40 0
|
3月前
|
机器学习/深度学习 算法 数据可视化
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)-2
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)
100 0
|
3天前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
16 0
|
3月前
|
机器学习/深度学习 Ubuntu Linux
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)-1
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)
56 1
|
9月前
|
机器学习/深度学习 算法 计算机视觉
【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 14 日论文合集)
【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 14 日论文合集)
|
9月前
|
机器学习/深度学习 算法 数据挖掘
【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 11 日论文合集)
【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 11 日论文合集)
|
9月前
|
机器学习/深度学习 自动驾驶 数据可视化
【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 11 日论文合集)
【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 11 日论文合集)
|
9月前
|
机器学习/深度学习 编解码 自然语言处理
【计算机视觉 | Transformer】arxiv 计算机视觉关于Transformer的学术速递(8 月 11 日论文合集)
【计算机视觉 | Transformer】arxiv 计算机视觉关于Transformer的学术速递(8 月 11 日论文合集)
|
9月前
|
机器学习/深度学习 传感器 人工智能
【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 10 日论文合集)(下)
【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 10 日论文合集)(下)
|
4月前
|
机器学习/深度学习 算法 数据可视化
基于计算机视觉手势识别控制系统YoloGesture (利用YOLO实现) 有详细代码+部署+在线服务器尝试+开源可复现
基于计算机视觉手势识别控制系统YoloGesture (利用YOLO实现) 有详细代码+部署+在线服务器尝试+开源可复现

热门文章

最新文章