【计算机视觉 | Transformer】arxiv 计算机视觉关于Transformer的学术速递(8 月 11 日论文合集)

简介: 【计算机视觉 | Transformer】arxiv 计算机视觉关于Transformer的学术速递(8 月 11 日论文合集)

一、Transformer(8篇)

1.1 Deformable Mixer Transformer with Gating for Multi-Task Learning of Dense Prediction

用于密集预测多任务学习的带门控的变形混频Transformer
https://arxiv.org/abs/2308.05721
CNN和Transformers有各自的优势,都被广泛用于多任务学习(MTL)中的密集预测。目前大多数关于MTL的研究仅仅依赖于CNN或Transformer。在这项工作中,我们提出了一种新的MTL模型,结合了可变形CNN和基于查询的Transformer的优点,用于密集预测的多任务学习。这种组合可以提供一个简单和有效的解决方案,由于其强大和灵活的任务特定学习和较低的成本,较低的复杂度和较小的参数比传统的MTL方法。我们介绍了变形混频器Transformer与门控(DeMTG),一个简单而有效的编码器-解码器架构最新的,在一个统一的网络MTL的卷积和注意力机制。它的设计巧妙,充分利用了每个模块的优点,并为所有任务从局部和全局的角度提供可变形和全面的功能。首先,可变形混合器编码器包含两种类型的运算符:通道感知混合算子被利用以允许不同通道之间的通信,以及空间感知可变形算子,其具有应用于有效地采样更多信息空间位置的可变形卷积。第二,任务感知门控Transformer解码器用于执行任务特定预测,其中应用与自我注意集成的任务交互块来捕获任务交互特征,并且利用与门控注意集成的任务查询块来选择对应的任务特定特征。此外,实验结果表明,所提出的DeMTG使用较少的GFLOP和显着优于目前的基于Transformer和基于CNN的竞争模型的三个密集的预测数据集的各种指标。我们的代码和型号可在https://github.com/yangyangxu0/DeMTG获得。

1.2 2D3D-MATR: 2D-3D Matching Transformer for Detection-free Registration between Images and Point Clouds

2D3D-MATR:用于图像和点云之间的无检测配准的2D-3D匹配转换器
https://arxiv.org/abs/2308.05667
通常采用的检测然后匹配的方法来配准发现困难的跨模态的情况下,由于不兼容的关键点检测和不一致的特征描述。我们提出,2D 3D-MATR,一个无检测的方法,图像和点云之间的准确和强大的配准。我们的方法采用了一个粗到细的流水线,它首先计算输入图像的下采样补丁和点云之间的粗对应关系,然后扩展它们,以形成密集的像素和点之间的对应关系。粗级别的补丁匹配是基于Transformer联合学习全局上下文约束与自我注意和跨模态相关与交叉注意。为了解决在补丁匹配的规模模糊,我们构建了一个多尺度金字塔为每个图像补丁,并学会找到每个点补丁的最佳匹配图像补丁在适当的分辨率水平。在两个公开的基准测试上的广泛实验表明,2D 3D-MATR优于以前的国家的最先进的P2-Net约20美元的内点比率和超过10美元的注册召回点。我们的代码和模型可以在\url{https://github.com/minhaolee/2D3DMATR}上找到。

1.3 IIHT: Medical Report Generation with Image-to-Indicator Hierarchical Transformer

IIHT:基于图像-指示器分层转换的医疗报告生成
https://arxiv.org/abs/2308.05633
自动化医学报告生成在医学分析中变得越来越重要。它可以产生计算机辅助诊断描述,从而大大减轻医生的工作量。受到神经机器翻译和图像字幕的巨大成功的启发,已经提出了各种深度学习方法来生成医疗报告。然而,由于医疗数据的固有属性,包括数据不平衡以及报告序列之间的长度和相关性,通过现有方法生成的报告可能表现出语言流畅性,但缺乏足够的临床准确性。在这项工作中,我们提出了一个图像到指示器分层Transformer(IIHT)的医疗报告生成框架。它由三个模块组成,即,分类器模块、指标扩展模块和生成器模块。分类器模块首先从输入医学图像中提取图像特征,并产生具有其对应状态的疾病相关指示符。疾病相关指标随后被用作指标扩展模块的输入,结合了“数据-文本-数据”策略。基于变换器的生成器然后利用这些提取的特征连同图像特征作为辅助信息来生成最终报告。此外,所提出的IIHT方法是可行的放射科医师修改疾病指标在现实世界的场景,并集成到指标扩展模块的操作流畅和准确的医疗报告生成。大量的实验和比较国家的最先进的方法,在各种评价指标证明了所提出的方法的巨大性能。

1.4 Category Feature Transformer for Semantic Segmentation

一种用于语义分割的类别特征转换器
https://arxiv.org/abs/2308.05581
多阶段特征的聚合在语义分割中起着重要的作用。与以往的方法采用逐点求和或级联的功能聚合,本研究提出了类别特征Transformer(CFT),探讨了通过流行的多头注意力机制的多阶段功能之间的类别嵌入和转换的流程。CFT在每个聚合过程中从高级特征中学习单个语义类别的统一特征嵌入,并将其动态广播到高分辨率特征。将建议的CFT集成到一个典型的特征金字塔结构中,在广泛的骨干网络中表现出优异的性能。我们进行了广泛的实验流行的语义分割基准。具体而言,提出的CFT获得了令人信服的55.1% mIoU,大大减少了模型参数和具有挑战性的ADE20K数据集上的计算。

1.5 Deep Fusion Transformer Network with Weighted Vector-Wise Keypoints Voting for Robust 6D Object Pose Estimation

基于加权向量关键点投票的深度融合六维目标姿态估计
https://arxiv.org/abs/2308.05438
根据单个RGBD图像的6D对象姿态估计中的一个关键挑战是两种不同模态的有效集成,即,颜色和深度。在这项工作中,我们通过一种新的深度融合Transformer~(DFTr)块来解决这个问题,该块可以聚合跨模态特征以改善姿势估计。与现有的融合方法不同,所提出的DFTr可以更好地利用它们的语义相似性来建模跨模态语义相关性,从而可以更好地集成来自不同模态的全局增强特征以改进信息提取。此外,为了进一步提高鲁棒性和效率,我们引入了一种新的加权矢量投票算法,该算法采用非迭代全局优化策略进行精确的3D关键点定位,同时实现近实时推理。大量的实验表明,我们提出的3D关键点投票算法的有效性和强大的泛化能力。四个广泛使用的基准测试的结果也表明,我们的方法优于国家的最先进的方法大幅度。

1.6 Transforming Breast Cancer Diagnosis: Towards Real-Time Ultrasound to Mammogram Conversion for Cost-Effective Diagnosis

乳腺癌诊断的转变:向实时超声到乳房X光照片的转变,以实现经济高效的诊断
https://arxiv.org/abs/2308.05449
超声(US)成像更适合术中设置,因为它是实时的,比其他成像技术(如乳腺X线摄影)更便携。然而,US图像的特征在于较低的空间分辨率噪声样伪影。本研究旨在通过为外科医生提供来自噪声US图像的实时乳房X线照片般的图像质量来解决这些限制。与以前的方法,旨在减少伪影(斑点噪声),以改善美国的图像质量,我们认识到他们的价值为信息波干涉图案(WIP)。为了实现这一点,我们利用Stride软件来数值求解正演模型,通过求解波动方程从乳房X线照片图像生成超声图像。此外,我们利用域适应的力量,以提高仿真超声图像的真实感。然后,我们利用生成对抗网络(GANs)来解决从超声图像生成乳房X线照片质量图像的逆问题。所得图像具有比原始US图像明显更多可辨别的细节。

1.7 TriDo-Former: A Triple-Domain Transformer for Direct PET Reconstruction from Low-Dose Sinograms

TriDo-former:一种用于从低剂量正弦图直接重建PET的三域Transformer
https://arxiv.org/abs/2308.05365
为了在最小化辐射暴露的同时获得高质量的正电子发射断层摄影(PET)图像,已经提出了用于直接从低剂量PET(LPET)正弦图重建标准剂量PET(SPET)图像的各种方法。然而,目前的方法往往忽略边界正弦图到图像重建,导致在频域中的高频失真和减少或模糊的边缘重建图像。此外,常用的卷积架构缺乏对远程非局部相互作用进行建模的能力,可能导致全局结构的不准确表示。为了缓解这些问题,我们提出了一种基于变换器的模型,该模型将正弦图,图像和频率的三重域结合起来,用于直接PET重建,即TriDo-Former。具体地,TriDo-Former由两个级联网络组成,即,正弦图增强Transformer(SE-Former),用于对输入的LPET正弦图进行去噪;以及空间-频谱重建变换器(SSR-Former),用于根据去噪的正弦图重建SPET图像。不同于将图像分割成2D块的vanilla Transformer,特别是基于PET成像机制,我们的SE-Former将正弦图分割成1D投影视角,以在去噪的同时保持其内部结构,防止正弦图中的噪声扩展到图像域。此外,为了减轻高频失真和改善重建细节,我们将全局频率解析器(GFPs)集成到SSR-Former中。GFP充当可学习的频率滤波器,其全局地调整频域中的频率分量,强制网络恢复类似于真实SPET图像的高频细节。临床数据集上的验证表明,我们的TriDo-Former在定性和定量方面优于最先进的方法。

1.8 From CNN to Transformer: A Review of Medical Image Segmentation Models

从CNN到Transformer:医学图像分割模型综述
https://arxiv.org/abs/2308.05305
医学图像分割是医学图像分析中的重要步骤,尤其是作为高效疾病诊断和治疗的重要前提。使用深度学习进行图像分割已经成为一种普遍的趋势。目前广泛采用的方法是U-Net及其变体。此外,随着预训练模型在自然语言处理任务中的显著成功,基于变换器的模型如TransUNet已经在多个医学图像分割数据集上实现了理想的性能。本文对近年来最具代表性的四种医学图像分割模型进行了综述。我们从理论上分析了这些模型的特征,并在两个基准数据集(即,肺结核(胸部X光片和卵巢肿瘤)。最后,我们讨论了医学图像分割的主要挑战和未来的发展趋势。我们的工作可以帮助相关领域的研究人员快速建立针对特定区域的医学分割模型。

相关文章
|
7月前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
186 0
|
7月前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
150 0
|
3月前
|
人工智能 并行计算 PyTorch
AI计算机视觉笔记十八:Swin Transformer目标检测环境搭建
本文详细记录了Swin Transformer在AutoDL平台上的环境搭建与训练过程。作者从租用GPU实例开始,逐步介绍了虚拟环境的创建、PyTorch安装、mmcv及mmdetection的配置,并解决了安装过程中遇到的各种问题,如cython版本冲突等。最后,通过修改代码实现目标检测结果的保存。如需了解更多细节或获取完整代码,请联系作者。原文链接:[原文链接](请在此处插入原文链接)。
|
3月前
|
人工智能 计算机视觉 Python
AI计算机视觉笔记十九:Swin Transformer训练
本文介绍了使用自定义数据集训练和测试目标检测模型的步骤。首先,通过安装并使用标注工具labelme准备数据集;接着修改配置文件以适应自定义类别,并调整预训练模型;然后解决训练过程中遇到的依赖冲突问题并完成模型训练;最后利用测试命令验证模型效果。文中提供了具体命令及文件修改指导。
|
6月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
159 8
|
7月前
|
编解码 边缘计算 自然语言处理
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
279 3
|
6月前
|
机器学习/深度学习 算法框架/工具 计算机视觉
ViT模型的出现标志着Transformer架构在计算机视觉中的成功应用
ViT模型的出现标志着Transformer架构在计算机视觉中的成功应用
79 2
|
机器学习/深度学习 算法 计算机视觉
【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 14 日论文合集)
【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 14 日论文合集)
|
7月前
|
机器学习/深度学习 计算机视觉
AIGC核心技术——计算机视觉(CV)预训练大模型
【1月更文挑战第13天】AIGC核心技术——计算机视觉(CV)预训练大模型
643 3
AIGC核心技术——计算机视觉(CV)预训练大模型
|
机器学习/深度学习 PyTorch 算法框架/工具
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
129 0

热门文章

最新文章