每日学术速递1.29

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: 变换器框架在视觉物体追踪中表现出了卓越的性能,因为它在模板和搜索图像的信息聚合方面具有众所周知的注意力机制。最近的进展主要集中在探索注意力机制的变种,以实现更好的信息聚合。我们发现这些方案等同于甚至只是基本的自我注意机制的一个子集。在本文中,我们证明了虚无缥缈的自我注意结构对于信息聚合来说是足够的,而结构调整是不必要的。关键不在于注意力结构,而在于如何提取用于跟踪的鉴别性特征,加强目标和搜索图像之间的交流。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1. Compact Transformer Tracker with Correlative Masked Modeling


538458d0f90ba00ec40b0a8e9f425a25.png


标题:带有相关掩码建模的紧凑型变压器跟踪器


作者: Zikai Song, Run Luo, Junqing Yu, Yi-Ping Phoebe Chen, Wei Yang

文章链接:https://arxiv.org/abs/2301.10938v1

b371604d59d51b103af965badb4a9c2c.png

摘要:

       变换器框架在视觉物体追踪中表现出了卓越的性能,因为它在模板和搜索图像的信息聚合方面具有众所周知的注意力机制。最近的进展主要集中在探索注意力机制的变种,以实现更好的信息聚合。我们发现这些方案等同于甚至只是基本的自我注意机制的一个子集。在本文中,我们证明了虚无缥缈的自我注意结构对于信息聚合来说是足够的,而结构调整是不必要的。关键不在于注意力结构,而在于如何提取用于跟踪的鉴别性特征,加强目标和搜索图像之间的交流。基于这一发现,我们采用基本的视觉变换器(ViT)架构作为我们的主要跟踪器,并将模板和搜索图像串联起来进行特征嵌入。为了引导编码器捕获不变的特征进行跟踪,我们附加了一个轻量级的相关掩码解码器,它从相应的掩码标记中重建原始模板和搜索图像。相关遮蔽解码器作为紧凑型变换跟踪器的插件,在推理中被跳过。我们的紧凑型跟踪器使用最简单的结构,只包括一个ViT主干和一个盒式头,并能以40 fps的速度运行。大量的实验表明,所提出的紧凑型变换跟踪器优于现有的方法,包括先进的注意力变体,并证明了自我注意力在跟踪任务中的充分性。我们的方法在五个具有挑战性的数据集上取得了最先进的性能,以及VOT2020、UAV123、LaSOT、TrackingNet和GOT-10k等基准。

我们的项目可在https://github.com/HUSTDML/CTTrack

Transformer framework has been showing superior performances in visual object tracking for its great strength in information aggregation across the template and search image with the well-known attention mechanism. Most recent advances focus on exploring attention mechanism variants for better information aggregation. We find these schemes are equivalent to or even just a subset of the basic self-attention mechanism. In this paper, we prove that the vanilla self-attention structure is sufficient for information aggregation, and structural adaption is unnecessary. The key is not the attention structure, but how to extract the discriminative feature for tracking and enhance the communication between the target and search image. Based on this finding, we adopt the basic vision transformer (ViT) architecture as our main tracker and concatenate the template and search image for feature embedding. To guide the encoder to capture the invariant feature for tracking, we attach a lightweight correlative masked decoder which reconstructs the original template and search image from the corresponding masked tokens. The correlative masked decoder serves as a plugin for the compact transform tracker and is skipped in inference. Our compact tracker uses the most simple structure which only consists of a ViT backbone and a box head, and can run at 40 fps. Extensive experiments show the proposed compact transform tracker outperforms existing approaches, including advanced attention variants, and demonstrates the sufficiency of self-attention in tracking tasks. Our method achieves state-of-the-art performance on five challenging datasets, along with the VOT2020, UAV123, LaSOT, TrackingNet, and GOT-10k benchmarks. Our project is available at https://github.com/HUSTDML/CTTrack.

2.Enhancing Medical Image Segmentation with TransCeption: A Multi-Scale Feature Fusion Approach

006f4eabc0035058d069082db4e2274e.png

标题:用TransCeption加强医学图像分割。一种多尺度特征融合方法

作者: Reza Azad, Yiwei Jia, Ehsan Khodapanah Aghdam, Julien Cohen-Adad, Dorit Merhof

文章链接:https://arxiv.org/abs/2301.10877v1

593279e30f85c13ed2dd8a2ae302bdb5.png

摘要:

       虽然基于CNN的方法由于其良好的性能和稳健性而成为医学图像分割的基石,但它们在捕捉长距离的依赖性方面受到限制。基于变换器的方法目前很流行,因为它们扩大了接收领域,以模拟全局性的关联。为了进一步提取丰富的表征,U-Net的一些扩展采用了多尺度特征提取和融合模块,并获得更好的性能。受此启发,我们提出了用于医学图像分割的TransCeption,这是一个纯粹的基于变换器的U型网络,其特点是将inception-like模块纳入编码器,并采用上下文桥来实现更好的特征融合。这项工作中提出的设计是基于三个核心原则。(1) 编码器中的补丁合并模块被重新设计为ResInception Patch Merging(RIPM)。多分支变换器(MB transformer)采用与RIPM的输出相同的分支数量。结合这两个模块,使模型能够在一个阶段内捕获多尺度的表现。(2) 我们在MB变换器之后构建了一个阶段内特征融合(IFF)模块,以加强来自所有分支的特征图的聚合,并特别关注所有尺度的不同通道之间的互动。(3) 与只包含token-wise self-attention的桥相比,我们提出了一个双变换器桥,它也包含channel-wise self-attention,从双重角度利用不同阶段的尺度之间的相关性。在多器官和皮肤病变分割任务上进行的大量实验表明,与以前的工作相比,TransCeption的性能更优越。

该代码可在https://github.com/mindflow-institue/TransCeption上公开获取。

While CNN-based methods have been the cornerstone of medical image segmentation due to their promising performance and robustness, they suffer from limitations in capturing long-range dependencies. Transformer-based approaches are currently prevailing since they enlarge the reception field to model global contextual correlation. To further extract rich representations, some extensions of the U-Net employ multi-scale feature extraction and fusion modules and obtain improved performance. Inspired by this idea, we propose TransCeption for medical image segmentation, a pure transformer-based U-shape network featured by incorporating the inception-like module into the encoder and adopting a contextual bridge for better feature fusion. The design proposed in this work is based on three core principles: (1) The patch merging module in the encoder is redesigned with ResInception Patch Merging (RIPM). Multi-branch transformer (MB transformer) adopts the same number of branches as the outputs of RIPM. Combining the two modules enables the model to capture a multi-scale representation within a single stage. (2) We construct an Intra-stage Feature Fusion (IFF) module following the MB transformer to enhance the aggregation of feature maps from all the branches and particularly focus on the interaction between the different channels of all the scales. (3) In contrast to a bridge that only contains token-wise self-attention, we propose a Dual Transformer Bridge that also includes channel-wise self-attention to exploit correlations between scales at different stages from a dual perspective. Extensive experiments on multi-organ and skin lesion segmentation tasks present the superior performance of TransCeption compared to previous work.

Subjects: cs.LG


1.Train Hard, Fight Easy: Robust Meta Reinforcement Learning

89410698fc6ae96f6cda09ad063177a1.png

标题:艰苦训练,轻松战斗:强大的元强化学习

作者:Reza Azad, Yiwei Jia, Ehsan Khodapanah Aghdam, Julien Cohen-Adad, Dorit Merhof

文章链接:https://arxiv.org/abs/2301.11259v1

1e128e0adc4dfb9375775cb177f5aef5.png

摘要:

       强化学习(RL)在现实世界应用中的一个主要挑战是环境、任务或客户之间的变化。元强化学习(MRL)通过学习适应新任务的元策略来解决这个问题。标准的MRL方法优化了任务的平均回报率,但在高风险或高难度的任务中往往会出现不良结果。只要事先不知道测试任务,这就限制了系统的可靠性。在这项工作中,我们提出了一个具有可控稳健性水平的稳健MRL目标。RL中类似的鲁棒性目标的优化往往会导致有偏差的梯度和数据的低效率。我们证明前者在MRL中消失了,并通过新颖的鲁棒元RL算法(RoML)解决了后者的问题。RoML是一种元算法,通过在整个训练过程中识别和过度取样较难的任务,生成任何给定的MRL算法的稳健版本。我们证明,RoML可以学习不同的元政策,并在几个导航和连续控制的基准上实现稳健的回报。

A major challenge of reinforcement learning (RL) in real-world applications is the variation between environments, tasks or clients. Meta-RL (MRL) addresses this issue by learning a meta-policy that adapts to new tasks. Standard MRL methods optimize the average return over tasks, but often suffer from poor results in tasks of high risk or difficulty. This limits system reliability whenever test tasks are not known in advance. In this work, we propose a robust MRL objective with a controlled robustness level. Optimization of analogous robust objectives in RL often leads to both biased gradients and data inefficiency. We prove that the former disappears in MRL, and address the latter via the novel Robust Meta RL algorithm (RoML). RoML is a meta-algorithm that generates a robust version of any given MRL algorithm, by identifying and over-sampling harder tasks throughout training. We demonstrate that RoML learns substantially different meta-policies and achieves robust returns on several navigation and continuous control benchmarks.

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.9
最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。
156 0
每日学术速递3.9
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.10
雨雪天气去除是天气退化图像恢复中的一项专门任务,旨在消除共存的雨条纹和雪颗粒。在本文中,我们提出了 RSFormer,这是一种高效且有效的 Transformer,可以应对这一挑战。最初,我们探索了层次结构中卷积网络 (ConvNets) 和视觉变换器 (ViTs) 的接近程度,并通过实验发现它们在阶段内特征学习中的表现大致相同。
124 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递5.2
现有的深度视频模型受限于特定任务、固定的输入输出空间和较差的泛化能力,难以在真实场景中部署。在本文中,我们提出了我们对多模态和多功能视频理解的愿景,并提出了一个原型系统 \system
148 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.16
我们提出了 RECLIP(资源高效 CLIP),这是一种最小化 CLIP(对比语言图像预训练)计算资源占用的简单方法。受计算机视觉中从粗到精概念的启发,我们利用小图像有效地从大规模语言监督中学习,并最终使用高分辨率数据微调模型。由于视觉转换器的复杂性在很大程度上取决于输入图像的大小
173 0
|
传感器 机器学习/深度学习 自然语言处理
每日学术速递2.22
时空数据挖掘在空气质量监测、人群流动建模和气候预测中发挥着重要作用。然而,由于传感器故障或传输丢失,现实场景中最初收集的时空数据通常是不完整的。时空插补旨在根据观测值及其潜在的时空依赖性来填充缺失值。
123 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.9
错误信息已成为一个紧迫的问题。网络上广泛存在视觉和文本形式的虚假媒体。虽然已经提出了各种 deepfake 检测和文本假新闻检测方法,但它们仅设计用于基于二进制分类的单模态伪造,更不用说分析和推理跨不同模态的细微伪造痕迹。
126 0
|
机器学习/深度学习 传感器 自然语言处理
每日学术速递4.23
神经辐射场 (NeRF) 能够以前所未有的视觉质量实现新颖的视图合成。然而,为了渲染逼真的图像,NeRF 需要对每个像素进行数百次深度多层感知器 (MLP) 评估。这是非常昂贵的,并且使实时渲染变得不可行,即使在强大的现代 GPU 上也是如此。
128 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.4
我们对 Embodied AI 的预训练视觉表示 (PVR) 或视觉“基础模型”进行了最大、最全面的实证研究。首先,我们策划了 CortexBench,它由 17 项不同的任务组成,涵盖运动、导航、灵巧和移动操作。接下来,我们系统地评估现有的 PVR,发现没有一个具有普遍优势。为了研究预训练数据规模和多样性的影响
115 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.1
本文介绍了一种名为 F²-NeRF (Fast-Free-NeRF) 的新型基于网格的 NeRF,用于新型视图合成,它支持任意输入摄像机轨迹,并且只需几分钟的训练时间。现有的基于网格的快速 NeRF 训练框架,如 Instant-NGP、Plenoxels、DVGO 或 TensoRF,主要针对有界场景设计,并依靠空间扭曲来处理无界场景。现有的两种广泛使用的空间扭曲方法仅针对前向轨迹或 360 度以对象为中心的轨迹而设计,无法处理任意轨迹。
152 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.18
我们介绍了 Delta Denoising Score (DDS),这是一种用于基于文本的图像编辑的新颖评分函数,可引导对输入图像进行最小程度的修改以实现目标提示中描述的内容。DDS 利用文本到图像扩散模型的丰富生成先验,可用作优化问题中的损失项,以将图像引导至文本指示的所需方向。DDS 利用分数蒸馏采样 (SDS) 机制来进行图像编辑。我们表明,仅使用 SDS 通常会由于嘈杂的梯度而产生不详细和模糊的输出。
206 0
下一篇
DataWorks