每日学术速递3.6

简介: 本文描述了一种使用与目标数据集不一定相关的多个源数据集进行语义分割的域自适应训练方法。我们通过整合来自多个源模型的预测对象概率,提出了一种软伪标签生成方法。每个源模型的预测基于源数据集和目标数据集之间的估计域相似性进行加权,以强调在与目标更相似的源上训练的模型的贡献,并生成合理的伪标签。

Subjects: cs.CV


1.Multi-Source Soft Pseudo-Label Learning with Domain Similarity-based Weighting for Semantic Segmentation


44a2ff2c932e31ef60c27005ec15d891.png


标题:用于语义分割的基于域相似性加权的多源软伪标签学习

作者:Shigemichi Matsuzaki, Hiroaki Masuzawa, Jun Miura

文章链接:https://arxiv.org/abs/2303.00979v1

项目代码:https://github.com/shigemichimatsuzaki/ms2pl

4913651b97d9abfa1b81e0c0829c4f7b.png

440ca1903b5244240e5711de66d43c81.png

8f0dad1b66fd37bebed799480877b2b7.png

摘要:

       本文描述了一种使用与目标数据集不一定相关的多个源数据集进行语义分割的域自适应训练方法。我们通过整合来自多个源模型的预测对象概率,提出了一种软伪标签生成方法。每个源模型的预测基于源数据集和目标数据集之间的估计域相似性进行加权,以强调在与目标更相似的源上训练的模型的贡献,并生成合理的伪标签。我们还提出了一种使用软伪标签的训练方法,考虑到它们的熵,以充分利用来自源数据集的信息,同时抑制可能被错误分类的像素的影响。实验表明,与我们之前的工作和另一种现有的多源域自适应方法相比,具有相当或更好的性能,并且适用于各种目标环境。

2.ESceme: Vision-and-Language Navigation with Episodic Scene Memory

891663b51483d3637359f28fe97a537d.png

标题:ESceme:具有情景场景记忆的视觉和语言导航

作者:Qi Zheng, Daqing Liu, Chaoyue Wang, Jing Zhang, Dadong Wang, DaCheng Tao

文章链接:https://arxiv.org/abs/2303.01032v1

项目代码:https://github.com/qizhust/esceme

0ce3837d905beb1c93ef4bafabfc78e4.png

ec13d9793555d0d82d9a502ddbeb9cfc.png

8a8cbeea3ba2f47b3b84d333d9b393c9.png

摘要:

       视觉和语言导航 (VLN) 模拟在真实场景中遵循自然语言导航指令的视觉代理。现有方法在新环境中的导航方面取得了巨大进步,例如波束搜索、预探索以及动态或分层历史编码。为了平衡泛化和效率,我们在导航时求助于记住除了正在进行的路线之外的访问场景。在这项工作中,我们为 VLN 引入了情景场景记忆 (ESceme) 机制,该机制可以在代理进入当前场景时唤醒其对过去访问的记忆。情景场景记忆允许代理设想下一个预测的更大画面。通过这种方式,智能体学会充分利用当前可用的信息,而不是仅仅适应所见的环境。我们通过在训练期间增强候选节点的观察特征来提供简单而有效的实现。我们验证了 ESceme 在三个 VLN 任务上的优势,包括短视距导航(R2R)、长视距导航(R4R)和视觉对话导航(CVDN),并实现了新的最先进的技术水平.

3.FeatAug-DETR: Enriching One-to-Many Matching for DETRs with Feature Augmentation

40ff4ee8463a6efafe79097d275655d4.png

标题:FeatAug-DETR:通过特征增强来丰富 DETR 的一对多匹配

作者:Rongyao Fang, Peng Gao, Aojun Zhou, Yingjie Cai, Si Liu, Jifeng Dai, Hongsheng Li ·

文章链接:https://arxiv.org/abs/2303.00477v1

项目代码:https://github.com/rongyaofang/feataug-detr

8223d372a7e9f3ab3cf0fb7db24ce311.png

6fe416db163cbbbf169179d226bce528.png

摘要:

       一对一匹配是类 DETR 对象检测框架中的关键设计。它使 DETR 能够执行端到端检测。但是,它也面临着缺乏正样本监督和收敛速度慢的挑战。最近的几项工作提出了一对多匹配机制来加速训练和提高检测性能。我们重新审视这些方法,并以增强对象查询的统一格式对它们进行建模。在本文中,我们提出了两种方法,从增强图像或图像特征的不同角度实现一对多匹配。第一种方法是通过数据增强进行一对多匹配(表示为 DataAug-DETR)。它对图像进行空间变换,并在同一训练批次中包含每个图像的多个增强版本。这种简单的增强策略已经实现了一对多匹配,并且令人惊讶地提高了 DETR 的性能。第二种方法是通过特征增强进行一对多匹配(表示为 FeatAug-DETR)。与DataAug-DETR不同的是,它增强了图像特征而不是原始图像,并且在同一批次中包含多个增强特征以实现一对多匹配。 FeatAug-DETR 显着加速 DETR 训练并提升检测性能,同时保持推理速度不变。我们进行了广泛的实验来评估所提出的方法对 DETR 变体的有效性,包括 DAB-DETR、Deformable-DETR 和 H-Deformable-DETR。在没有额外训练数据的情况下,FeatAug-DETR 将 Deformable-DETR 的训练收敛周期缩短至 24 个 epoch,并在以 Swin-L 为骨干的 COCO val2017 集上实现了 58.3 AP。

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.3
最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。
159 0
每日学术速递4.3
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.8
扩散模型(DM)已成为生成模型的新趋势,并展示了强大的条件合成能力。其中,在大规模图像文本对上预训练的文本到图像扩散模型可通过可定制的提示高度控制。与专注于低级属性和细节的无条件生成模型不同,由于视觉语言预训练,文本到图像扩散模型包含更多高级知识。在本文中,我们提出了 VPD(具有预训练扩散模型的视觉感知),这是一种在视觉感知任务中利用预训练文本到图像扩散模型的语义信息的新框架。我们没有在基于扩散的管道中使用预训练的去噪自动编码器,而是简单地将其用作主干,旨在研究如何充分利用所学知识。
134 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.7
我们引入了一种新颖的框架,可以毫不费力地训练深度立体网络,无需任何基本事实。通过利用最先进的神经渲染解决方案,我们从使用单个手持相机收集的图像序列生成立体训练数据。
140 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.17
扩散模型已被证明在生成高质量图像方面非常有效。然而,使大型预训练扩散模型适应新领域仍然是一个开放的挑战,这对于实际应用至关重要。本文提出了 DiffFit,这是一种参数高效策略,用于微调大型预训练扩散模型,从而能够快速适应新领域。DiffFit 非常简单,仅微调特定层中的偏差项和新添加的缩放因子
146 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.11
网页一直是视觉语言和纯语言任务的丰富、可扩展的资源。然而,只有网页的一部分被保留:图像标题对、长文本文章或原始 HTML,永远不会全部放在一个地方。
153 0
|
机器学习/深度学习 自然语言处理 数据挖掘
每日学术速递3.2
基于点击的交互式分割(IS)旨在提取用户交互下的目标对象。对于这项任务,当前大多数基于深度学习 (DL) 的方法主要遵循语义分割的一般流程。尽管取得了令人鼓舞的性能,但它们并没有完全明确地利用和传播点击信息,不可避免地导致不令人满意的分割结果,即使在点击点也是如此。
122 0
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递3.31
我们提出了 LLaMA-Adapter,这是一种轻量级自适应方法,可以有效地将 LLaMA 微调为指令跟随模型。使用 52K 自我指导演示,LLaMA-Adapter 仅在冻结的 LLaMA 7B 模型上引入 1.2M 可学习参数,并且在 8 个 A100 GPU 上进行微调的成本不到一小时。
178 0
|
机器人
每日学术速递4.27
我们研究如何使用 Transformers 构建和训练用于机器人决策的空间表示。特别是,对于在各种环境中运行的机器人,我们必须能够快速训练或微调机器人感觉运动策略,这些策略对杂波具有鲁棒性、数据效率高,并且可以很好地泛化到不同的环境。
127 0
|
机器学习/深度学习 自然语言处理 物联网
每日学术速递5.1
大型语言模型 (LLM) 在各种开放式任务中展示了令人印象深刻的零样本能力,而最近的研究还探索了使用 LLM 进行多模态生成。
151 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.20
建造一个可以通过观察人类来理解和学习互动的机器人激发了几个视觉问题。然而,尽管在静态数据集上取得了一些成功的结果,但目前的模型如何直接用在机器人上仍然不清楚。在本文中,我们旨在通过以环境为中心的方式利用人类互动视频来弥合这一差距。利用人类行为的互联网视频,我们训练了一个视觉可供性模型,该模型估计人类可能在场景中的位置和方式进行交互
118 0

热门文章

最新文章