每日学术速递3.6

简介: 本文描述了一种使用与目标数据集不一定相关的多个源数据集进行语义分割的域自适应训练方法。我们通过整合来自多个源模型的预测对象概率,提出了一种软伪标签生成方法。每个源模型的预测基于源数据集和目标数据集之间的估计域相似性进行加权,以强调在与目标更相似的源上训练的模型的贡献,并生成合理的伪标签。

Subjects: cs.CV


1.Multi-Source Soft Pseudo-Label Learning with Domain Similarity-based Weighting for Semantic Segmentation


44a2ff2c932e31ef60c27005ec15d891.png


标题:用于语义分割的基于域相似性加权的多源软伪标签学习

作者:Shigemichi Matsuzaki, Hiroaki Masuzawa, Jun Miura

文章链接:https://arxiv.org/abs/2303.00979v1

项目代码:https://github.com/shigemichimatsuzaki/ms2pl

4913651b97d9abfa1b81e0c0829c4f7b.png

440ca1903b5244240e5711de66d43c81.png

8f0dad1b66fd37bebed799480877b2b7.png

摘要:

       本文描述了一种使用与目标数据集不一定相关的多个源数据集进行语义分割的域自适应训练方法。我们通过整合来自多个源模型的预测对象概率,提出了一种软伪标签生成方法。每个源模型的预测基于源数据集和目标数据集之间的估计域相似性进行加权,以强调在与目标更相似的源上训练的模型的贡献,并生成合理的伪标签。我们还提出了一种使用软伪标签的训练方法,考虑到它们的熵,以充分利用来自源数据集的信息,同时抑制可能被错误分类的像素的影响。实验表明,与我们之前的工作和另一种现有的多源域自适应方法相比,具有相当或更好的性能,并且适用于各种目标环境。

2.ESceme: Vision-and-Language Navigation with Episodic Scene Memory

891663b51483d3637359f28fe97a537d.png

标题:ESceme:具有情景场景记忆的视觉和语言导航

作者:Qi Zheng, Daqing Liu, Chaoyue Wang, Jing Zhang, Dadong Wang, DaCheng Tao

文章链接:https://arxiv.org/abs/2303.01032v1

项目代码:https://github.com/qizhust/esceme

0ce3837d905beb1c93ef4bafabfc78e4.png

ec13d9793555d0d82d9a502ddbeb9cfc.png

8a8cbeea3ba2f47b3b84d333d9b393c9.png

摘要:

       视觉和语言导航 (VLN) 模拟在真实场景中遵循自然语言导航指令的视觉代理。现有方法在新环境中的导航方面取得了巨大进步,例如波束搜索、预探索以及动态或分层历史编码。为了平衡泛化和效率,我们在导航时求助于记住除了正在进行的路线之外的访问场景。在这项工作中,我们为 VLN 引入了情景场景记忆 (ESceme) 机制,该机制可以在代理进入当前场景时唤醒其对过去访问的记忆。情景场景记忆允许代理设想下一个预测的更大画面。通过这种方式,智能体学会充分利用当前可用的信息,而不是仅仅适应所见的环境。我们通过在训练期间增强候选节点的观察特征来提供简单而有效的实现。我们验证了 ESceme 在三个 VLN 任务上的优势,包括短视距导航(R2R)、长视距导航(R4R)和视觉对话导航(CVDN),并实现了新的最先进的技术水平.

3.FeatAug-DETR: Enriching One-to-Many Matching for DETRs with Feature Augmentation

40ff4ee8463a6efafe79097d275655d4.png

标题:FeatAug-DETR:通过特征增强来丰富 DETR 的一对多匹配

作者:Rongyao Fang, Peng Gao, Aojun Zhou, Yingjie Cai, Si Liu, Jifeng Dai, Hongsheng Li ·

文章链接:https://arxiv.org/abs/2303.00477v1

项目代码:https://github.com/rongyaofang/feataug-detr

8223d372a7e9f3ab3cf0fb7db24ce311.png

6fe416db163cbbbf169179d226bce528.png

摘要:

       一对一匹配是类 DETR 对象检测框架中的关键设计。它使 DETR 能够执行端到端检测。但是,它也面临着缺乏正样本监督和收敛速度慢的挑战。最近的几项工作提出了一对多匹配机制来加速训练和提高检测性能。我们重新审视这些方法,并以增强对象查询的统一格式对它们进行建模。在本文中,我们提出了两种方法,从增强图像或图像特征的不同角度实现一对多匹配。第一种方法是通过数据增强进行一对多匹配(表示为 DataAug-DETR)。它对图像进行空间变换,并在同一训练批次中包含每个图像的多个增强版本。这种简单的增强策略已经实现了一对多匹配,并且令人惊讶地提高了 DETR 的性能。第二种方法是通过特征增强进行一对多匹配(表示为 FeatAug-DETR)。与DataAug-DETR不同的是,它增强了图像特征而不是原始图像,并且在同一批次中包含多个增强特征以实现一对多匹配。 FeatAug-DETR 显着加速 DETR 训练并提升检测性能,同时保持推理速度不变。我们进行了广泛的实验来评估所提出的方法对 DETR 变体的有效性,包括 DAB-DETR、Deformable-DETR 和 H-Deformable-DETR。在没有额外训练数据的情况下,FeatAug-DETR 将 Deformable-DETR 的训练收敛周期缩短至 24 个 epoch,并在以 Swin-L 为骨干的 COCO val2017 集上实现了 58.3 AP。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.9
最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。
176 0
每日学术速递3.9
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
181 0
每日学术速递3.20
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.11
网页一直是视觉语言和纯语言任务的丰富、可扩展的资源。然而,只有网页的一部分被保留:图像标题对、长文本文章或原始 HTML,永远不会全部放在一个地方。
153 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.20
建造一个可以通过观察人类来理解和学习互动的机器人激发了几个视觉问题。然而,尽管在静态数据集上取得了一些成功的结果,但目前的模型如何直接用在机器人上仍然不清楚。在本文中,我们旨在通过以环境为中心的方式利用人类互动视频来弥合这一差距。利用人类行为的互联网视频,我们训练了一个视觉可供性模型,该模型估计人类可能在场景中的位置和方式进行交互
123 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.10
由于对各种可能的自然语言问题进行概括的挑战,基于知识库的问答被认为是一个难题。此外,不同知识库之间知识库模式项的异质性通常需要对不同知识库问答 (KBQA) 数据集进行专门培训。为了使用统一的免训练框架处理各种 KBQA 数据集的问题,我们提出了 KB-BINDER,它首次实现了对 KBQA 任务的少样本上下文学习
254 0
|
机器学习/深度学习 自然语言处理 物联网
每日学术速递5.1
大型语言模型 (LLM) 在各种开放式任务中展示了令人印象深刻的零样本能力,而最近的研究还探索了使用 LLM 进行多模态生成。
154 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递5.2
现有的深度视频模型受限于特定任务、固定的输入输出空间和较差的泛化能力,难以在真实场景中部署。在本文中,我们提出了我们对多模态和多功能视频理解的愿景,并提出了一个原型系统 \system
162 0
|
机器学习/深度学习 自然语言处理 PyTorch
每日学术速递2.17
近年来,大型深度学习 (DL) 模型的开发有所增加,这使得训练效率变得至关重要。通常的做法是在可用性和性能之间进行权衡。一方面,诸如 PyTorch 之类的 DL 框架使用动态图来以次优模型训练性能为代价为模型开发人员提供便利。
114 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.15
大规模视觉语言模型(例如 CLIP)学习强大的图像文本表示,这些表示已找到许多应用程序,从零镜头分类到文本到图像生成。尽管如此,它们通过提示解决新的判别任务的能力仍落后于大型语言模型,例如 GPT-3。在这里,我们探索视觉提示工程的想法,通过在图像空间而不是文本中进行编辑来解决分类以外的计算机视觉任务。
131 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.25
场景理解的一个长期目标是获得可解释和可编辑的表示,这些表示可以直接从原始单目 RGB-D 视频构建,而不需要专门的硬件设置或先验。在存在多个移动和/或变形物体的情况下,该问题更具挑战性。传统方法通过混合简化、场景先验、预训练模板或已知变形模型来处理设置。
212 0