每日学术速递3.6

简介: 本文描述了一种使用与目标数据集不一定相关的多个源数据集进行语义分割的域自适应训练方法。我们通过整合来自多个源模型的预测对象概率,提出了一种软伪标签生成方法。每个源模型的预测基于源数据集和目标数据集之间的估计域相似性进行加权,以强调在与目标更相似的源上训练的模型的贡献,并生成合理的伪标签。

Subjects: cs.CV


1.Multi-Source Soft Pseudo-Label Learning with Domain Similarity-based Weighting for Semantic Segmentation


44a2ff2c932e31ef60c27005ec15d891.png


标题:用于语义分割的基于域相似性加权的多源软伪标签学习

作者:Shigemichi Matsuzaki, Hiroaki Masuzawa, Jun Miura

文章链接:https://arxiv.org/abs/2303.00979v1

项目代码:https://github.com/shigemichimatsuzaki/ms2pl

4913651b97d9abfa1b81e0c0829c4f7b.png

440ca1903b5244240e5711de66d43c81.png

8f0dad1b66fd37bebed799480877b2b7.png

摘要:

       本文描述了一种使用与目标数据集不一定相关的多个源数据集进行语义分割的域自适应训练方法。我们通过整合来自多个源模型的预测对象概率,提出了一种软伪标签生成方法。每个源模型的预测基于源数据集和目标数据集之间的估计域相似性进行加权,以强调在与目标更相似的源上训练的模型的贡献,并生成合理的伪标签。我们还提出了一种使用软伪标签的训练方法,考虑到它们的熵,以充分利用来自源数据集的信息,同时抑制可能被错误分类的像素的影响。实验表明,与我们之前的工作和另一种现有的多源域自适应方法相比,具有相当或更好的性能,并且适用于各种目标环境。

2.ESceme: Vision-and-Language Navigation with Episodic Scene Memory

891663b51483d3637359f28fe97a537d.png

标题:ESceme:具有情景场景记忆的视觉和语言导航

作者:Qi Zheng, Daqing Liu, Chaoyue Wang, Jing Zhang, Dadong Wang, DaCheng Tao

文章链接:https://arxiv.org/abs/2303.01032v1

项目代码:https://github.com/qizhust/esceme

0ce3837d905beb1c93ef4bafabfc78e4.png

ec13d9793555d0d82d9a502ddbeb9cfc.png

8a8cbeea3ba2f47b3b84d333d9b393c9.png

摘要:

       视觉和语言导航 (VLN) 模拟在真实场景中遵循自然语言导航指令的视觉代理。现有方法在新环境中的导航方面取得了巨大进步,例如波束搜索、预探索以及动态或分层历史编码。为了平衡泛化和效率,我们在导航时求助于记住除了正在进行的路线之外的访问场景。在这项工作中,我们为 VLN 引入了情景场景记忆 (ESceme) 机制,该机制可以在代理进入当前场景时唤醒其对过去访问的记忆。情景场景记忆允许代理设想下一个预测的更大画面。通过这种方式,智能体学会充分利用当前可用的信息,而不是仅仅适应所见的环境。我们通过在训练期间增强候选节点的观察特征来提供简单而有效的实现。我们验证了 ESceme 在三个 VLN 任务上的优势,包括短视距导航(R2R)、长视距导航(R4R)和视觉对话导航(CVDN),并实现了新的最先进的技术水平.

3.FeatAug-DETR: Enriching One-to-Many Matching for DETRs with Feature Augmentation

40ff4ee8463a6efafe79097d275655d4.png

标题:FeatAug-DETR:通过特征增强来丰富 DETR 的一对多匹配

作者:Rongyao Fang, Peng Gao, Aojun Zhou, Yingjie Cai, Si Liu, Jifeng Dai, Hongsheng Li ·

文章链接:https://arxiv.org/abs/2303.00477v1

项目代码:https://github.com/rongyaofang/feataug-detr

8223d372a7e9f3ab3cf0fb7db24ce311.png

6fe416db163cbbbf169179d226bce528.png

摘要:

       一对一匹配是类 DETR 对象检测框架中的关键设计。它使 DETR 能够执行端到端检测。但是,它也面临着缺乏正样本监督和收敛速度慢的挑战。最近的几项工作提出了一对多匹配机制来加速训练和提高检测性能。我们重新审视这些方法,并以增强对象查询的统一格式对它们进行建模。在本文中,我们提出了两种方法,从增强图像或图像特征的不同角度实现一对多匹配。第一种方法是通过数据增强进行一对多匹配(表示为 DataAug-DETR)。它对图像进行空间变换,并在同一训练批次中包含每个图像的多个增强版本。这种简单的增强策略已经实现了一对多匹配,并且令人惊讶地提高了 DETR 的性能。第二种方法是通过特征增强进行一对多匹配(表示为 FeatAug-DETR)。与DataAug-DETR不同的是,它增强了图像特征而不是原始图像,并且在同一批次中包含多个增强特征以实现一对多匹配。 FeatAug-DETR 显着加速 DETR 训练并提升检测性能,同时保持推理速度不变。我们进行了广泛的实验来评估所提出的方法对 DETR 变体的有效性,包括 DAB-DETR、Deformable-DETR 和 H-Deformable-DETR。在没有额外训练数据的情况下,FeatAug-DETR 将 Deformable-DETR 的训练收敛周期缩短至 24 个 epoch,并在以 Swin-L 为骨干的 COCO val2017 集上实现了 58.3 AP。

目录
相关文章
|
9月前
|
API Python
飞桨x昇腾生态适配方案:13_API离线推理
ais_bench 提供了基于昇腾硬件的 Python API,用于离线模型(.om模型)推理。支持静态与动态API场景,如单个或多个OM模型推理。通过 `InferSession` 类加载模型并执行推理,可灵活处理输入输出形状转换。示例代码涵盖图片读取、形状调整、多模型串联推理及资源释放等操作,满足多样化推理需求。
669 26
|
监控 NoSQL Java
在Spring Boot中集成Redisson实现延迟队列
在Spring Boot中集成Redisson实现延迟队列
1049 6
|
27天前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
36002 142
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
|
9天前
|
人工智能 自然语言处理 监控
OpenClaw skills重构量化交易逻辑:部署+AI全自动炒股指南(2026终极版)
2026年,AI Agent领域最震撼的突破来自OpenClaw(原Clawdbot)——这个能自主规划、执行任务的智能体,用50美元启动资金创造了48小时滚雪球至2980美元的奇迹,收益率高达5860%。其核心逻辑堪称教科书级:每10分钟扫描Polymarket近千个预测市场,借助Claude API深度推理,交叉验证NOAA天气数据、体育伤病报告、加密货币链上情绪等多维度信息,捕捉8%以上的定价偏差,再通过凯利准则将单仓位严格控制在总资金6%以内,实现低风险高频套利。
4061 30
|
22天前
|
人工智能 安全 机器人
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI助手,支持钉钉、飞书等多平台接入。本教程手把手指导Linux下部署与钉钉机器人对接,涵盖环境配置、模型选择(如Qwen)、权限设置及调试,助你快速打造私有、安全、高权限的专属AI助理。(239字)
7949 22
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
|
21天前
|
人工智能 机器人 Linux
OpenClaw(Clawdbot、Moltbot)汉化版部署教程指南(零门槛)
OpenClaw作为2026年GitHub上增长最快的开源项目之一,一周内Stars从7800飙升至12万+,其核心优势在于打破传统聊天机器人的局限,能真正执行读写文件、运行脚本、浏览器自动化等实操任务。但原版全英文界面对中文用户存在上手门槛,汉化版通过覆盖命令行(CLI)与网页控制台(Dashboard)核心模块,解决了语言障碍,同时保持与官方版本的实时同步,确保新功能最快1小时内可用。本文将详细拆解汉化版OpenClaw的搭建流程,涵盖本地安装、Docker部署、服务器远程访问等场景,同时提供环境适配、问题排查与国内应用集成方案,助力中文用户高效搭建专属AI助手。
5386 12
|
5天前
|
存储 人工智能 负载均衡
阿里云OpenClaw多Agent实战宝典:从极速部署到AI团队搭建,一个人=一支高效军团
在AI自动化时代,单一Agent的“全能模式”早已无法满足复杂任务需求——记忆臃肿导致响应迟缓、上下文污染引发逻辑冲突、无关信息加载造成Token浪费,这些痛点让OpenClaw的潜力大打折扣。而多Agent架构的出现,彻底改变了这一现状:通过“单Gateway+多分身”模式,让一个Bot在不同场景下切换独立“大脑”,如同组建一支分工明确的AI团队,实现创意、写作、编码、数据分析等任务的高效协同。
917 21