每日学术速递2.16

简介: 半监督目标检测 (SSOD) 已成功提高 R-CNN 系列和无锚检测器的性能。然而,one-stage anchor-based detectors 缺乏生成高质量或灵活伪标签的结构,导致 SSOD 中存在严重的不一致问题,例如 YOLOv5。在本文中,我们提出了高效教师框架,用于可扩展且有效的基于锚点的单阶段 SSOD 训练,由密集检测器、伪标签分配器和时代适配器组成

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Efficient Teacher: Semi-Supervised Object Detection for YOLOv5


4c2eb20daf109a279692166b14211dfa.png


标题:高效教师:YOLOv5 的半监督目标检测

作者:Bowen Xu, Mingtao Chen, Wenlong Guan, Lulu Hu

文章链接:https://arxiv.org/abs/2302.07577v1

项目代码:https://github.com/BowieHsu/EfficientTeacher

449e83515278eb74e81ddbb0ac0c9b19.png

摘要:

       半监督目标检测 (SSOD) 已成功提高 R-CNN 系列和无锚检测器的性能。然而,one-stage anchor-based detectors 缺乏生成高质量或灵活伪标签的结构,导致 SSOD 中存在严重的不一致问题,例如 YOLOv5。在本文中,我们提出了高效教师框架,用于可扩展且有效的基于锚点的单阶段 SSOD 训练,由密集检测器、伪标签分配器和时代适配器组成。Dense Detector 是一种基线模型,它使用受 YOLOv5 启发的密集采样技术扩展 RetinaNet。Efficient Teacher 框架引入了一种新的伪标签分配机制,名为 Pseudo Label Assigner,它更精细地使用了 Dense Detector 中的伪标签。Epoch Adapter 是一种为 Dense Detector 提供稳定高效的端到端半监督训练计划的方法。Pseudo Label Assigner防止师生互学习机制中大量低质量的伪标签干扰Dense Detector造成的偏差,Epoch Adapter利用域和分布自适应让Dense Detector学习全局分布的一致特征,使训练独立于标记数据的比例。我们的实验表明,Efficient Teacher 框架使用比以前的方法更少的 FLOPs 在 VOC、COCO-standard 和 COCO-additional 上取得了最先进的结果。据我们所知,这是首次尝试将半监督目标检测应用于 YOLOv5。

a2e004d17ea3463b21730bb78179c3d2.png

9a3ad6019563a4f0e7a807db10d19477.png

c0b6497fcfa4ce38fdb385e91f0b4a89.png


Subjects: cs.AI、cs.AR、cs.LG


2.SCONNA: A Stochastic Computing Based Optical Accelerator for Ultra-Fast, Energy-Efficient Inference of Integer-Quantized CNNs

749f468202f6d95fc43dee3bd6f5a380.png

标题:SCONNA:一种基于随机计算的用于整数量化 CNN 的光加速器超快速、节能推理

作者:Sairam Sri Vatsavai, Venkata Sai Praneeth Karempudi, Ishan Thakkar, Ahmad Salehi, Todd Hastings

文章链接:https://arxiv.org/abs/2302.07036v1

项目代码:https://github.com/uky-ucat/sc_onn_sim

5c0849d1623ccfe3d0ee989a7bbec199.png

摘要:

       CNN 推理任务的加速使用通常转换为向量点积 (VDP) 运算的卷积运算。已经提出了几种基于光子微环谐振器 (MRR) 的硬件架构来加速整数量化 CNN,与电子同类产品相比具有显着更高的吞吐量和能效。然而,现有的基于 MRR 的光子模拟加速器在可实现的输入/权重精度和 VDP 运算大小之间表现出非常强烈的权衡,这严重限制了它们可实现的 4 位及更高量化输入/权重精度的 VDP 运算大小。受限的 VDP 操作大小最终会抑制计算吞吐量,从而严重削弱可实现的性能优势。为了解决这个缺点,我们首次提出了随机计算和基于 MRR 的 CNN 加速器的合并。为了利用随机计算固有的精度灵活性,我们发明了一种基于 MRR 的光学随机乘法器 (OSM)。我们使用密集波分复用以级联方式使用多个 OSM,打造一种新颖的基于随机计算的光神经网络加速器 (SCONNA)。SCONNA 实现了显着的高吞吐量和能效,以加速高精度量化 CNN 的推理。我们以 8 位输入/权重精度对四个现代 CNN 的推理进行的评估表明,SCONNA 在每秒帧数 (FPS)、FPS/W 和 FPS/W/ 方面提供了高达 66.5 倍、90 倍和 91 倍的改进。mm2,分别超过之前工作的两个基于光子 MRR 的模拟 CNN 加速器,大型 CNN 的 Top-1 精度下降仅为 0.4%,小型 CNN 的 Top-1 精度下降高达 1.5%。我们开发了一个事务级、事件驱动的基于 Python 的模拟器,用于评估 SCONNA 和其他加速器

a9a53f2782c0301d108f763440a973f5.png

b6dca664726fe922ac77e061fa676505.png

09d2c3c2b935f08cb22d655ecc1cae4f.png

66ff82837e6528767bace15af7e19e4a.png

Subjects: cs.AI、cs.MA、cs.LG


3.TiZero: Mastering Multi-Agent Football with Curriculum Learning and Self-Play

1e6ce8d0e8a40b1f57844139f203d1f7.png

标题:TiZero:通过课程学习和自我对弈掌握多智能体足球

作者:Fanqi Lin, Shiyu Huang, Tim Pearce, Wenze Chen, Wei-Wei Tu

文章链接:https://arxiv.org/abs/2302.07515v1

项目代码:https://github.com/TARTRL/TiZero

756b364980dc2c4e9003ba4ea5eb81bb.png

摘要:

       多智能体足球对 AI 研究提出了未解决的挑战。现有工作的重点是解决游戏的简化场景,或者利用专家演示。在本文中,我们开发了一个多代理系统来玩完整的 11 对 11 游戏模式,没有演示。这种游戏模式包含对现代强化学习算法提出重大挑战的方面;多代理协调、长期规划和非传递性。为了应对这些挑战,我们推出了 TiZero;一个从头开始学习的自我进化的多代理系统。TiZero 引入了多项创新,包括自适应课程学习、新颖的自我对弈策略以及联合优化多个智能体策略的目标。实验上,它在 Google Research Football 环境中的表现大大优于之前的系统,将胜率提高了 30% 以上。为了展示 TiZero 创新的普遍性,他们在足球以外的几个环境中进行了评估;过度烹饪、多代理粒子环境、井字棋和四连棋。


7f287179f7c022724de242801cc1fb47.png

7e7c3a03add1383f36d7dc258feaa904.png

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.13
现有的视频系统识别方法(估计物体的物理参数)假设已知物体的几何形状。这排除了它们在对象几何形状复杂或未知的绝大多数场景中的适用性。在这项工作中,我们的目标是从一组多视图视频中识别表征物理系统的参数,而无需对对象几何或拓扑进行任何假设。为此,我们提出了“物理增强连续体神经辐射场”(PAC-NeRF)
175 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递3.16
本文提出了一个统一的扩散框架(称为 UniDiffuser),以在一个模型中拟合与一组多模态数据相关的所有分布。我们的关键见解是——学习边缘分布、条件分布和联合分布的扩散模型可以统一为预测扰动数据中的噪声,其中扰动水平(即时间步长)对于不同的模式可能不同。
161 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.6
大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务
111 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.10
本文介绍了扩散策略,这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。我们对来自 4 个不同机器人操作基准的 11 个不同任务的扩散策略进行基准测试,发现它始终优于现有的最先进的机器人学习方法,平均提高 46.9%。扩散策略学习动作分布得分函数的梯度,并在推理过程中通过一系列随机朗之万动力学步骤针对该梯度场进行迭代优化。
128 0
|
机器学习/深度学习 自然语言处理 物联网
每日学术速递5.1
大型语言模型 (LLM) 在各种开放式任务中展示了令人印象深刻的零样本能力,而最近的研究还探索了使用 LLM 进行多模态生成。
141 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.7
我们引入了一种新颖的框架,可以毫不费力地训练深度立体网络,无需任何基本事实。通过利用最先进的神经渲染解决方案,我们从使用单个手持相机收集的图像序列生成立体训练数据。
134 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.29
由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。
151 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.9
错误信息已成为一个紧迫的问题。网络上广泛存在视觉和文本形式的虚假媒体。虽然已经提出了各种 deepfake 检测和文本假新闻检测方法,但它们仅设计用于基于二进制分类的单模态伪造,更不用说分析和推理跨不同模态的细微伪造痕迹。
126 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.18
我们介绍了 Delta Denoising Score (DDS),这是一种用于基于文本的图像编辑的新颖评分函数,可引导对输入图像进行最小程度的修改以实现目标提示中描述的内容。DDS 利用文本到图像扩散模型的丰富生成先验,可用作优化问题中的损失项,以将图像引导至文本指示的所需方向。DDS 利用分数蒸馏采样 (SDS) 机制来进行图像编辑。我们表明,仅使用 SDS 通常会由于嘈杂的梯度而产生不详细和模糊的输出。
206 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
158 0
下一篇
DataWorks