每日学术速递2.16

简介: 半监督目标检测 (SSOD) 已成功提高 R-CNN 系列和无锚检测器的性能。然而,one-stage anchor-based detectors 缺乏生成高质量或灵活伪标签的结构,导致 SSOD 中存在严重的不一致问题,例如 YOLOv5。在本文中,我们提出了高效教师框架,用于可扩展且有效的基于锚点的单阶段 SSOD 训练,由密集检测器、伪标签分配器和时代适配器组成

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Efficient Teacher: Semi-Supervised Object Detection for YOLOv5


4c2eb20daf109a279692166b14211dfa.png


标题:高效教师:YOLOv5 的半监督目标检测

作者:Bowen Xu, Mingtao Chen, Wenlong Guan, Lulu Hu

文章链接:https://arxiv.org/abs/2302.07577v1

项目代码:https://github.com/BowieHsu/EfficientTeacher

449e83515278eb74e81ddbb0ac0c9b19.png

摘要:

       半监督目标检测 (SSOD) 已成功提高 R-CNN 系列和无锚检测器的性能。然而,one-stage anchor-based detectors 缺乏生成高质量或灵活伪标签的结构,导致 SSOD 中存在严重的不一致问题,例如 YOLOv5。在本文中,我们提出了高效教师框架,用于可扩展且有效的基于锚点的单阶段 SSOD 训练,由密集检测器、伪标签分配器和时代适配器组成。Dense Detector 是一种基线模型,它使用受 YOLOv5 启发的密集采样技术扩展 RetinaNet。Efficient Teacher 框架引入了一种新的伪标签分配机制,名为 Pseudo Label Assigner,它更精细地使用了 Dense Detector 中的伪标签。Epoch Adapter 是一种为 Dense Detector 提供稳定高效的端到端半监督训练计划的方法。Pseudo Label Assigner防止师生互学习机制中大量低质量的伪标签干扰Dense Detector造成的偏差,Epoch Adapter利用域和分布自适应让Dense Detector学习全局分布的一致特征,使训练独立于标记数据的比例。我们的实验表明,Efficient Teacher 框架使用比以前的方法更少的 FLOPs 在 VOC、COCO-standard 和 COCO-additional 上取得了最先进的结果。据我们所知,这是首次尝试将半监督目标检测应用于 YOLOv5。

a2e004d17ea3463b21730bb78179c3d2.png

9a3ad6019563a4f0e7a807db10d19477.png

c0b6497fcfa4ce38fdb385e91f0b4a89.png


Subjects: cs.AI、cs.AR、cs.LG


2.SCONNA: A Stochastic Computing Based Optical Accelerator for Ultra-Fast, Energy-Efficient Inference of Integer-Quantized CNNs

749f468202f6d95fc43dee3bd6f5a380.png

标题:SCONNA:一种基于随机计算的用于整数量化 CNN 的光加速器超快速、节能推理

作者:Sairam Sri Vatsavai, Venkata Sai Praneeth Karempudi, Ishan Thakkar, Ahmad Salehi, Todd Hastings

文章链接:https://arxiv.org/abs/2302.07036v1

项目代码:https://github.com/uky-ucat/sc_onn_sim

5c0849d1623ccfe3d0ee989a7bbec199.png

摘要:

       CNN 推理任务的加速使用通常转换为向量点积 (VDP) 运算的卷积运算。已经提出了几种基于光子微环谐振器 (MRR) 的硬件架构来加速整数量化 CNN,与电子同类产品相比具有显着更高的吞吐量和能效。然而,现有的基于 MRR 的光子模拟加速器在可实现的输入/权重精度和 VDP 运算大小之间表现出非常强烈的权衡,这严重限制了它们可实现的 4 位及更高量化输入/权重精度的 VDP 运算大小。受限的 VDP 操作大小最终会抑制计算吞吐量,从而严重削弱可实现的性能优势。为了解决这个缺点,我们首次提出了随机计算和基于 MRR 的 CNN 加速器的合并。为了利用随机计算固有的精度灵活性,我们发明了一种基于 MRR 的光学随机乘法器 (OSM)。我们使用密集波分复用以级联方式使用多个 OSM,打造一种新颖的基于随机计算的光神经网络加速器 (SCONNA)。SCONNA 实现了显着的高吞吐量和能效,以加速高精度量化 CNN 的推理。我们以 8 位输入/权重精度对四个现代 CNN 的推理进行的评估表明,SCONNA 在每秒帧数 (FPS)、FPS/W 和 FPS/W/ 方面提供了高达 66.5 倍、90 倍和 91 倍的改进。mm2,分别超过之前工作的两个基于光子 MRR 的模拟 CNN 加速器,大型 CNN 的 Top-1 精度下降仅为 0.4%,小型 CNN 的 Top-1 精度下降高达 1.5%。我们开发了一个事务级、事件驱动的基于 Python 的模拟器,用于评估 SCONNA 和其他加速器

a9a53f2782c0301d108f763440a973f5.png

b6dca664726fe922ac77e061fa676505.png

09d2c3c2b935f08cb22d655ecc1cae4f.png

66ff82837e6528767bace15af7e19e4a.png

Subjects: cs.AI、cs.MA、cs.LG


3.TiZero: Mastering Multi-Agent Football with Curriculum Learning and Self-Play

1e6ce8d0e8a40b1f57844139f203d1f7.png

标题:TiZero:通过课程学习和自我对弈掌握多智能体足球

作者:Fanqi Lin, Shiyu Huang, Tim Pearce, Wenze Chen, Wei-Wei Tu

文章链接:https://arxiv.org/abs/2302.07515v1

项目代码:https://github.com/TARTRL/TiZero

756b364980dc2c4e9003ba4ea5eb81bb.png

摘要:

       多智能体足球对 AI 研究提出了未解决的挑战。现有工作的重点是解决游戏的简化场景,或者利用专家演示。在本文中,我们开发了一个多代理系统来玩完整的 11 对 11 游戏模式,没有演示。这种游戏模式包含对现代强化学习算法提出重大挑战的方面;多代理协调、长期规划和非传递性。为了应对这些挑战,我们推出了 TiZero;一个从头开始学习的自我进化的多代理系统。TiZero 引入了多项创新,包括自适应课程学习、新颖的自我对弈策略以及联合优化多个智能体策略的目标。实验上,它在 Google Research Football 环境中的表现大大优于之前的系统,将胜率提高了 30% 以上。为了展示 TiZero 创新的普遍性,他们在足球以外的几个环境中进行了评估;过度烹饪、多代理粒子环境、井字棋和四连棋。


7f287179f7c022724de242801cc1fb47.png

7e7c3a03add1383f36d7dc258feaa904.png

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
110 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.22
在本文中,我们关注在未观察到的光照条件下从神经辐射场 (NeRF) 渲染新视图的问题。为此,我们引入了一个新的数据集,称为 ReNe (Relighting NeRF),在一次一光 (OLAT) 条件下构建真实世界的对象,并用准确的地面实况相机和光姿态进行注释。
112 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
146 0
|
机器学习/深度学习 存储 人工智能
每日学术速递4.12
我们提出了 LLMA,这是一种 LLM 加速器,可以无损地加速带有引用的大型语言模型 (LLM) 推理。LLMA 的动机是观察到在 LLM 的解码结果和许多现实世界场景(例如,检索到的文档)中可用的参考之间存在大量相同的文本跨度。LLMA 首先从参考中选择一个文本跨度并将其标记复制到解码器
133 0
|
机器学习/深度学习 运维 自然语言处理
每日学术速递3.3
评估面部图像的质量对于以足够的准确性操作面部识别系统至关重要。人脸质量标准化的最新进展 (ISO/IEC WD 29794-5) 建议使用组件质量测量方法将人脸质量分解为各个因素,从而为操作员重新捕获低质量图像提供有价值的反馈。
111 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.13
现有的视频系统识别方法(估计物体的物理参数)假设已知物体的几何形状。这排除了它们在对象几何形状复杂或未知的绝大多数场景中的适用性。在这项工作中,我们的目标是从一组多视图视频中识别表征物理系统的参数,而无需对对象几何或拓扑进行任何假设。为此,我们提出了“物理增强连续体神经辐射场”(PAC-NeRF)
164 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.10
本文介绍了扩散策略,这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。我们对来自 4 个不同机器人操作基准的 11 个不同任务的扩散策略进行基准测试,发现它始终优于现有的最先进的机器人学习方法,平均提高 46.9%。扩散策略学习动作分布得分函数的梯度,并在推理过程中通过一系列随机朗之万动力学步骤针对该梯度场进行迭代优化。
120 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递3.16
本文提出了一个统一的扩散框架(称为 UniDiffuser),以在一个模型中拟合与一组多模态数据相关的所有分布。我们的关键见解是——学习边缘分布、条件分布和联合分布的扩散模型可以统一为预测扰动数据中的噪声,其中扰动水平(即时间步长)对于不同的模式可能不同。
151 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.15
数据驱动是深度学习算法最具标志性的特性之一。ImageNet 的诞生推动了计算机视觉“从大规模数据中学习”的显着趋势。在 ImageNet 上进行预训练以获得丰富的通用表征已被证明有利于各种 2D 视觉任务,并成为 2D 视觉的标准。
148 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.29
我们提出了一种将点云渲染为表面的新方法。所提出的方法是可区分的,不需要特定场景的优化。这种独特的功能支持开箱即用的表面法线估计、渲染房间尺度点云、逆向渲染和全局照明光线追踪。与专注于将点云转换为其他表示(例如曲面或隐式函数)的现有工作不同,我们的关键思想是直接推断光线与给定点云表示的底层表面的交点。
119 0