每日学术速递2.16

简介: 半监督目标检测 (SSOD) 已成功提高 R-CNN 系列和无锚检测器的性能。然而,one-stage anchor-based detectors 缺乏生成高质量或灵活伪标签的结构,导致 SSOD 中存在严重的不一致问题,例如 YOLOv5。在本文中,我们提出了高效教师框架,用于可扩展且有效的基于锚点的单阶段 SSOD 训练,由密集检测器、伪标签分配器和时代适配器组成

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Efficient Teacher: Semi-Supervised Object Detection for YOLOv5


4c2eb20daf109a279692166b14211dfa.png


标题:高效教师:YOLOv5 的半监督目标检测

作者:Bowen Xu, Mingtao Chen, Wenlong Guan, Lulu Hu

文章链接:https://arxiv.org/abs/2302.07577v1

项目代码:https://github.com/BowieHsu/EfficientTeacher

449e83515278eb74e81ddbb0ac0c9b19.png

摘要:

       半监督目标检测 (SSOD) 已成功提高 R-CNN 系列和无锚检测器的性能。然而,one-stage anchor-based detectors 缺乏生成高质量或灵活伪标签的结构,导致 SSOD 中存在严重的不一致问题,例如 YOLOv5。在本文中,我们提出了高效教师框架,用于可扩展且有效的基于锚点的单阶段 SSOD 训练,由密集检测器、伪标签分配器和时代适配器组成。Dense Detector 是一种基线模型,它使用受 YOLOv5 启发的密集采样技术扩展 RetinaNet。Efficient Teacher 框架引入了一种新的伪标签分配机制,名为 Pseudo Label Assigner,它更精细地使用了 Dense Detector 中的伪标签。Epoch Adapter 是一种为 Dense Detector 提供稳定高效的端到端半监督训练计划的方法。Pseudo Label Assigner防止师生互学习机制中大量低质量的伪标签干扰Dense Detector造成的偏差,Epoch Adapter利用域和分布自适应让Dense Detector学习全局分布的一致特征,使训练独立于标记数据的比例。我们的实验表明,Efficient Teacher 框架使用比以前的方法更少的 FLOPs 在 VOC、COCO-standard 和 COCO-additional 上取得了最先进的结果。据我们所知,这是首次尝试将半监督目标检测应用于 YOLOv5。

a2e004d17ea3463b21730bb78179c3d2.png

9a3ad6019563a4f0e7a807db10d19477.png

c0b6497fcfa4ce38fdb385e91f0b4a89.png


Subjects: cs.AI、cs.AR、cs.LG


2.SCONNA: A Stochastic Computing Based Optical Accelerator for Ultra-Fast, Energy-Efficient Inference of Integer-Quantized CNNs

749f468202f6d95fc43dee3bd6f5a380.png

标题:SCONNA:一种基于随机计算的用于整数量化 CNN 的光加速器超快速、节能推理

作者:Sairam Sri Vatsavai, Venkata Sai Praneeth Karempudi, Ishan Thakkar, Ahmad Salehi, Todd Hastings

文章链接:https://arxiv.org/abs/2302.07036v1

项目代码:https://github.com/uky-ucat/sc_onn_sim

5c0849d1623ccfe3d0ee989a7bbec199.png

摘要:

       CNN 推理任务的加速使用通常转换为向量点积 (VDP) 运算的卷积运算。已经提出了几种基于光子微环谐振器 (MRR) 的硬件架构来加速整数量化 CNN,与电子同类产品相比具有显着更高的吞吐量和能效。然而,现有的基于 MRR 的光子模拟加速器在可实现的输入/权重精度和 VDP 运算大小之间表现出非常强烈的权衡,这严重限制了它们可实现的 4 位及更高量化输入/权重精度的 VDP 运算大小。受限的 VDP 操作大小最终会抑制计算吞吐量,从而严重削弱可实现的性能优势。为了解决这个缺点,我们首次提出了随机计算和基于 MRR 的 CNN 加速器的合并。为了利用随机计算固有的精度灵活性,我们发明了一种基于 MRR 的光学随机乘法器 (OSM)。我们使用密集波分复用以级联方式使用多个 OSM,打造一种新颖的基于随机计算的光神经网络加速器 (SCONNA)。SCONNA 实现了显着的高吞吐量和能效,以加速高精度量化 CNN 的推理。我们以 8 位输入/权重精度对四个现代 CNN 的推理进行的评估表明,SCONNA 在每秒帧数 (FPS)、FPS/W 和 FPS/W/ 方面提供了高达 66.5 倍、90 倍和 91 倍的改进。mm2,分别超过之前工作的两个基于光子 MRR 的模拟 CNN 加速器,大型 CNN 的 Top-1 精度下降仅为 0.4%,小型 CNN 的 Top-1 精度下降高达 1.5%。我们开发了一个事务级、事件驱动的基于 Python 的模拟器,用于评估 SCONNA 和其他加速器

a9a53f2782c0301d108f763440a973f5.png

b6dca664726fe922ac77e061fa676505.png

09d2c3c2b935f08cb22d655ecc1cae4f.png

66ff82837e6528767bace15af7e19e4a.png

Subjects: cs.AI、cs.MA、cs.LG


3.TiZero: Mastering Multi-Agent Football with Curriculum Learning and Self-Play

1e6ce8d0e8a40b1f57844139f203d1f7.png

标题:TiZero:通过课程学习和自我对弈掌握多智能体足球

作者:Fanqi Lin, Shiyu Huang, Tim Pearce, Wenze Chen, Wei-Wei Tu

文章链接:https://arxiv.org/abs/2302.07515v1

项目代码:https://github.com/TARTRL/TiZero

756b364980dc2c4e9003ba4ea5eb81bb.png

摘要:

       多智能体足球对 AI 研究提出了未解决的挑战。现有工作的重点是解决游戏的简化场景,或者利用专家演示。在本文中,我们开发了一个多代理系统来玩完整的 11 对 11 游戏模式,没有演示。这种游戏模式包含对现代强化学习算法提出重大挑战的方面;多代理协调、长期规划和非传递性。为了应对这些挑战,我们推出了 TiZero;一个从头开始学习的自我进化的多代理系统。TiZero 引入了多项创新,包括自适应课程学习、新颖的自我对弈策略以及联合优化多个智能体策略的目标。实验上,它在 Google Research Football 环境中的表现大大优于之前的系统,将胜率提高了 30% 以上。为了展示 TiZero 创新的普遍性,他们在足球以外的几个环境中进行了评估;过度烹饪、多代理粒子环境、井字棋和四连棋。


7f287179f7c022724de242801cc1fb47.png

7e7c3a03add1383f36d7dc258feaa904.png

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
114 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.3
最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。
147 0
每日学术速递4.3
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.16
我们提出了 RECLIP(资源高效 CLIP),这是一种最小化 CLIP(对比语言图像预训练)计算资源占用的简单方法。受计算机视觉中从粗到精概念的启发,我们利用小图像有效地从大规模语言监督中学习,并最终使用高分辨率数据微调模型。由于视觉转换器的复杂性在很大程度上取决于输入图像的大小
169 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递5.2
现有的深度视频模型受限于特定任务、固定的输入输出空间和较差的泛化能力,难以在真实场景中部署。在本文中,我们提出了我们对多模态和多功能视频理解的愿景,并提出了一个原型系统 \system
145 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.10
本文介绍了扩散策略,这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。我们对来自 4 个不同机器人操作基准的 11 个不同任务的扩散策略进行基准测试,发现它始终优于现有的最先进的机器人学习方法,平均提高 46.9%。扩散策略学习动作分布得分函数的梯度,并在推理过程中通过一系列随机朗之万动力学步骤针对该梯度场进行迭代优化。
124 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.30
具有指令微调的大型语言模型 (LLM) 展示了卓越的生成能力。然而,这些模型是资源密集型的。为了缓解这个问题,我们探索从指令调整的 LLM 中提炼知识到更小的 LLM。为此,我们基于现有指令和新生成的指令精心开发了大量 2.58M 指令集。
121 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递3.23
我们介绍了 Zero-1-to-3,这是一个框架,用于在给定单个 RGB 图像的情况下更改对象的相机视点。为了在这种欠约束的环境中执行新的视图合成,我们利用了大规模扩散模型了解自然图像的几何先验。我们的条件扩散模型使用合成数据集来学习相对相机视点的控制,这允许在指定的相机变换下生成同一对象的新图像。
91 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递3.1
文本引导的扩散模型,如 DALLE-2、IMAGEN 和 Stable Diffusion,只要给出描述所需图像内容的简短文本提示,就能够有效地生成无穷无尽的图像。在许多情况下,图像的质量也非常高。然而,这些模型通常难以组合包含多个关键对象的场景,例如具有指定位置关系的角色。
79 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.21
大型语言模型(LLM)在各种具有涌现能力的自然语言处理任务中取得了显着进步。然而,他们面临着固有的局限性,例如无法访问最新信息、无法使用外部工具或进行精确的数学推理。在本文中,我们介绍了 Chameleon,这是一种即插即用的组合推理框架,可增强 LLM 以帮助应对这些挑战。
152 0
|
机器学习/深度学习 运维 自然语言处理
每日学术速递3.3
评估面部图像的质量对于以足够的准确性操作面部识别系统至关重要。人脸质量标准化的最新进展 (ISO/IEC WD 29794-5) 建议使用组件质量测量方法将人脸质量分解为各个因素,从而为操作员重新捕获低质量图像提供有价值的反馈。
115 0