每日学术速递2.28

简介: 最近在机器人视觉表示学习方面的工作证明了从人类执行日常任务的大型视频数据集中学习的可行性。利用掩码自动编码和对比学习等方法,这些表示表现出向视觉运动控制的策略学习的强烈迁移。但是,机器人学习包含一系列无法控制的问题,包括掌握能力预测、语言条件模仿学习和人机协作的意图评分等。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  


Subjects: cs.RO


1.Language-Driven Representation Learning for Robotics


1e9d0e2225aebe29e0fd16bff1523f1b.png


标题:机器人的语言驱动表示学习

作者:Siddharth Karamcheti, Suraj Nair, Annie S. Chen, Thomas Kollar, Chelsea Finn, Dorsa Sadigh, Percy Liang

文章链接:https://arxiv.org/abs/2302.12766v1

项目代码:https://github.com/siddk/voltron-robotics

231f4bd5020c2264c11ea9631ed9f47f.png

4698e4bc26d481850f2cc0296a75aedd.png

45f1fd3e2dc02c935b89fa018da35df8.png


摘要:

       最近在机器人视觉表示学习方面的工作证明了从人类执行日常任务的大型视频数据集中学习的可行性。利用掩码自动编码和对比学习等方法,这些表示表现出向视觉运动控制的策略学习的强烈迁移。但是,机器人学习包含一系列无法控制的问题,包括掌握能力预测、语言条件模仿学习和人机协作的意图评分等。首先,我们证明现有表示在这些任务中产生不一致的结果:掩码自动编码方法以高级语义为代价获取低级空间特征,而对比学习方法捕获相反的结果。然后,我们介绍了 Voltron,这是一个用于从人类视频和相关字幕中学习语言驱动表征的框架。Voltron 权衡了以语言为条件的视觉重建来学习低级视觉模式,以及以视觉为基础的语言生成来编码高级语义。我们还构建了一个新的评估套件,涵盖五个不同的机器人学习问题——一个用于全面评估机器人视觉表示的统一平台。通过对所有五个问题进行全面、受控的实验,我们发现 Voltron 的语言驱动表示优于之前的最先进技术,尤其是在需要更高级别特征的目标问题上。

Subjects: cs.CL


2.Improving Massively Multilingual ASR With Auxiliary CTC Objectives

38efc586c65761c65fb31ca5e4e230cc.png


标题:使用辅助 CTC 目标改进大规模多语言 ASR

作者:William Chen, Brian Yan, Jiatong Shi, Yifan Peng, Soumi Maiti, Shinji Watanabe

文章链接:https://arxiv.org/abs/2302.12829v1

项目代码:https://github.com/espnet/espnet

c388a5c7f8050d7042a561d12569e812.png

308226fda7102466e432edf638a6864f.png

摘要:

       多语言自动语音识别 (ASR) 模型已将语音技术的可用性扩展到多种语言。然而,由于这些模型必须处理多少种语言,理解它们在不同语言之间的不平衡性能的关键是检查模型是否真的知道它应该转录哪种语言。在本文中,我们介绍了我们通过在语言身份 (LID) 上调节整个模型来提高 FLEURS 性能的工作,FLEURS 是一种 102 种语言的开放式 ASR 基准。我们研究了受最近联结主义时间分类 (CTC) 研究启发的技术,以帮助模型处理大量语言,以辅助任务的 LID 预测为条件。我们的实验结果证明了我们的技术相对于标准的基于 CTC/注意力的混合模型的有效性。此外,我们最先进的系统使用具有 Conformer 架构的自我监督模型,相对于 FLEURS 先前工作的结果提高了 28.4% CER。训练有素的模型是可重现的配方。

Subjects: cs.LG


3.T-Phenotype: Discovering Phenotypes of Predictive Temporal Patterns in Disease Progression

3f21946764cb27d93543387221157c46.png

标题:T Phenotype:发现疾病进展中预测时间模式的表型

作者:Yuchao Qin, Mihaela van der Schaar, Changhee Lee

文章链接:https://arxiv.org/abs/2302.01660v2

项目代码:https://github.com/yvchao/tphenotype

725484ed76c8f97a314d1f9eab9efe28.png

80863a63fdfb0882614144992ee1bf5d.png

4379130c4e006dae4062d16cfe788812.png


摘要:

       医疗保健中的聚类时间序列数据对于临床表型分析以了解患者的疾病进展模式和设计针对同质患者亚组的治疗指南至关重要。虽然丰富的时间动态能够发现静态相关性之外的潜在集群,但仍然存在两个主要挑战:i)从多变量时间序列数据中的许多潜在时间相关性中发现预测模式,以及 ii)将各个时间模式关联到最能表征潜在临床进展的目标标签分布。为了应对这些挑战,我们开发了一种新的时间聚类方法 T-Phenotype,以从标记的时间序列数据中发现预测时间模式的表型。我们在频域中引入了一种有效的表示学习方法,可以将可变长度、不规则采样的时间序列编码到统一的表示空间中,然后使用新的概念将其应用于识别可能对目标标签有贡献的各种时间模式。基于路径的相似性。在合成和真实数据集的整个实验中,我们表明 T-Phenotype 在所有评估的基线中实现了最佳表型发现性能。我们通过揭示以独特的时间模式为特征的具有临床意义的患者亚组,进一步证明了 T- Phenotype的效用。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
124 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.10
本文介绍了扩散策略,这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。我们对来自 4 个不同机器人操作基准的 11 个不同任务的扩散策略进行基准测试,发现它始终优于现有的最先进的机器人学习方法,平均提高 46.9%。扩散策略学习动作分布得分函数的梯度,并在推理过程中通过一系列随机朗之万动力学步骤针对该梯度场进行迭代优化。
130 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.16
我们提出了 RECLIP(资源高效 CLIP),这是一种最小化 CLIP(对比语言图像预训练)计算资源占用的简单方法。受计算机视觉中从粗到精概念的启发,我们利用小图像有效地从大规模语言监督中学习,并最终使用高分辨率数据微调模型。由于视觉转换器的复杂性在很大程度上取决于输入图像的大小
176 0
|
机器学习/深度学习 传感器 自然语言处理
每日学术速递4.23
神经辐射场 (NeRF) 能够以前所未有的视觉质量实现新颖的视图合成。然而,为了渲染逼真的图像,NeRF 需要对每个像素进行数百次深度多层感知器 (MLP) 评估。这是非常昂贵的,并且使实时渲染变得不可行,即使在强大的现代 GPU 上也是如此。
131 0
|
机器学习/深度学习 自然语言处理 PyTorch
每日学术速递2.17
近年来,大型深度学习 (DL) 模型的开发有所增加,这使得训练效率变得至关重要。通常的做法是在可用性和性能之间进行权衡。一方面,诸如 PyTorch 之类的 DL 框架使用动态图来以次优模型训练性能为代价为模型开发人员提供便利。
105 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.18
我们介绍了 Delta Denoising Score (DDS),这是一种用于基于文本的图像编辑的新颖评分函数,可引导对输入图像进行最小程度的修改以实现目标提示中描述的内容。DDS 利用文本到图像扩散模型的丰富生成先验,可用作优化问题中的损失项,以将图像引导至文本指示的所需方向。DDS 利用分数蒸馏采样 (SDS) 机制来进行图像编辑。我们表明,仅使用 SDS 通常会由于嘈杂的梯度而产生不详细和模糊的输出。
213 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.8
最近的 AI 助理代理,例如 ChatGPT,主要依靠带有人工注释的监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 来使大型语言模型 (LLM) 的输出与人类意图保持一致,确保它们是乐于助人、合乎道德且可靠。然而,由于获得人工监督的高成本以及质量、可靠性、多样性、自我一致性和不良偏见等相关问题
180 0
|
传感器 机器学习/深度学习 自然语言处理
每日学术速递2.22
时空数据挖掘在空气质量监测、人群流动建模和气候预测中发挥着重要作用。然而,由于传感器故障或传输丢失,现实场景中最初收集的时空数据通常是不完整的。时空插补旨在根据观测值及其潜在的时空依赖性来填充缺失值。
124 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递4.26
我们介绍了 CLaMP:对比语言-音乐预训练,它使用音乐编码器和文本编码器通过对比损失联合训练来学习自然语言和符号音乐之间的跨模态表示。为了预训练 CLaMP,我们收集了 140 万个音乐文本对的大型数据集。它采用文本丢失作为数据增强技术和条形修补来有效地表示音乐数据,从而将序列长度减少到不到 10%。此外,我们开发了一个掩码音乐模型预训练目标,以增强音乐编码器对音乐背景和结构的理解。
115 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.11
最近关于从姿势图像进行 3D 重建的工作表明,使用深度神经网络直接推断场景级 3D 几何结构而无需迭代优化是可行的,显示出非凡的前景和高效率。
103 0