每日学术速递2.28

简介: 最近在机器人视觉表示学习方面的工作证明了从人类执行日常任务的大型视频数据集中学习的可行性。利用掩码自动编码和对比学习等方法,这些表示表现出向视觉运动控制的策略学习的强烈迁移。但是,机器人学习包含一系列无法控制的问题,包括掌握能力预测、语言条件模仿学习和人机协作的意图评分等。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  


Subjects: cs.RO


1.Language-Driven Representation Learning for Robotics


1e9d0e2225aebe29e0fd16bff1523f1b.png


标题:机器人的语言驱动表示学习

作者:Siddharth Karamcheti, Suraj Nair, Annie S. Chen, Thomas Kollar, Chelsea Finn, Dorsa Sadigh, Percy Liang

文章链接:https://arxiv.org/abs/2302.12766v1

项目代码:https://github.com/siddk/voltron-robotics

231f4bd5020c2264c11ea9631ed9f47f.png

4698e4bc26d481850f2cc0296a75aedd.png

45f1fd3e2dc02c935b89fa018da35df8.png


摘要:

       最近在机器人视觉表示学习方面的工作证明了从人类执行日常任务的大型视频数据集中学习的可行性。利用掩码自动编码和对比学习等方法,这些表示表现出向视觉运动控制的策略学习的强烈迁移。但是,机器人学习包含一系列无法控制的问题,包括掌握能力预测、语言条件模仿学习和人机协作的意图评分等。首先,我们证明现有表示在这些任务中产生不一致的结果:掩码自动编码方法以高级语义为代价获取低级空间特征,而对比学习方法捕获相反的结果。然后,我们介绍了 Voltron,这是一个用于从人类视频和相关字幕中学习语言驱动表征的框架。Voltron 权衡了以语言为条件的视觉重建来学习低级视觉模式,以及以视觉为基础的语言生成来编码高级语义。我们还构建了一个新的评估套件,涵盖五个不同的机器人学习问题——一个用于全面评估机器人视觉表示的统一平台。通过对所有五个问题进行全面、受控的实验,我们发现 Voltron 的语言驱动表示优于之前的最先进技术,尤其是在需要更高级别特征的目标问题上。

Subjects: cs.CL


2.Improving Massively Multilingual ASR With Auxiliary CTC Objectives

38efc586c65761c65fb31ca5e4e230cc.png


标题:使用辅助 CTC 目标改进大规模多语言 ASR

作者:William Chen, Brian Yan, Jiatong Shi, Yifan Peng, Soumi Maiti, Shinji Watanabe

文章链接:https://arxiv.org/abs/2302.12829v1

项目代码:https://github.com/espnet/espnet

c388a5c7f8050d7042a561d12569e812.png

308226fda7102466e432edf638a6864f.png

摘要:

       多语言自动语音识别 (ASR) 模型已将语音技术的可用性扩展到多种语言。然而,由于这些模型必须处理多少种语言,理解它们在不同语言之间的不平衡性能的关键是检查模型是否真的知道它应该转录哪种语言。在本文中,我们介绍了我们通过在语言身份 (LID) 上调节整个模型来提高 FLEURS 性能的工作,FLEURS 是一种 102 种语言的开放式 ASR 基准。我们研究了受最近联结主义时间分类 (CTC) 研究启发的技术,以帮助模型处理大量语言,以辅助任务的 LID 预测为条件。我们的实验结果证明了我们的技术相对于标准的基于 CTC/注意力的混合模型的有效性。此外,我们最先进的系统使用具有 Conformer 架构的自我监督模型,相对于 FLEURS 先前工作的结果提高了 28.4% CER。训练有素的模型是可重现的配方。

Subjects: cs.LG


3.T-Phenotype: Discovering Phenotypes of Predictive Temporal Patterns in Disease Progression

3f21946764cb27d93543387221157c46.png

标题:T Phenotype:发现疾病进展中预测时间模式的表型

作者:Yuchao Qin, Mihaela van der Schaar, Changhee Lee

文章链接:https://arxiv.org/abs/2302.01660v2

项目代码:https://github.com/yvchao/tphenotype

725484ed76c8f97a314d1f9eab9efe28.png

80863a63fdfb0882614144992ee1bf5d.png

4379130c4e006dae4062d16cfe788812.png


摘要:

       医疗保健中的聚类时间序列数据对于临床表型分析以了解患者的疾病进展模式和设计针对同质患者亚组的治疗指南至关重要。虽然丰富的时间动态能够发现静态相关性之外的潜在集群,但仍然存在两个主要挑战:i)从多变量时间序列数据中的许多潜在时间相关性中发现预测模式,以及 ii)将各个时间模式关联到最能表征潜在临床进展的目标标签分布。为了应对这些挑战,我们开发了一种新的时间聚类方法 T-Phenotype,以从标记的时间序列数据中发现预测时间模式的表型。我们在频域中引入了一种有效的表示学习方法,可以将可变长度、不规则采样的时间序列编码到统一的表示空间中,然后使用新的概念将其应用于识别可能对目标标签有贡献的各种时间模式。基于路径的相似性。在合成和真实数据集的整个实验中,我们表明 T-Phenotype 在所有评估的基线中实现了最佳表型发现性能。我们通过揭示以独特的时间模式为特征的具有临床意义的患者亚组,进一步证明了 T- Phenotype的效用。

目录
相关文章
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
142 0
每日学术速递3.20
|
SQL 机器学习/深度学习 自然语言处理
每日学术速递3.22
我们介绍了一种新颖的方法,通过对一种或多种字母字体进行风格化来自动生成艺术排版,以直观地传达输入词的语义,同时确保输出保持可读性。为了解决我们手头任务的各种挑战,包括相互冲突的目标(艺术风格化与易读性)、缺乏基本事实和巨大的搜索空间,我们的方法利用大型语言模型来桥接文本和视觉图像以进行风格化,并建立一个无监督的具有扩散模型骨干的生成模型。
87 0
|
机器学习/深度学习 传感器 自然语言处理
每日学术速递4.23
神经辐射场 (NeRF) 能够以前所未有的视觉质量实现新颖的视图合成。然而,为了渲染逼真的图像,NeRF 需要对每个像素进行数百次深度多层感知器 (MLP) 评估。这是非常昂贵的,并且使实时渲染变得不可行,即使在强大的现代 GPU 上也是如此。
115 0
|
机器学习/深度学习 自然语言处理 物联网
每日学术速递4.6
大型语言模型 (LLM)(如 GPT-3 和 ChatGPT)的成功导致开发了许多具有成本效益且易于访问的替代方案,这些替代方案是通过使用特定于任务的数据(例如,ChatDoctor)微调开放访问 LLM 创建的) 或指令数据(例如,Alpaca)。在各种微调方法中,基于适配器的参数高效微调(PEFT)无疑是最吸引人的话题之一
130 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.13
现有的视频系统识别方法(估计物体的物理参数)假设已知物体的几何形状。这排除了它们在对象几何形状复杂或未知的绝大多数场景中的适用性。在这项工作中,我们的目标是从一组多视图视频中识别表征物理系统的参数,而无需对对象几何或拓扑进行任何假设。为此,我们提出了“物理增强连续体神经辐射场”(PAC-NeRF)
155 0
|
机器学习/深度学习 自然语言处理 大数据
每日学术速递3.7
由 Hinton 等人介绍。2012 年,dropout 作为防止神经网络过度拟合的正则化项经受住了时间的考验。在这项研究中,我们证明了在训练开始时使用 dropout 也可以减轻欠拟合。在早期阶段,我们发现 dropout 减少了小批量梯度的方向方差,并有助于将小批量梯度与整个数据集的梯度对齐。这有助于抵消 SGD 的随机性并限制个别批次对模型训练的影响。
99 0
|
机器学习/深度学习 存储 编解码
每日学术速递2.20
将强大的生成去噪扩散模型 (DDM) 应用于图像语义编辑等下游任务通常需要微调预训练 DDM 或学习辅助编辑网络。在这项工作中,我们通过仅通过冻结 DDM 优化去噪轨迹,在各种应用程序设置上实现了 SOTA 语义控制性能。
88 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.8
最近的 AI 助理代理,例如 ChatGPT,主要依靠带有人工注释的监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 来使大型语言模型 (LLM) 的输出与人类意图保持一致,确保它们是乐于助人、合乎道德且可靠。然而,由于获得人工监督的高成本以及质量、可靠性、多样性、自我一致性和不良偏见等相关问题
154 0
|
机器学习/深度学习 存储 人工智能
每日学术速递4.12
我们提出了 LLMA,这是一种 LLM 加速器,可以无损地加速带有引用的大型语言模型 (LLM) 推理。LLMA 的动机是观察到在 LLM 的解码结果和许多现实世界场景(例如,检索到的文档)中可用的参考之间存在大量相同的文本跨度。LLMA 首先从参考中选择一个文本跨度并将其标记复制到解码器
118 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递2.16
半监督目标检测 (SSOD) 已成功提高 R-CNN 系列和无锚检测器的性能。然而,one-stage anchor-based detectors 缺乏生成高质量或灵活伪标签的结构,导致 SSOD 中存在严重的不一致问题,例如 YOLOv5。在本文中,我们提出了高效教师框架,用于可扩展且有效的基于锚点的单阶段 SSOD 训练,由密集检测器、伪标签分配器和时代适配器组成
138 0