每日学术速递2.28

2023-05-15 85

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 最近在机器人视觉表示学习方面的工作证明了从人类执行日常任务的大型视频数据集中学习的可行性。利用掩码自动编码和对比学习等方法，这些表示表现出向视觉运动控制的策略学习的强烈迁移。但是，机器人学习包含一系列无法控制的问题，包括掌握能力预测、语言条件模仿学习和人机协作的意图评分等。

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.RO

1.Language-Driven Representation Learning for Robotics

标题：机器人的语言驱动表示学习

作者：Siddharth Karamcheti, Suraj Nair, Annie S. Chen, Thomas Kollar, Chelsea Finn, Dorsa Sadigh, Percy Liang

文章链接：https://arxiv.org/abs/2302.12766v1

项目代码：https://github.com/siddk/voltron-robotics

摘要：

最近在机器人视觉表示学习方面的工作证明了从人类执行日常任务的大型视频数据集中学习的可行性。利用掩码自动编码和对比学习等方法，这些表示表现出向视觉运动控制的策略学习的强烈迁移。但是，机器人学习包含一系列无法控制的问题，包括掌握能力预测、语言条件模仿学习和人机协作的意图评分等。首先，我们证明现有表示在这些任务中产生不一致的结果：掩码自动编码方法以高级语义为代价获取低级空间特征，而对比学习方法捕获相反的结果。然后，我们介绍了 Voltron，这是一个用于从人类视频和相关字幕中学习语言驱动表征的框架。Voltron 权衡了以语言为条件的视觉重建来学习低级视觉模式，以及以视觉为基础的语言生成来编码高级语义。我们还构建了一个新的评估套件，涵盖五个不同的机器人学习问题——一个用于全面评估机器人视觉表示的统一平台。通过对所有五个问题进行全面、受控的实验，我们发现 Voltron 的语言驱动表示优于之前的最先进技术，尤其是在需要更高级别特征的目标问题上。

Subjects: cs.CL

2.Improving Massively Multilingual ASR With Auxiliary CTC Objectives

标题：使用辅助 CTC 目标改进大规模多语言 ASR

作者：William Chen, Brian Yan, Jiatong Shi, Yifan Peng, Soumi Maiti, Shinji Watanabe

文章链接：https://arxiv.org/abs/2302.12829v1

项目代码：https://github.com/espnet/espnet

摘要：

多语言自动语音识别 (ASR) 模型已将语音技术的可用性扩展到多种语言。然而，由于这些模型必须处理多少种语言，理解它们在不同语言之间的不平衡性能的关键是检查模型是否真的知道它应该转录哪种语言。在本文中，我们介绍了我们通过在语言身份 (LID) 上调节整个模型来提高 FLEURS 性能的工作，FLEURS 是一种 102 种语言的开放式 ASR 基准。我们研究了受最近联结主义时间分类 (CTC) 研究启发的技术，以帮助模型处理大量语言，以辅助任务的 LID 预测为条件。我们的实验结果证明了我们的技术相对于标准的基于 CTC/注意力的混合模型的有效性。此外，我们最先进的系统使用具有 Conformer 架构的自我监督模型，相对于 FLEURS 先前工作的结果提高了 28.4% CER。训练有素的模型是可重现的配方。

Subjects: cs.LG

3.T-Phenotype: Discovering Phenotypes of Predictive Temporal Patterns in Disease Progression

标题：T Phenotype：发现疾病进展中预测时间模式的表型

作者：Yuchao Qin, Mihaela van der Schaar, Changhee Lee

文章链接：https://arxiv.org/abs/2302.01660v2

项目代码：https://github.com/yvchao/tphenotype

摘要：

医疗保健中的聚类时间序列数据对于临床表型分析以了解患者的疾病进展模式和设计针对同质患者亚组的治疗指南至关重要。虽然丰富的时间动态能够发现静态相关性之外的潜在集群，但仍然存在两个主要挑战：i）从多变量时间序列数据中的许多潜在时间相关性中发现预测模式，以及 ii）将各个时间模式关联到最能表征潜在临床进展的目标标签分布。为了应对这些挑战，我们开发了一种新的时间聚类方法 T-Phenotype，以从标记的时间序列数据中发现预测时间模式的表型。我们在频域中引入了一种有效的表示学习方法，可以将可变长度、不规则采样的时间序列编码到统一的表示空间中，然后使用新的概念将其应用于识别可能对目标标签有贡献的各种时间模式。基于路径的相似性。在合成和真实数据集的整个实验中，我们表明 T-Phenotype 在所有评估的基线中实现了最佳表型发现性能。我们通过揭示以独特的时间模式为特征的具有临床意义的患者亚组，进一步证明了 T- Phenotype的效用。

每日学术速递2.28

Subjects: cs.RO

1.Language-Driven Representation Learning for Robotics

Subjects: cs.CL

2.Improving Massively Multilingual ASR With Auxiliary CTC Objectives

Subjects: cs.LG

3.T-Phenotype: Discovering Phenotypes of Predictive Temporal Patterns in Disease Progression

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

每日学术速递2.28

Subjects: cs.RO

1.Language-Driven Representation Learning for Robotics

Subjects: cs.CL

2.Improving Massively Multilingual ASR With Auxiliary CTC Objectives

Subjects: cs.LG

3.T-Phenotype: Discovering Phenotypes of Predictive Temporal Patterns in Disease Progression

热门文章

最新文章

相关课程

相关电子书

相关实验场景