7 Papers & Radios | 机器人顶会RSS最佳论文;谷歌用语言模型解数学题(1)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 7 Papers & Radios | 机器人顶会RSS最佳论文;谷歌用语言模型解数学题
本周重要论文包括:RSS 2022 和 NAACL 2022 各项获奖论文。


目录:

Solving Quantitative Reasoning Problems with Language Models

Human Action Recognition from Various Data Modalities: A Review

FNet: Mixing Tokens with Fourier Transforms

Iterative Residual Policy for Goal-Conditioned Dynamic Manipulation of Deformable Objects

VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning

Label Relation Graphs Enhanced Hierarchical Residual Network for Hierarchical Multi-Granularity Classification

Zero-Shot Logit Adjustment

ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文1:Solving Quantitative Reasoning Problems with Language Models


摘要:在 Google Research 提交的这篇论文中,他们推出了语言模型 Minerva,该模型能够解决数学和科学问题,让模型一步一步来。通过收集与定量推理问题相关的训练数据、大规模训练模型,以及使用先进的推理技术,该研究在各种较难的定量推理任务上取得了显著的性能提升。

Minerva界面。

Minerva解数学题示例。

Minerva模型变体。

推荐:人工智能学会数学推理了,考试成绩比CS博士还高。

论文2:Human Action Recognition from Various Data Modalities: A Review


摘要:人类行为识别旨在了解人类的行为,并为行为指定标签,例如,握手、吃东西、跑步等。它具有广泛的应用前景,在计算机视觉领域受到越来越多的关注。人类行为使用各种数据模态来表示,如 RGB、骨架、深度、红外序列、点云、事件流、音频、加速信号、雷达和 WiFi,这些数据模态在不同的场景下具有不同的优势。

研究者基于主流深度学习,对当前基于深度学习的行为识别方法进行了全面的综述,涉及多种数据模态。本文已被TPAMI 2022收录。

HAR的基于RGB深度学习方法概览。

UCF101、HMDB51和Kinectis-400数据集上,HAR的基于RGB视频的深度学习方法性能比较。

基于骨骼的HAR的深度学习框架概览。

推荐:最新综述基于不同数据模态的行为识别。

论文3:FNet: Mixing Tokens with Fourier Transforms


摘要:自推出以来,Transformer 一直是语言建模多项进展的基础,部分原因在于其学习的注意力权重。然而,随着参数量的增加,Transformer 模型需要更多的算力来训练。

本文用混合输入 token 的未参数化傅里叶变换替换了 transformer 架构中的自注意力层。与类似的 Transformer 模型相比,替换之后的模型在 GPU 上的训练速度提高了 80%,在 TPU 上的训练速度提高了 70%,同时在许多任务中的准确性都能和原模型媲美。这项创新还让模型能够处理更长的输入序列,让未来研究远程上下文成为可能。NAACL 委员会称赞了该团队对大型语言模型效率的贡献。

具有N个解码器块的FNet架构。

在各自任务上微调后,TPU上的GLUE验证结果。

GPU预训练的速度-准确率权衡。

推荐:NAACL 2022最高效NLP论文。

论文4:Iterative Residual Policy for Goal-Conditioned Dynamic Manipulation of Deformable Objects


摘要:该论文研究了可变形物体的目标条件动态操作问题。基于其复杂的动力学 (物体变形和高速动作) 和严格的任务要求(精确的目标规范),这项任务非常具有挑战性。为了应对这些挑战,研究者提出了迭代剩余策略(IRP) ,这是一个适用于具有复杂动力学的可重复任务的通用学习框架。

研究证明了IRP在两个任务上的有效性: 抽打一根绳子以击中目标点;放置布料以达到目标姿态。尽管只是在固定的机器人装置上进行模拟训练,IRP 能够有效地推广到现实世界中具有看不见的物理属性的新目标,甚至不同的机器人硬件实施,这表明了其相对于其他方法的优秀推广能力。

这篇论文由哥伦比亚大学和丰田研究院的几位研究者共同完成,其中包括两位中国学者。

图上为以目标为条件的动态Rope操作,图下为以目标为条件的动态Cloth操作。

迭代残差策略。

不同Rope的同一个动作。

推荐:RSS 2022最佳论文。


相关文章
|
9天前
|
机器学习/深度学习 人工智能 机器人
NeurIPS 2024:机器人操纵世界模型来了,成功率超过谷歌RT-1 26.6%
PIVOT-R是一种新型世界模型,专注于预测与任务相关的路点,以提高语言引导的机器人操作的性能和效率。该模型由路点感知世界模型(WAWM)和轻量级动作预测模块组成,辅以异步分层执行器(AHE),在SeaWave基准测试中表现优异,平均相对改进达19.45%,执行效率提高28倍。
49 26
|
3月前
|
人工智能 自然语言处理 机器人
谷歌将大模型集成在实体机器人中,能看、听、说执行57种任务
【9月更文挑战第17天】近年来,人工智能在多模态大模型领域取得显著进展。谷歌最新研发的Mobility VLA系统,将大模型与实体机器人结合,实现了视觉、语言和行动的融合,使机器人能理解并执行复杂多模态指令,如“我应该把这个放回哪里?”系统在真实环境测试中表现出色,但在计算资源、数据需求及伦理问题上仍面临挑战。相关论文发布于https://arxiv.org/abs/2407.07775。
80 9
|
7月前
|
机器学习/深度学习 算法 机器人
论文介绍:使用仿真和领域适应提高深度机器人抓取效率
【5月更文挑战第11天】研究人员提出结合仿真数据和领域适应技术提升深度机器人抓取效率。通过在仿真环境中生成多样化抓取数据并使用GraspGAN和DANN进行像素级和特征级适应,使模型能在现实世界中更好地泛化。实验表明,这种方法能减少现实数据需求,同时保持高抓取性能。尽管面临物理差异和成功率挑战,该研究为机器人抓取技术的进步提供了新途径。论文链接:https://arxiv.org/abs/1709.07857
87 5
|
7月前
|
存储 人工智能 机器人
通过 OpenAI 和 Langchain 构建 Arxiv 论文摘要 Twitter 机器人
通过 OpenAI 和 Langchain 构建 Arxiv 论文摘要 Twitter 机器人
166 0
|
传感器 Web App开发 运维
5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度
5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度
179 1
|
机器学习/深度学习 机器人 计算机视觉
耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类
耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类
|
机器学习/深度学习 存储 数据采集
7 Papers & Radios | 谷歌开源机器人领域transformer;DeepMind推出剧本写作AI
7 Papers & Radios | 谷歌开源机器人领域transformer;DeepMind推出剧本写作AI
313 0
|
机器学习/深度学习 自然语言处理 算法
轻松完成700多条指令、成功率达97%!谷歌开源机器人领域transformer
轻松完成700多条指令、成功率达97%!谷歌开源机器人领域transformer
190 0
|
机器学习/深度学习 存储 人工智能
7 Papers & Radios | 无人机3D打印登Nature封面;哈工大用微波驱控机器人
7 Papers & Radios | 无人机3D打印登Nature封面;哈工大用微波驱控机器人
153 0
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | 机器人顶会RSS最佳论文;谷歌用语言模型解数学题(2)
7 Papers & Radios | 机器人顶会RSS最佳论文;谷歌用语言模型解数学题
142 0

热门文章

最新文章