本周重要论文包括:RSS 2022 和 NAACL 2022 各项获奖论文。
目录:
Solving Quantitative Reasoning Problems with Language Models
Human Action Recognition from Various Data Modalities: A Review
FNet: Mixing Tokens with Fourier Transforms
Iterative Residual Policy for Goal-Conditioned Dynamic Manipulation of Deformable Objects
VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning
Label Relation Graphs Enhanced Hierarchical Residual Network for Hierarchical Multi-Granularity Classification
Zero-Shot Logit Adjustment
ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)
论文1:Solving Quantitative Reasoning Problems with Language Models
- 作者:Aitor Lewkowycz等
- 论文地址:https://storage.googleapis.com/minerva-paper/minerva_paper.pdf
摘要:在 Google Research 提交的这篇论文中,他们推出了语言模型 Minerva,该模型能够解决数学和科学问题,让模型一步一步来。通过收集与定量推理问题相关的训练数据、大规模训练模型,以及使用先进的推理技术,该研究在各种较难的定量推理任务上取得了显著的性能提升。
Minerva界面。
Minerva解数学题示例。
Minerva模型变体。
推荐:人工智能学会数学推理了,考试成绩比CS博士还高。
论文2:Human Action Recognition from Various Data Modalities: A Review
- 作者:Zehua Sun等
- 论文地址:https://arxiv.org/pdf/2012.11866
摘要:人类行为识别旨在了解人类的行为,并为行为指定标签,例如,握手、吃东西、跑步等。它具有广泛的应用前景,在计算机视觉领域受到越来越多的关注。人类行为使用各种数据模态来表示,如 RGB、骨架、深度、红外序列、点云、事件流、音频、加速信号、雷达和 WiFi,这些数据模态在不同的场景下具有不同的优势。
研究者基于主流深度学习,对当前基于深度学习的行为识别方法进行了全面的综述,涉及多种数据模态。本文已被TPAMI 2022收录。
HAR的基于RGB深度学习方法概览。
UCF101、HMDB51和Kinectis-400数据集上,HAR的基于RGB视频的深度学习方法性能比较。
基于骨骼的HAR的深度学习框架概览。
推荐:最新综述基于不同数据模态的行为识别。
论文3:FNet: Mixing Tokens with Fourier Transforms
- 作者:James Lee-Thorp等
- 论文地址:https://arxiv.org/abs/2105.03824
摘要:自推出以来,Transformer 一直是语言建模多项进展的基础,部分原因在于其学习的注意力权重。然而,随着参数量的增加,Transformer 模型需要更多的算力来训练。
本文用混合输入 token 的未参数化傅里叶变换替换了 transformer 架构中的自注意力层。与类似的 Transformer 模型相比,替换之后的模型在 GPU 上的训练速度提高了 80%,在 TPU 上的训练速度提高了 70%,同时在许多任务中的准确性都能和原模型媲美。这项创新还让模型能够处理更长的输入序列,让未来研究远程上下文成为可能。NAACL 委员会称赞了该团队对大型语言模型效率的贡献。
具有N个解码器块的FNet架构。
在各自任务上微调后,TPU上的GLUE验证结果。
GPU预训练的速度-准确率权衡。
推荐:NAACL 2022最高效NLP论文。
论文4:Iterative Residual Policy for Goal-Conditioned Dynamic Manipulation of Deformable Objects
- 作者:Cheng Chi等
- 论文地址:http://www.roboticsproceedings.org/rss18/p016.pdf
摘要:该论文研究了可变形物体的目标条件动态操作问题。基于其复杂的动力学 (物体变形和高速动作) 和严格的任务要求(精确的目标规范),这项任务非常具有挑战性。为了应对这些挑战,研究者提出了迭代剩余策略(IRP) ,这是一个适用于具有复杂动力学的可重复任务的通用学习框架。
研究证明了IRP在两个任务上的有效性: 抽打一根绳子以击中目标点;放置布料以达到目标姿态。尽管只是在固定的机器人装置上进行模拟训练,IRP 能够有效地推广到现实世界中具有看不见的物理属性的新目标,甚至不同的机器人硬件实施,这表明了其相对于其他方法的优秀推广能力。
这篇论文由哥伦比亚大学和丰田研究院的几位研究者共同完成,其中包括两位中国学者。
图上为以目标为条件的动态Rope操作,图下为以目标为条件的动态Cloth操作。
迭代残差策略。
不同Rope的同一个动作。
推荐:RSS 2022最佳论文。