本周论文包括腾讯 AI Lab、清华共同发文综述等变图神经网络;美图 & 北航分布感知式单阶段模型入选 CVPR 2022 等研究。
目录
- Geometrically Equivariant Graph Neural Networks: A Survey
- ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints
- Distribution-Aware Single-Stage Models for Multi-Person 3D Pose Estimation
- A Theory of Abstraction in Reinforcement Learning
- Weakly Supervised Object Localization as Domain Adaption
- Spelling interface using intracortical signals in a completely locked-in patient enabled via auditory neurofeedback training
- Survey on Large Scale Neural Network Training
- ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)
论文 1:Geometrically Equivariant Graph Neural Networks: A Survey
- 作者:Jiaqi Han 、 Yu Rong 等
- 论文链接:https://arxiv.org/abs/2202.07230
摘要:腾讯 AI Lab, 清华 AIR & 计算机系在综述:《Geometrically Equivariant Graph Neural Networks: A Survey》中,对等变图神经网络的结构和相关任务进行了一个系统梳理。
在这篇综述里面,该研究系统性的梳理了近年等变图神经网络的发展脉络,并且提供了一个简洁的视角帮助读者能够很快的理解这类网络的内涵。基于消息传播和聚合函数的不同,该研究将现有的等变图神经网络分为三类。与此同时,他们还详尽阐释了当前的挑战和未来的可能方向。
在实际应用中,我们需要处理的图不仅包含拓扑连接和节点特征,同时也会包含一些几何特征。在使用图神经网络处理这些数据的时候,不同的特征需要满足不同的性质。例如,在预测分子的能量时,我们需要这个预测对于输入的几何特征是不变的,而在分子动力学应用中,我们则需要预测的结果和输入的几何特征是等变的。为了达到这样的目的,我们提出了一个等变图神经网络的通用框架:
下图展示了这一通用框架的操作:
基于以上的通用框架,该研究在下表总结了当前主流的等变图神经网络模型。与此同时,基于消息表示的类别不同,该研究将现有的等变图神经网络模型分为三大类:不可约表示 (Irreducible Representation),正则表示 (Regular Representation) 和标量化 (Scalarization )。
以下是对等变图神经网络模型的一个总结梳理:
推荐:GNN for Science: 腾讯 AI Lab、清华共同发文综述等变图神经网络。
论文 2:ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints
- 作者:Dhruv Shah, Sergey Levine
- 论文链接:https://arxiv.org/pdf/2202.11271.pdf
摘要:在近期一篇论文《ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints》中,UC 伯克利分校的人工智能博士生 Dhruv Shah 及其导师 Sergey Levine 探索了一种不同的机器人导航方式。他们主张机器人导航中消除高端耗能的组件,只需要一个单目相机、一些神经网络、一个基础的 GPU 系统以及一些以人类可读的非常基础的俯视图形式的简单提示就足够了。这样的提示听起来可能没有那么有影响力,但它们使一个非常简单的机器人能够高效、智能地穿越陌生环境,到达遥远的目的地。
具体而言,该研究提出了一种基于学习的方法,即将学习和规划集成起来,并且可以利用诸如示意路线图、卫星地图和 GPS 坐标等辅助信息作为规划启发式。ViKiNG 结合了一个局部可遍历性模型,该模型可以查看机器人当前基于相机的观察结果和一个潜在子目标,以推断到达子目标难易程度。
此外,ViKiNG 还包括一个启发式模型,该模型查看俯视图并尝试估计各种子目标到目的地的距离。ViKiNG 不执行显式几何重建,只利用环境的拓扑表示。尽管在 ViKiNG 训练数据集中从未见过超过 80 米的轨迹,但其可以利用基于图像的学习控制器和目标导向启发式(goal-directed heuristic),在以前没见过的环境中导航到最远 3 公里以外的目标,并表现出复杂的行为。ViKiNG 对不可靠的地图和 GPS 也有很强的鲁棒性,因为底层控制器最终基于自身图像观察做出决策,而地图仅作为规划的启发式。ViKiNG 机器人的导航是这样的:
方法概述。
推荐:地图、GPS 不靠谱也无妨,UC 伯克利机器人陌生环境导航超 3 公里。
论文 3:Distribution-Aware Single-Stage Models for Multi-Person 3D Pose Estimation
- 作者:Zitian Wang 、 Si Liu 等
- 论文链接:https://arxiv.org/abs/2203.07697
摘要:美图影像研究院(MT Lab)与北京航空航天大学可乐实验室(CoLab)在 CVPR 2022 发表的论文,提出一种分布感知式单阶段模型,并利用这一模型从单张 RGB 图片中估计多个人在 3D 相机空间中的人体姿态。该方法将 3D 人体姿态表示为 2.5D 人体中心点和 3D 关键点偏移量,以适配图片空间的深度估计,同时这一表示将人体位置信息和对应的关键点信息进行了统一,从而使得单阶段多人 3D 姿态估计成为可能。
此外,该方法在模型优化过程中对人体关键点的分布进行了学习,这为关键点位置的回归预测提供了重要的指导信息,进而提升了基于回归框架的精度。这一分布学习模块可以与姿态估计模块在训练过程中通过最大似然估计一起学习,在测试过程中该模块被移除,不会带来模型推理计算量的增加。为了降低人体关键点分布学习的难度,该方法创新性地提出了一种迭代更新的策略以逐渐逼近目标分布。
该模型以全卷积的方式来实现,可以进行端到端的训练和测试。通过这样一种方式,该算法可以有效且精准地解决多人 3D 人体姿态估计问题,在取得和两阶段方法接近的精度的同时,也大大提升了速度。
图 1:用于多人 3D 人体姿态估计的分布感知式单阶段模型流程图。
与现有方法不同,DAS 模型在优化过程中学习 3D 人体关键点分布的真实分布,指导关键点回归预测的过程。考虑到真实分布不可追踪的问题,DAS 模型利用标准化流(Normalizing Flow)来达到对于模型预测结果概率估计的目标,以生成适合模型输出的分布,如图 2 所示。
图 2:标准化流。
推荐:精准高效估计多人 3D 姿态,美图 & 北航分布感知式单阶段模型入选 CVPR 2022。
论文 4:A Theory of Abstraction in Reinforcement Learning
- 作者:David Abel
- 论文链接:https://arxiv.org/pdf/2203.00397.pdf
摘要:在前段时间结束的第 36 届 AAAI 人工智能会议上,大会官方公布了新一届的 AAAI/ACM SIGAI 博士论文奖,其中一篇专门分析强化学习抽象理论的论文《A Theory of Abstraction in Reinforcement Learning》获得了该奖项提名。论文作者 David Abel 博士毕业于布朗大学,他于近日将这篇博士论文上传到了 arXiv 上,共有 295 页。
在这篇论文中,作者提出了强化学习中蕴含的抽象理论。他首先指出执行抽象过程的函数所必备的三要素:
- 维护近似最优行为的表示;
- 它们应该被有效地学习和构建;
- 计划或学习时间不应该太长。
然后提出了一套新的算法和分析方案,阐明智能体如何根据这些要素学会抽象。总的来说,这些研究结果为发现和使用抽象提供了一些途径,从而把有效强化学习的复杂性降至最低。
为了论证本论文的思想,作者从三个方面阐述了哪些抽象在 RL 中有用,并将其研究成果高度概括为如下内容:
更具体地,作者通过以下四个部分对强化学习的抽象理论展开了探讨。下图为论文结构的可视化呈现。