关于Adam算法收敛性及其改进方法的讨论
最近提出的一些随机优化方法已经成功地应用到了神经网络训练任务中,如RMSPROP、ADAM、ADADELTA、NADAM等。这些方法都是基于梯度更新的算法,在更新的过程中,利用了历史梯度平方的指数移动平均值的开方进行缩放。而根据观察,在许多的应用中,如输出空间比较宽泛的情况,这些算法无法收敛到最优解,或是在非凸问题中的临界点。文中证明了收敛失败的原因是,算法中使用了指数移动平均值。文中举了一个简单的例子来证明,即使是简单的凸优化问题,Adam也无法收敛到最优解,并在文中描述了Adam算法分析中以往存在的关键问题。分析表明,通过将这些算法与历史梯度的“长时记忆”相结合,可以解决收敛问题,并提出了新的Adam变体算法,该算法不仅可以解决手链问题,也能轧线经验性能。
本研究的贡献:
通过一个简单的凸优化问题阐述了TMSprop和Adam中使用的 指数移动 平均是如何导致不收敛的。而且文中的分析可以扩展到其他的指数移动平均打的方法上如Adadelta和NAdam。为了保证算法的收敛,文中使用历史梯度的“长时记忆”。并指出了在以往论文Kingma&Ba(2015)中关于Adam收敛性证明过程中存在的问题。为了解决这个问题,文中提出了Adam的变体算法,算法在使用历史梯度的“长时记忆”的情况下,并没有增加算法的时间复杂度与空间复杂度。此外,文中还基于Kingma&Ba(2015)给出了Adam算法收敛性的分析。
提供了Adam算法变体的实验证明,结果表明, 在某些常用的机器学习问题中,这个变体的表现算法相似或优于原始算法。
实验结果:
如图1所示,在一个简单的一维凸问题上,对Adam和AdamSRAD的性能比较,受到了非收敛性的启发。前两个图是用于在线设置,最后一个是用于随机设置。
图1
如图2所示,在逻辑回归、前馈神经网络和CIFARNET中对Adam和AMSGRAD的性能比较。上面一行显示了ADAM和AMSGRAD在逻辑回归(前两个图)和隐藏层=1的前馈神经网络(右图)的性能。在最下面一行中,这两图比较了Adam和阿AMSGRAD训练和测试,并基于CIFARNET进行了比较。
图2
卷积神经网络(CNN)可以很好的处理二维平面图像的问题。然而,对球面图像进行处理需求日益增加。例如,对无人机、机器人、自动驾驶汽车、分子回归问题、全球天气和气候模型的全方位视觉处理问题。将球形信号的平面投影作为卷积神经网络的输入的这种天真做法是注定要失败的,如下图1所示,而这种投影引起的空间扭曲会导致CNN无法共享权重。
图1
这篇论文中介绍了如何构建球形CNN的模块。我们提出了利用广义傅里叶变换(FFT)进行快速群卷积(互相关)的操作。通过傅里叶变换来实现球形CNN的示意图如下所示:
实验结果:
文中使用官方指标评估提出的训练模型,并与每个类别的前三个最优模型进行比较,结果如表1所示。除了精度和F1@N,本文提出的模型排名第三,它是每个其他指标上的都处于领先位置。主要的竞争对手,Tatsuma_ReBGG和Furuya_DLAN使用对SHREC17任务专门设计的特征和网络结构。考虑到文中提出的模型的任务不可知的体系结构和模型中使用的有损的输入表示,可以将模型的性能解释为对球形CNN的有效性的强大的经验支持。表1
2. 以RMSE作为指标,将提出方法与一些其他的方法做比较,如表2所示。从表中可以看出,文中提出的算法优于所有基于内核的方法,以及在排序Coulomb矩阵上训练的MLP算法。只有基于随机Coulomb矩阵训练的MLP才能获得更优的效果。然而,对随机排列的充分抽样随着N呈指数增长,因此这种方法不太可能在大的数据上进行扩展。
表2
结论
这篇论文介绍了球形CNN,并在两个重要的学习问题上对提出算法进行了评测。此外,文中定义了S2和SO(3)的互相关,并分析了它们的属性,进而实现了一个通用的RRT相关算法。实验的数值结果证实了该算法的稳定性和准确性,即使在深度网络上依然有效。此外,我们已经证明了在不需要对特征和模型调优有很高要求的情况下,球形CNN可以有效地推广到整个旋转过程中,并在三维模型识别和分子能量回归方面取得接近最先进的结果。
对于类似3D模型识别这种三维任务,我们相信可以通过将SO3扩展到roto-平移组SE3来实现进一步的改进。球形CNN的发展是朝着这个方向迈出的重要的第一步。也许,这个球形的CNN重要的应用场景是对全方位视觉问题的处理。尽管目前在公共数据库中,全向图像数据非常少,但在无人机、机器人和自动驾驶汽车中,全方位传感器的普及使这项工作具有非凡的意义。
在非固定和竞争环境中通过元学习进行持续性适应
在非平稳环境中不断学习和适应有限经验的能力是计算机通往真正的人工智能的重要里程碑。此文提出了“learning to learn”框架的持续性适应问题。通过设计一种基于梯度的元学习算法来对动态变化和对抗性场景的进行适应。此外,文中还设计了一种基于多智能体(multi-agent)的竞争环境:RoboSumo,并定义了适应性迭代游戏,用于从不同方面测试系统的持续适应性能。实验证明,元学习比在few-shot状态下的反应基线具有更强的适应能力,且适应于进行multi-agent学习和竞争。
实验中使用了三种模型作为智能体(agent),如图1(a) 所示。它们在解剖学上存在差异:腿的数量,位置,以及对大腿和膝关节的限制。图1(b)表示非平稳运动环境。应用于红颜色的腿的扭矩是由一个动态变化的因素决定的。(c)用于表示 RoboSumo竞争环境。
图1
实验结果:
下图表示在一轮包含多局的迭代适应游戏中,一个agent与其对手竞争。如果它在一轮中赢了多局(用颜色来表明胜败),那么它就赢了一局。agent和他们的对手可以在不断地改变策略。图2
2. 在迭代游戏中,轮数和从对手学习到的结果如图3所示,从图中可以看出,当每一轮的迭代次数超过50次时,通过技术追踪的适应问题就变成了“测试的同时进行学习”的问题,除此之外,它可以与一些训练时从未见过的对手进行竞争。在few-shot和标准两种学习制度下,元学适应策略的执行结果几乎都是相同的。这表明,元学习策略在训练时可以学到一种特殊的偏置,使它能够从有限的经验中表现得更好,但也限制了它利用更多数据的能力。
图3