ICLR 2018最佳论文重磅出炉!Adam新算法、球形CNN等受关注

简介: 今天,ICLR官网公布了ICLR 2018的最佳论文,一共三篇。这些论文在被ICLR接收之后持续得到讨论,包括提出新的Adam变体算法,处理球面图像的问题的球形CNN,learning to learn框架的持续性适应问题等。本文带来详细解读。

关于Adam算法收敛性及其改进方法的讨论

4f8c79ca419a2fcfda491748e8d7e25fe321c698

最近提出的一些随机优化方法已经成功地应用到了神经网络训练任务中,如RMSPROP、ADAM、ADADELTA、NADAM等。这些方法都是基于梯度更新的算法,在更新的过程中,利用了历史梯度平方的指数移动平均值的开方进行缩放。而根据观察,在许多的应用中,如输出空间比较宽泛的情况,这些算法无法收敛到最优解,或是在非凸问题中的临界点。文中证明了收敛失败的原因是,算法中使用了指数移动平均值。文中举了一个简单的例子来证明,即使是简单的凸优化问题,Adam也无法收敛到最优解,并在文中描述了Adam算法分析中以往存在的关键问题。分析表明,通过将这些算法与历史梯度的“长时记忆”相结合,可以解决收敛问题,并提出了新的Adam变体算法,该算法不仅可以解决手链问题,也能轧线经验性能。

本研究的贡献:

d47e62d2b349aca45e42305ed6714efbe5ed61d9 通过一个简单的凸优化问题阐述了TMSprop和Adam中使用的 指数移动 平均是如何导致不收敛的。而且文中的分析可以扩展到其他的指数移动平均打的方法上如Adadelta和NAdam。
d47e62d2b349aca45e42305ed6714efbe5ed61d9 为了保证算法的收敛,文中使用历史梯度的“长时记忆”。并指出了在以往论文Kingma&Ba(2015)中关于Adam收敛性证明过程中存在的问题。为了解决这个问题,文中提出了Adam的变体算法,算法在使用历史梯度的“长时记忆”的情况下,并没有增加算法的时间复杂度与空间复杂度。此外,文中还基于Kingma&Ba(2015)给出了Adam算法收敛性的分析。
d47e62d2b349aca45e42305ed6714efbe5ed61d9 提供了Adam算法变体的实验证明,结果表明, 在某些常用的机器学习问题中,这个变体的表现算法相似或优于原始算法。

实验结果:

如图1所示,在一个简单的一维凸问题上,对Adam和AdamSRAD的性能比较,受到了非收敛性的启发。前两个图是用于在线设置,最后一个是用于随机设置。

658b43f1a637ca0bc60a9396f3c475334edcd323

图1


如图2所示,在逻辑回归、前馈神经网络和CIFARNET中对Adam和AMSGRAD的性能比较。上面一行显示了ADAM和AMSGRAD在逻辑回归(前两个图)和隐藏层=1的前馈神经网络(右图)的性能。在最下面一行中,这两图比较了Adam和阿AMSGRAD训练和测试,并基于CIFARNET进行了比较。

81579ea963ab3637f76b7f4edf2a0bf4db0720fe

图2

球形卷积神经网络(Spherical CNNs)
76b71c8262653141b01c558cfdb7c4b3e66d8bf1

卷积神经网络(CNN)可以很好的处理二维平面图像的问题。然而,对球面图像进行处理需求日益增加。例如,对无人机、机器人、自动驾驶汽车、分子回归问题、全球天气和气候模型的全方位视觉处理问题。将球形信号的平面投影作为卷积神经网络的输入的这种天真做法是注定要失败的,如下图1所示,而这种投影引起的空间扭曲会导致CNN无法共享权重。

258547d8a9f714dd54ff9257587a50879fddf34f

图1

这篇论文中介绍了如何构建球形CNN的模块。我们提出了利用广义傅里叶变换(FFT)进行快速群卷积(互相关)的操作。通过傅里叶变换来实现球形CNN的示意图如下所示:

4769383711505a1e3a8c97eec767145e3ad6b669

实验结果:

d47e62d2b349aca45e42305ed6714efbe5ed61d9 文中使用官方指标评估提出的训练模型,并与每个类别的前三个最优模型进行比较,结果如表1所示。除了精度和F1@N,本文提出的模型排名第三,它是每个其他指标上的都处于领先位置。主要的竞争对手,Tatsuma_ReBGG和Furuya_DLAN使用对SHREC17任务专门设计的特征和网络结构。考虑到文中提出的模型的任务不可知的体系结构和模型中使用的有损的输入表示,可以将模型的性能解释为对球形CNN的有效性的强大的经验支持。

表1

2fa11b5c4e16ca022fb88e352c79898e7630a95a

2. 以RMSE作为指标,将提出方法与一些其他的方法做比较,如表2所示。从表中可以看出,文中提出的算法优于所有基于内核的方法,以及在排序Coulomb矩阵上训练的MLP算法。只有基于随机Coulomb矩阵训练的MLP才能获得更优的效果。然而,对随机排列的充分抽样随着N呈指数增长,因此这种方法不太可能在大的数据上进行扩展。

表2

6e7f1d57f9811a52fe5d9ff32693c50ba263077f

结论

这篇论文介绍了球形CNN,并在两个重要的学习问题上对提出算法进行了评测。此外,文中定义了S2和SO(3)的互相关,并分析了它们的属性,进而实现了一个通用的RRT相关算法。实验的数值结果证实了该算法的稳定性和准确性,即使在深度网络上依然有效。此外,我们已经证明了在不需要对特征和模型调优有很高要求的情况下,球形CNN可以有效地推广到整个旋转过程中,并在三维模型识别和分子能量回归方面取得接近最先进的结果。

对于类似3D模型识别这种三维任务,我们相信可以通过将SO3扩展到roto-平移组SE3来实现进一步的改进。球形CNN的发展是朝着这个方向迈出的重要的第一步。也许,这个球形的CNN重要的应用场景是对全方位视觉问题的处理。尽管目前在公共数据库中,全向图像数据非常少,但在无人机、机器人和自动驾驶汽车中,全方位传感器的普及使这项工作具有非凡的意义。

在非固定和竞争环境中通过元学习进行持续性适应

54f01c22ce0ce5fa4b7f493481b69f9f997a4e7b

在非平稳环境中不断学习和适应有限经验的能力是计算机通往真正的人工智能的重要里程碑。此文提出了“learning to learn”框架的持续性适应问题。通过设计一种基于梯度的元学习算法来对动态变化和对抗性场景的进行适应。此外,文中还设计了一种基于多智能体(multi-agent)的竞争环境:RoboSumo,并定义了适应性迭代游戏,用于从不同方面测试系统的持续适应性能。实验证明,元学习比在few-shot状态下的反应基线具有更强的适应能力,且适应于进行multi-agent学习和竞争。

实验中使用了三种模型作为智能体(agent),如图1(a) 所示。它们在解剖学上存在差异:腿的数量,位置,以及对大腿和膝关节的限制。图1(b)表示非平稳运动环境。应用于红颜色的腿的扭矩是由一个动态变化的因素决定的。(c)用于表示 RoboSumo竞争环境。

6d9469829802a405c1f9081023e4ea9e253d66f8

图1

实验结果:

d47e62d2b349aca45e42305ed6714efbe5ed61d9 下图表示在一轮包含多局的迭代适应游戏中,一个agent与其对手竞争。如果它在一轮中赢了多局(用颜色来表明胜败),那么它就赢了一局。agent和他们的对手可以在不断地改变策略。
5045fe0247497b59f16bd969a3efaaa4e78e5023

图2

2. 在迭代游戏中,轮数和从对手学习到的结果如图3所示,从图中可以看出,当每一轮的迭代次数超过50次时,通过技术追踪的适应问题就变成了“测试的同时进行学习”的问题,除此之外,它可以与一些训练时从未见过的对手进行竞争。在few-shot和标准两种学习制度下,元学适应策略的执行结果几乎都是相同的。这表明,元学习策略在训练时可以学到一种特殊的偏置,使它能够从有限的经验中表现得更好,但也限制了它利用更多数据的能力。

09f5f4ee90b7c1f3e9af21d29298b6050b436806

图3



原文发布时间为:2018-04-12
本文作者:小潘
本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。
相关文章
|
2月前
|
人工智能 自然语言处理 算法
首届大模型顶会COLM 高分论文:偏好搜索算法PairS,让大模型进行文本评估更高效
【8月更文挑战第26天】在人工智能领域,尽管大型语言模型(LLMs)作为自动评估工具展现了巨大潜力,但在自然语言生成质量评估中仍存偏见问题,且难以确保一致性。为解决这一挑战,研究者开发了Pairwise-preference Search(PairS)算法,一种基于不确定性的搜索方法,通过成对比较及不确定性引导实现高效文本排名,有效减少了偏见、提升了评估效率和可解释性。PairS在多项任务中表现出色,相较于传统评分法有显著提升,为自然语言处理评估提供了新思路。更多详情参阅论文:https://arxiv.org/abs/2403.16950。
38 4
|
2月前
|
机器学习/深度学习 存储 算法
【博士每天一篇论文-算法】Continual Learning Through Synaptic Intelligence,SI算法
本文介绍了一种名为"Synaptic Intelligence"(SI)的持续学习方法,通过模拟生物神经网络的智能突触机制,解决了人工神经网络在学习新任务时的灾难性遗忘问题,并保持了计算效率。
29 1
【博士每天一篇论文-算法】Continual Learning Through Synaptic Intelligence,SI算法
|
2月前
|
机器学习/深度学习 人工智能 算法
【博士每天一篇论文-算法】Collective Behavior of a Small-World Recurrent Neural System With Scale-Free Distrib
本文介绍了一种新型的尺度无标度高聚类回声状态网络(SHESN)模型,该模型通过模拟生物神经系统的特性,如小世界现象和无标度分布,显著提高了逼近复杂非线性动力学系统的能力,并在Mackey-Glass动态系统和激光时间序列预测等问题上展示了其优越的性能。
24 1
【博士每天一篇论文-算法】Collective Behavior of a Small-World Recurrent Neural System With Scale-Free Distrib
|
2月前
|
数据采集 机器学习/深度学习 算法
【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】
【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】
|
2月前
|
机器学习/深度学习 算法 物联网
【博士每天一篇论文-算法】Overview of Echo State Networks using Different Reservoirs and Activation Functions
本文研究了在物联网网络中应用回声状态网络(ESN)进行交通预测的不同拓扑结构,通过与SARIMA、CNN和LSTM等传统算法的比较,发现特定配置的ESN在数据速率和数据包速率预测方面表现更佳,证明了ESN在网络流量预测中的有效性。
21 4
|
2月前
|
机器学习/深度学习 存储 算法
【博士每天一篇论文-算法】Optimal modularity and memory capacity of neural reservoirs
本文研究了神经网络的模块化与记忆性能之间的关系,发现存在一个最佳模块化程度,能够在局部凝聚性和全局连接性之间实现平衡,从而显著提高神经网络的预测性能和记忆能力,并为设计神经网络和理解大脑的模块化组织提供了新的见解。
21 0
【博士每天一篇论文-算法】Optimal modularity and memory capacity of neural reservoirs
|
2月前
|
机器学习/深度学习 算法 数据挖掘
【博士每天一篇文论文-算法】A small-world topology enhances the echo state property and signal propagationlun
本文研究了小世界拓扑结构在回声状态网络(ESN)中的作用,发现具有层级和模块化组织的神经网络展现出高聚类系数和小世界特性,这有助于提高学习性能和促进信号传播,为理解神经信息处理和构建高效循环神经网络提供了新的视角。
28 0
【博士每天一篇文论文-算法】A small-world topology enhances the echo state property and signal propagationlun
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
算法金 | 秒懂 AI - 深度学习五大模型:RNN、CNN、Transformer、BERT、GPT 简介
**RNN**,1986年提出,用于序列数据,如语言模型和语音识别,但原始模型有梯度消失问题。**LSTM**和**GRU**通过门控解决了此问题。 **CNN**,1989年引入,擅长图像处理,卷积层和池化层提取特征,经典应用包括图像分类和物体检测,如LeNet-5。 **Transformer**,2017年由Google推出,自注意力机制实现并行计算,优化了NLP效率,如机器翻译。 **BERT**,2018年Google的双向预训练模型,通过掩码语言模型改进上下文理解,适用于问答和文本分类。
126 9
|
2月前
|
算法 Python
【python】python基于 Q-learning 算法的迷宫游戏(源码+论文)【独一无二】
【python】python基于 Q-learning 算法的迷宫游戏(源码+论文)【独一无二】
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
下一篇
无影云桌面