英伟达工程师解读NeurIPS 2019最热趋势：贝叶斯深度学习、图神经网络、凸优化-阿里云开发者社区

微信图片_20220107195216.jpg

51个研讨会，1428篇接收论文，13000名参会者，这就是今年的NeurIPS会议。这个一年一度的大型AI顶会，揭示了当前AI研究的哪些趋势呢？来自英伟达人工智能应用团队的计算机科学家Chip Huyen近日写了一篇非常干货的总结。

微信图片_20220107195213.jpg

本文内容包括：1. 解构深度学习的黑盒子2. 深度学习的新方法

2.1 使用贝叶斯原理进行深度学习

2.2 图神经网络

2.3 凸优化

3. 神经科学x机器学习4. 关键词分析5. 数字看NeurIPS6. 结论

解构深度学习的黑盒子

最近，有很多关于深度学习局限性的讨论。举几个例子：

Facebook的AI负责人Jerome Pesenti对计算能力的限制感到担忧。他认为企业不应指望仅靠更大的深度学习系统就能不断取得进展，因为“目前一个实验的成本可能是 7 位数，但不会达到 9 位数或 10 位数，不然没人能负担得起。”

Yoshua Bengio引用加里·马库斯(Gary Marcus)，指出了深度学习的局限性。Bengio将马库斯的观点总结为“看，深度学习行不通。”

Yann Lecun也谈到这一趋势：“我不明白为什么突然之间，出现很多报道和推文说’人工智能的发展正在变缓’和’深度学习正在碰壁’……我五年前就几乎在每次演讲中都指出深度学习存在的限制和挑战了，所以，认识到存在这些限制并不是什么新鲜事，而且人工智能的发展也没有放缓。”

在这种环境下，我们很高兴看到大量的论文在探索深度学习背后的理论和原理。在今年的NeurIPS上，有31篇论文主题关于各种技术融合。杰出新方向论文奖颁给了Vaishnavh Nagarajan和J. Zico Kolter的《一致收敛理论可能无法解释深度学习中的泛化现象》(Uniform convergence may be unable to explain generalization in deep learning)，其论点是一致收敛理论本身并不能解释深度学习泛化的能力。随着数据集大小的增加，泛化差距(模型对可见和不可见数据的性能差距)的理论界限也会增加，而经验泛化差距则会减小。

微信图片_20220107195211.jpg

图片来自Vaishnavh Nagarajan的oral报告

神经正切核(neural tangent kernel, NTK)是近年来研究神经网络优化与泛化的一个新方向。它出现在数个spotlight报告和我在NeuIPS与许多人的对话中。Arthur Jacot等人基于完全连通神经网络在无限宽度限制下等同于高斯过程这一众所周知的概念，在函数空间而非参数空间中研究了其训练动力学。他们证明了“在神经网络参数的梯度下降过程中，网络函数(将输入向量映射到输出向量)遵循函数的核函数梯度成本，关于一个新的核：NTK。”他们还表明，当有限层版本的NTK经过梯度下降训练时，其性能会收敛到无限宽度限制NTK，然后在训练期间保持不变。

NeurIPS上关于NTK的论文有：

Learning and Generalization in Overparameterized Neural Networks, Going Beyond Two Layers
On the Inductive Bias of Neural Tangent Kernels

但是，许多人认为NTK不能完全解释深度学习。神经网络接近NTK状态所需要的超参数设置——低学习率、大的初始化、无权值衰减——在实践中通常不用于训练神经网络。NTK的观点还指出，神经网络只会像kernel方法一样泛化，但从经验上看，它们可以更好地泛化。

Colin Wei等人的论文“Regularization Matters: Generalization and Optimization of Neural Nets v.s. their Induced Kernel”从理论上证明了具有权值衰减的神经网络泛化效果要比NTK好得多，这表明研究 L2-regularized 神经网络可以更好的理解泛化。NeurIPS的以下论文也表明，传统的神经网络可以超越NTK：

What Can ResNet Learn Efficiently, Going Beyond Kernels?
Limitations of Lazy Training of Two-layers Neural Network

许多论文分析了神经网络的不同组件的行为。Chulhee Yun等人发表“小型ReLU网络是强大的记忆器：对记忆能力的严格分析”，表明“具有Omega(sqrt(N))隐藏节点的3层ReLU网络可以完美地记忆具有N个点的大多数数据集。”

Shirin Jalali等人的论文《高斯混合模型的高效深度学习》(Efficient Deep Learning of Gaussian mix Models)从这个问题引入：“通用逼近定理指出，任何正则函数都可以使用单个隐藏层神经网络进行逼近。深度是否能让它更具效率？”他们指出，在高斯混合模型的最佳贝叶斯分类的情况下，这样的函数可以用具有一个隐藏层的神经网络中的O(exp(n))节点来近似，而在两层网络中只有O(n)节点。

在一篇更实用性的论文：《控制批大小和学习率以很好地泛化：理论和实证证据》(Control Batch Size and Learning Rate to Generalize Well: Theoretical and Empirical Evidence)中，Fengxiang He 的团队在CIFAR数据集上使用SGD训练了1600个ResNet-110和VGG-19模型，发现这些模型的泛化能力与 batch size负相关，与学习率正相关，与批大小/学习率之比负相关。

微信图片_20220107195207.jpg

图来自He et al.

虽然这些理论分析很吸引人，也很重要，但很难将它们归纳成一个整体，因为它们都只关注系统的一个很窄的方面。

备受瞩目的深度学习新方法：贝叶斯深度学习、GNN、凸优化

今年，NeurIPS的论文出现了很多新方法，我感兴趣的三个方向是：贝叶斯学习、图神经网络和凸优化。

基于贝叶斯原理的深度学习

正如Emtiyaz Khan在他的受邀演讲《基于贝叶斯原理的深度学习》中所强调的那样，贝叶斯学习和深度学习是非常不同的。根据Khan的说法，深度学习使用“试错”(trial and error)的方法——看实验会把我们带向何方——而贝叶斯原理迫使你事先思考假设(先验)。

微信图片_20220107195204.jpg

与常规的深度学习相比，贝叶斯深度学习主要有两个吸引人的点：不确定性估计和对小数据集的更好的泛化。在实际应用中，仅凭系统做出预测是不够的。知道每个预测的确定性很重要。在贝叶斯学习中，不确定性估计是一个内置特性。

传统的神经网络给出单点估计——使用一组权值在数据点上输出预测。另一方面，贝叶斯神经网络使用网络权值上的概率分布，并输出该分布中所有权值集的平均预测，其效果与许多神经网络上的平均预测相同。因此，贝叶斯神经网络是自然的集合体，它的作用类似于正则化，可以防止过拟合。

拥有数百万个参数的贝叶斯神经网络的训练在计算上仍然很昂贵。收敛到一个后验值可能需要数周时间，因此诸如变分推理之类的近似方法已经变得流行起来。Probabilistic Methods – Variational Inference类发表了10篇关于这种变分贝叶斯方法的论文。

我推荐阅读的关于贝叶斯深度学习的NeurIPS论文如下：

Importance Weighted Hierarchical Variational Inference
A Simple Baseline for Bayesian Uncertainty in Deep Learning
Practical Deep Learning with Bayesian Principles

图神经网络(GNNs)

多年来，我一直说图理论是机器学习中最被低估的主题之一。很高兴看到graph在今年的NeurIPS上非常流行。

微信图片_20220107195202.jpg

对于许多类型的数据，例如社交网络、知识库和游戏状态，图(graphs)是美丽而自然的表示。用于推荐系统的用户项数据可以表示为一个二分图，其中一个不相交集由用户组成，另一个由项组成。

图也可以表示神经网络的输出。正如Yoshua Bengio在他的特邀演讲中强调的，任何联合分布都可以表示为一个因子图。

这使得图神经网络(graph neural network)非常适合于组合优化(例如旅行推销员、日程安排)、身份匹配(这个Twitter用户和这个Facebook用户是同一个人吗)、推荐系统等任务。

最受欢迎的图神经网络是图卷积神经网络(GCNN)，这可以理解，因为它们都对局部信息进行编码。卷积倾向于寻找输入相邻部分之间的关系。图通过边对输入中最相关的部分进行编码。

微信图片_20220107195158.jpg

图来自Gasse et al.

我喜欢的一些关于GNN的论文：

Exact Combinatorial Optimization with Graph Convolutional Neural Networks
Graph Neural Tangent Kernel: Fusing Graph Neural Networks with Graph Kernels

我在NeurIPS上最喜欢的poster：

(Nearly) Efficient Algorithms for the Graph Matching Problem on Correlated Random Graphs

微信图片_20220107195155.jpg

NeurIPS之外的推荐阅读：

Thomas N. Kipf’s Graph Convolutional Networks blog post
Kung-Hsiang, Huang’s A Gentle Introduction to Graph Neural Networks (Basics, DeepWalk, and GraphSage)

凸优化

很高兴看到凸优化(convex optimization)在NeurIPS上越来越受欢迎——有32篇相关的论文。Stephen Boyd和J. Zico Kolter的实验室还展示了他们的论文《可微凸优化层》(Differentiable Convex Optimization Layers)，该论文展示了如何通过凸优化问题的解进行微分，使得将其嵌入可微程序(如神经网络)并从数据中学习成为可能。

凸优化问题之所以吸引人，因为它们可以准确、快速地解决问题(可以达到1e-10的容错度)。它们也不会产生奇怪的/意料之外的输出，而这对于实际应用至关重要。尽管实际遇到的许多问题都是非凸的，但将它们分解成一系列凸优化问题是可行的。

神经网络也可以用凸优化算法训练。但是，虽然神经网络的重点是从头开始学习，但在端到端的方式中，凸优化问题的应用明确地强调使用领域特定知识建模系统。当可以以凸的方式显式地对系统建模时，通常需要的数据要少得多。可微凸优化层的工作是结合了端到端学习和显式建模的优点的一种方法。

当你想控制一个系统的输出时，凸优化特别有用。例如，SpaceX使用凸优化来让火箭着陆，BlackRock将其用于交易算法。在深度学习中使用凸优化真的很酷。

Akshay Agrawal推荐的关于凸优化的NeurIPS论文。

Acceleration via Symplectic Discretization of High-Resolution Differential Equations
Hamiltonian descent for composite objectives

微信图片_20220107195153.jpg

神经科学x机器学习

根据NeurIPS 2019程序主席Hugo Larochelle的分析，接收率最高的类别是神经科学。

微信图片_20220107195150.jpg

在受邀的演讲中， Yoshua Bengio的“从系统1深度学习到系统2深度学习”和Blaise Aguera y Arcas的“社会智能”都敦促机器学习社区更多地思考自然智能的生物学根源。

NeurIPS关键词分析

让我们来看看这次会议论文的全局视角。我首先使用vennclouds可视化了NeurIPS 2018的1011篇论文和NeurIPS 2019的1428篇论文。中间的黑色区域是2018年和2019年论文中共同的关键词。

微信图片_20220107195142.jpg

然后，我计算了2018年到2019年这些关键词的比例变化。例如，如果在2018年，所有被录取的论文中有1%的关键词是“X”，而在2019年，这个数字是2%，那么比例变化是(2 - 1)/ 1 = 100%。我绘制了绝对比例变化至少为20％的关键字。

微信图片_20220107195139.jpg

要点如下：

强化学习甚至在机器人技术之外的领域也越来越流行。有显著正变化的关键词有bandit、feedback、regret、control。
生成模型仍然很流行。GAN仍然吸引着我们的想象力，但远没有2018年那么夸张。
递归神经网络和卷积神经网络关注度下降。
硬件关键词也在上升，标志着更多的硬件感知算法。这是对硬件是机器学习瓶颈这一担忧的回答。
我很遗憾“数据”这个关键词在下降。
Meta这个关键词今年增幅最大。

网络异常，图片无法展示

尽管 Bayesian这个关键词下降了，uncertainty却上升了。去年，有很多论文使用了贝叶斯原理，但没有针对深度学习。

数字看NeurIPS

大会收到7k篇论文。1428篇被接收。录取率为21%。
13000名与会者，据我估计，这意味着至少有一半的与会者没有提交论文。
57个workshop，4个侧重于：AI领域的黑人、机器学习领域的女性、AI领域的拉丁裔、机器学习中的新事物、全民机器学习竞赛。
16000页的会议论文集。
在所有录取论文中，有12%的论文至少有一位作者来自Google或Deepmind。
有87篇论文来自斯坦福大学，使其成为发表论文最多的学术机构。

微信图片_20220107195133.png

250篇论文是关于应用的，占16.7%。
获得经典论文奖的微软华人学者Lin Xiao的论文“正则化双重平均算法（RDA）”截止到2019年12月的被引数是648。这证明了引用计数和贡献不一定相关。
75%的论文有代码链接，而去年只有50%。
2255条评论提到了查看提交时的代码。
173篇论文声称对OpenReview的进行了“可重复性挑战”。
31篇在NeurIPS创意设计机器学习研讨会上的海报。有好几个人告诉我这是他们最喜欢的部分。

总结

我发现无论在知识上还是在人数上， NeurIPS都是压倒性的。我认为没有人能读完厚达16000页的会议论文。poster 区也人头济济，很难直接与作者交流。

然而，会议的规模之巨大也意味着丰富的研究方向和人们之间精彩的交流。能接触到我的子领域之外的工作，并向那些背景和兴趣与我不同的研究人员学习，这是件好事。

我也很高兴看到研究界摆脱了追求“更大、更好”的方法。我在poster区得到的印象是，许多论文只在诸如MNIST和CIFAR这样的小数据集上做实验。获得最佳论文奖的Ilias Diakonikolas等人“Distribution-Independent PAC Learning of Halfspaces with Massart Noise”一文，甚至没有做任何实验。

我经常听到年轻的研究人员担心必须加入大型的研究实验室才能获得计算资源，但是NeurIPS证明了你可以做出重要的贡献，而不需要担心数据和计算资源问题。

在我参加的一个NewInML小组讨论会上，有人说他不知道NeurIPS的大多数论文如何用到生产实践中。Neil Lawrence说，或许他应该研究一下其他会议。与其他许多机器学习会议相比，NeurIPS更偏理论性。从事基础研究很重要。

总的来说，我在NeurIPS度过了一段美好的时光，并计划明年再次参加。不过，对于机器学习领域的新人，我推荐ICLR作为他们的第一次学术会议。ICLR更小型、时间更短、更面向应用。明年，ICLR非洲见。

参考链接：
https://huyenchip.com/2019/12/18/key-trends-neurips-2019.html