英伟达工程师解读NeurIPS 2019最热趋势:贝叶斯深度学习、图神经网络、凸优化

简介: 2019年人工智能研究什么最热?从今年最大型的AI顶会NeurIPS可以发现几大趋势:科学家们开始探索深度学习背后的理论和原理,贝叶斯深度学习、图神经网络和凸优化等深度学习新方法成为最热趋势。

微信图片_20220107195216.jpg


51个研讨会,1428篇接收论文,13000名参会者,这就是今年的NeurIPS会议。这个一年一度的大型AI顶会,揭示了当前AI研究的哪些趋势呢?来自英伟达人工智能应用团队的计算机科学家Chip Huyen近日写了一篇非常干货的总结。


微信图片_20220107195213.jpg


本文内容包括:1. 解构深度学习的黑盒子2. 深度学习的新方法

2.1 使用贝叶斯原理进行深度学习

2.2 图神经网络

2.3 凸优化

3. 神经科学x机器学习4. 关键词分析5. 数字看NeurIPS6. 结论


解构深度学习的黑盒子


最近,有很多关于深度学习局限性的讨论。举几个例子:


Facebook的AI负责人Jerome Pesenti对计算能力的限制感到担忧。他认为企业不应指望仅靠更大的深度学习系统就能不断取得进展,因为“目前一个实验的成本可能是 7 位数,但不会达到 9 位数或 10 位数,不然没人能负担得起。”


Yoshua Bengio引用加里·马库斯(Gary Marcus),指出了深度学习的局限性Bengio将马库斯的观点总结为“看,深度学习行不通。”


Yann Lecun也谈到这一趋势:“我不明白为什么突然之间,出现很多报道和推文说’人工智能的发展正在变缓’和’深度学习正在碰壁’……我五年前就几乎在每次演讲中都指出深度学习存在的限制和挑战了,所以,认识到存在这些限制并不是什么新鲜事,而且人工智能的发展也没有放缓。”


在这种环境下,我们很高兴看到大量的论文在探索深度学习背后的理论和原理。在今年的NeurIPS上,有31篇论文主题关于各种技术融合。杰出新方向论文奖颁给了Vaishnavh Nagarajan和J. Zico Kolter的《一致收敛理论可能无法解释深度学习中的泛化现象》(Uniform convergence may be unable to explain generalization in deep learning),其论点是一致收敛理论本身并不能解释深度学习泛化的能力。随着数据集大小的增加,泛化差距(模型对可见和不可见数据的性能差距)的理论界限也会增加,而经验泛化差距则会减小。


微信图片_20220107195211.jpg


图片来自Vaishnavh Nagarajan的oral报告


神经正切核(neural tangent kernel, NTK)是近年来研究神经网络优化与泛化的一个新方向。它出现在数个spotlight报告和我在NeuIPS与许多人的对话中。Arthur Jacot等人基于完全连通神经网络在无限宽度限制下等同于高斯过程这一众所周知的概念,在函数空间而非参数空间中研究了其训练动力学。他们证明了“在神经网络参数的梯度下降过程中,网络函数(将输入向量映射到输出向量)遵循函数的核函数梯度成本,关于一个新的核:NTK。”他们还表明,当有限层版本的NTK经过梯度下降训练时,其性能会收敛到无限宽度限制NTK,然后在训练期间保持不变。


NeurIPS上关于NTK的论文有:


  • Learning and Generalization in Overparameterized Neural Networks, Going Beyond Two Layers
  • On the Inductive Bias of Neural Tangent Kernels


但是,许多人认为NTK不能完全解释深度学习。神经网络接近NTK状态所需要的超参数设置——低学习率、大的初始化、无权值衰减——在实践中通常不用于训练神经网络。NTK的观点还指出,神经网络只会像kernel方法一样泛化,但从经验上看,它们可以更好地泛化。


Colin Wei等人的论文“Regularization Matters: Generalization and Optimization of Neural Nets v.s. their Induced Kernel”从理论上证明了具有权值衰减的神经网络泛化效果要比NTK好得多,这表明研究 L2-regularized 神经网络可以更好的理解泛化。NeurIPS的以下论文也表明,传统的神经网络可以超越NTK:


  • What Can ResNet Learn Efficiently, Going Beyond Kernels?
  • Limitations of Lazy Training of Two-layers Neural Network


许多论文分析了神经网络的不同组件的行为。Chulhee Yun等人发表“小型ReLU网络是强大的记忆器:对记忆能力的严格分析”,表明“具有Omega(sqrt(N))隐藏节点的3层ReLU网络可以完美地记忆具有N个点的大多数数据集。”


Shirin Jalali等人的论文《高斯混合模型的高效深度学习》(Efficient Deep Learning of Gaussian mix Models)从这个问题引入:“通用逼近定理指出,任何正则函数都可以使用单个隐藏层神经网络进行逼近。深度是否能让它更具效率?”他们指出,在高斯混合模型的最佳贝叶斯分类的情况下,这样的函数可以用具有一个隐藏层的神经网络中的O(exp(n))节点来近似,而在两层网络中只有O(n)节点。


在一篇更实用性的论文:《控制批大小和学习率以很好地泛化:理论和实证证据》(Control Batch Size and Learning Rate to Generalize Well: Theoretical and Empirical Evidence)中,Fengxiang He 的团队在CIFAR数据集上使用SGD训练了1600个ResNet-110和VGG-19模型,发现这些模型的泛化能力与 batch size负相关,与学习率正相关,与批大小/学习率之比负相关。


微信图片_20220107195207.jpg


图来自He et al.


虽然这些理论分析很吸引人,也很重要,但很难将它们归纳成一个整体,因为它们都只关注系统的一个很窄的方面。


备受瞩目的深度学习新方法:贝叶斯深度学习、GNN、凸优化


今年,NeurIPS的论文出现了很多新方法,我感兴趣的三个方向是:贝叶斯学习、图神经网络和凸优化


基于贝叶斯原理的深度学习


正如Emtiyaz Khan在他的受邀演讲《基于贝叶斯原理的深度学习》中所强调的那样,贝叶斯学习和深度学习是非常不同的。根据Khan的说法,深度学习使用“试错”(trial and error)的方法——看实验会把我们带向何方——而贝叶斯原理迫使你事先思考假设(先验)


微信图片_20220107195204.jpg


与常规的深度学习相比,贝叶斯深度学习主要有两个吸引人的点:不确定性估计和对小数据集的更好的泛化。在实际应用中,仅凭系统做出预测是不够的。知道每个预测的确定性很重要。在贝叶斯学习中,不确定性估计是一个内置特性。


传统的神经网络给出单点估计——使用一组权值在数据点上输出预测。另一方面,贝叶斯神经网络使用网络权值上的概率分布,并输出该分布中所有权值集的平均预测,其效果与许多神经网络上的平均预测相同。因此,贝叶斯神经网络是自然的集合体,它的作用类似于正则化,可以防止过拟合。


拥有数百万个参数的贝叶斯神经网络的训练在计算上仍然很昂贵。收敛到一个后验值可能需要数周时间,因此诸如变分推理之类的近似方法已经变得流行起来。Probabilistic Methods – Variational Inference类发表了10篇关于这种变分贝叶斯方法的论文。


我推荐阅读的关于贝叶斯深度学习的NeurIPS论文如下:


  • Importance Weighted Hierarchical Variational Inference
  • A Simple Baseline for Bayesian Uncertainty in Deep Learning
  • Practical Deep Learning with Bayesian Principles


图神经网络(GNNs)


多年来,我一直说图理论是机器学习中最被低估的主题之一。很高兴看到graph在今年的NeurIPS上非常流行。


微信图片_20220107195202.jpg


对于许多类型的数据,例如社交网络、知识库和游戏状态,图(graphs)是美丽而自然的表示。用于推荐系统的用户项数据可以表示为一个二分图,其中一个不相交集由用户组成,另一个由项组成。


图也可以表示神经网络的输出。正如Yoshua Bengio在他的特邀演讲中强调的,任何联合分布都可以表示为一个因子图。


这使得图神经网络(graph neural network)非常适合于组合优化(例如旅行推销员、日程安排)、身份匹配(这个Twitter用户和这个Facebook用户是同一个人吗)、推荐系统等任务。


最受欢迎的图神经网络是图卷积神经网络(GCNN),这可以理解,因为它们都对局部信息进行编码。卷积倾向于寻找输入相邻部分之间的关系。图通过边对输入中最相关的部分进行编码。


微信图片_20220107195158.jpg


图来自Gasse et al.


我喜欢的一些关于GNN的论文:


  • Exact Combinatorial Optimization with Graph Convolutional Neural Networks
  • Graph Neural Tangent Kernel: Fusing Graph Neural Networks with Graph Kernels


我在NeurIPS上最喜欢的poster:


  • (Nearly) Efficient Algorithms for the Graph Matching Problem on Correlated Random Graphs


微信图片_20220107195155.jpg


NeurIPS之外的推荐阅读:


  • Thomas N. Kipf’s Graph Convolutional Networks blog post
  • Kung-Hsiang, Huang’s A Gentle Introduction to Graph Neural Networks (Basics, DeepWalk, and GraphSage)


凸优化


很高兴看到凸优化(convex optimization)在NeurIPS上越来越受欢迎——有32篇相关的论文。Stephen Boyd和J. Zico Kolter的实验室还展示了他们的论文《可微凸优化层》(Differentiable Convex Optimization Layers),该论文展示了如何通过凸优化问题的解进行微分,使得将其嵌入可微程序(如神经网络)并从数据中学习成为可能。


凸优化问题之所以吸引人,因为它们可以准确、快速地解决问题(可以达到1e-10的容错度)。它们也不会产生奇怪的/意料之外的输出,而这对于实际应用至关重要。尽管实际遇到的许多问题都是非凸的,但将它们分解成一系列凸优化问题是可行的。


神经网络也可以用凸优化算法训练。但是,虽然神经网络的重点是从头开始学习,但在端到端的方式中,凸优化问题的应用明确地强调使用领域特定知识建模系统。当可以以凸的方式显式地对系统建模时,通常需要的数据要少得多。可微凸优化层的工作是结合了端到端学习和显式建模的优点的一种方法。


当你想控制一个系统的输出时,凸优化特别有用。例如,SpaceX使用凸优化来让火箭着陆,BlackRock将其用于交易算法。在深度学习中使用凸优化真的很酷。


Akshay Agrawal推荐的关于凸优化的NeurIPS论文。


  • Acceleration via Symplectic Discretization of High-Resolution Differential Equations
  • Hamiltonian descent for composite objectives


微信图片_20220107195153.jpg


神经科学x机器学习


根据NeurIPS 2019程序主席Hugo Larochelle的分析,接收率最高的类别是神经科学


微信图片_20220107195150.jpg


在受邀的演讲中, Yoshua Bengio的“从系统1深度学习到系统2深度学习”和Blaise Aguera y Arcas的“社会智能”都敦促机器学习社区更多地思考自然智能的生物学根源。


推荐阅读:


【NeurIPS 2019演讲解读】Yoshua Bengio:如何用深度学习来实现System2?


Bengio的演讲将意识引入了主流机器学习词汇中。Bengio认为意识的核心要素是注意力。他将机器的注意力机制比作我们的大脑选择注意力的方式:“机器学习可以用来帮助脑科学家更好地理解意识,但我们对意识的理解也可以帮助机器学习发展出更好的能力。”根据Bengio的观点,如果我们希望机器学习算法能够推广到分布样本之外,那么启发式方法是可行的。


微信图片_20220107195147.jpg


Aguera y Arcas的演讲是我在大会上最喜欢的。他认为,优化并不足以捕获类人智能:“优化不是生活的运作方式……大脑不只是评估一个功能。它们会发展。它们会自我修改。


它们从经验中学习。函数没有这些东西。”他呼吁“一个更通用的、受生物学启发的突触更新规则(synapse update rule),该规则允许但不要求损失函数和梯度下降”。


NeurIPS上的这一趋势与我的观察一致,即人工智能领域有许多人正在转向神经科学。他们把神经科学带到了机器学习中。


微信图片_20220107195144.jpg


NeurIPS关键词分析


让我们来看看这次会议论文的全局视角。我首先使用vennclouds可视化了NeurIPS 2018的1011篇论文和NeurIPS 2019的1428篇论文。中间的黑色区域是2018年和2019年论文中共同的关键词。


微信图片_20220107195142.jpg


然后,我计算了2018年到2019年这些关键词的比例变化。例如,如果在2018年,所有被录取的论文中有1%的关键词是“X”,而在2019年,这个数字是2%,那么比例变化是(2 - 1)/ 1 = 100%。我绘制了绝对比例变化至少为20%的关键字。


微信图片_20220107195139.jpg


要点如下:


  • 强化学习甚至在机器人技术之外的领域也越来越流行。有显著正变化的关键词有bandit、feedback、regret、control。
  • 生成模型仍然很流行。GAN仍然吸引着我们的想象力,但远没有2018年那么夸张。
  • 递归神经网络和卷积神经网络关注度下降。
  • 硬件关键词也在上升,标志着更多的硬件感知算法。这是对硬件是机器学习瓶颈这一担忧的回答。
  • 我很遗憾“数据”这个关键词在下降。
  • Meta这个关键词今年增幅最大。


网络异常,图片无法展示
|


尽管 Bayesian这个关键词下降了,uncertainty却上升了。去年,有很多论文使用了贝叶斯原理,但没有针对深度学习。


数字看NeurIPS


  • 大会收到7k篇论文。1428篇被接收。录取率为21%。
  • 13000名与会者,据我估计,这意味着至少有一半的与会者没有提交论文。
  • 57个workshop,4个侧重于:AI领域的黑人、机器学习领域的女性、AI领域的拉丁裔、机器学习中的新事物、全民机器学习竞赛。
  • 16000页的会议论文集。
  • 在所有录取论文中,有12%的论文至少有一位作者来自Google或Deepmind。
  • 有87篇论文来自斯坦福大学,使其成为发表论文最多的学术机构。


微信图片_20220107195133.png


  • 250篇论文是关于应用的,占16.7%。
  • 获得经典论文奖的微软华人学者Lin Xiao的论文“正则化双重平均算法(RDA)”截止到2019年12月的被引数是648。这证明了引用计数和贡献不一定相关。
  • 75%的论文有代码链接,而去年只有50%。
  • 2255条评论提到了查看提交时的代码。
  • 173篇论文声称对OpenReview的进行了“可重复性挑战”。
  • 31篇在NeurIPS创意设计机器学习研讨会上的海报。有好几个人告诉我这是他们最喜欢的部分。


总结


我发现无论在知识上还是在人数上, NeurIPS都是压倒性的。我认为没有人能读完厚达16000页的会议论文。poster 区也人头济济,很难直接与作者交流。


然而,会议的规模之巨大也意味着丰富的研究方向和人们之间精彩的交流。能接触到我的子领域之外的工作,并向那些背景和兴趣与我不同的研究人员学习,这是件好事。


我也很高兴看到研究界摆脱了追求“更大、更好”的方法。我在poster区得到的印象是,许多论文只在诸如MNIST和CIFAR这样的小数据集上做实验。获得最佳论文奖的Ilias Diakonikolas等人“Distribution-Independent PAC Learning of Halfspaces with Massart Noise”一文,甚至没有做任何实验。


我经常听到年轻的研究人员担心必须加入大型的研究实验室才能获得计算资源,但是NeurIPS证明了你可以做出重要的贡献,而不需要担心数据和计算资源问题。


在我参加的一个NewInML小组讨论会上,有人说他不知道NeurIPS的大多数论文如何用到生产实践中。Neil Lawrence说,或许他应该研究一下其他会议。与其他许多机器学习会议相比,NeurIPS更偏理论性。从事基础研究很重要。


总的来说,我在NeurIPS度过了一段美好的时光,并计划明年再次参加。不过,对于机器学习领域的新人,我推荐ICLR作为他们的第一次学术会议。ICLR更小型、时间更短、更面向应用。明年,ICLR非洲见。


参考链接:
https://huyenchip.com/2019/12/18/key-trends-neurips-2019.html

相关文章
|
24天前
|
机器学习/深度学习 自然语言处理 搜索推荐
深度学习的魔法:如何用神经网络解决复杂问题
在这篇文章中,我们将探讨深度学习的基本原理和它在各种领域中的应用。通过一些实际的例子,我们将看到深度学习如何帮助我们解决复杂的问题,如图像识别、自然语言处理和推荐系统等。我们还将讨论一些最新的研究成果和技术趋势,以及深度学习在未来可能面临的挑战和机遇。
|
1月前
|
机器学习/深度学习 人工智能 算法框架/工具
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【10月更文挑战第7天】本文将深入探讨卷积神经网络(CNN)的基本原理,以及它如何在图像识别领域中大放异彩。我们将从CNN的核心组件出发,逐步解析其工作原理,并通过一个实际的代码示例,展示如何利用Python和深度学习框架实现一个简单的图像分类模型。文章旨在为初学者提供一个清晰的入门路径,同时为有经验的开发者提供一些深入理解的视角。
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络:从理论到实践
【10月更文挑战第35天】在人工智能的浪潮中,深度学习技术以其强大的数据处理能力成为科技界的宠儿。其中,卷积神经网络(CNN)作为深度学习的一个重要分支,在图像识别和视频分析等领域展现出了惊人的潜力。本文将深入浅出地介绍CNN的工作原理,并结合实际代码示例,带领读者从零开始构建一个简单的CNN模型,探索其在图像分类任务中的应用。通过本文,读者不仅能够理解CNN背后的数学原理,还能学会如何利用现代深度学习框架实现自己的CNN模型。
|
6天前
|
机器学习/深度学习 人工智能 算法框架/工具
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【10月更文挑战第36天】探索卷积神经网络(CNN)的神秘面纱,揭示其在图像识别领域的威力。本文将带你了解CNN的核心概念,并通过实际代码示例,展示如何构建和训练一个简单的CNN模型。无论你是深度学习的初学者还是希望深化理解,这篇文章都将为你提供有价值的见解。
|
20天前
|
机器学习/深度学习 自然语言处理 TensorFlow
深度学习的奥秘:探索神经网络背后的魔法
【10月更文挑战第22天】本文将带你走进深度学习的世界,揭示神经网络背后的神秘面纱。我们将一起探讨深度学习的基本原理,以及如何通过编程实现一个简单的神经网络。无论你是初学者还是有一定基础的学习者,这篇文章都将为你提供有价值的信息和启示。让我们一起踏上这段奇妙的旅程吧!
|
20天前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
65 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
21天前
|
机器学习/深度学习 人工智能 自动驾驶
深度学习中的卷积神经网络(CNN)及其应用
【10月更文挑战第21天】本文旨在深入探讨深度学习领域的核心组成部分——卷积神经网络(CNN)。通过分析CNN的基本结构、工作原理以及在图像识别、语音处理等领域的广泛应用,我们不仅能够理解其背后的技术原理,还能把握其在现实世界问题解决中的强大能力。文章将用浅显的语言和生动的例子带领读者一步步走进CNN的世界,揭示这一技术如何改变我们的生活和工作方式。
|
28天前
|
机器学习/深度学习 人工智能 监控
深入理解深度学习中的卷积神经网络(CNN):从原理到实践
【10月更文挑战第14天】深入理解深度学习中的卷积神经网络(CNN):从原理到实践
82 1
|
7天前
|
机器学习/深度学习 人工智能 自动驾驶
深入解析深度学习中的卷积神经网络(CNN)
深入解析深度学习中的卷积神经网络(CNN)
21 0
|
9天前
|
机器学习/深度学习 人工智能 自动驾驶
深度学习的奇迹:如何用神经网络识别图像
【10月更文挑战第33天】在这篇文章中,我们将探索深度学习的奇妙世界,特别是卷积神经网络(CNN)在图像识别中的应用。我们将通过一个简单的代码示例,展示如何使用Python和Keras库构建一个能够识别手写数字的神经网络。这不仅是对深度学习概念的直观介绍,也是对技术实践的一次尝试。让我们一起踏上这段探索之旅,看看数据、模型和代码是如何交织在一起,创造出令人惊叹的结果。
19 0

热门文章

最新文章