ICML 2021 杰出论文奖
Unbiased Gradient Estimation in Unrolled Computation Graphs with Persistent Evolution Strategies
TL;DR:多伦多大学和谷歌大脑提出一种持久进化策略(PES)的方法,实现参数快速更新,内存使用率低,无偏差,并且具有合理的方差特性。这篇获奖论文工作的一项关键性假设是在生成模型中加入组合式三维场景表征,以使图像合成更加可控。
将场景表示为组合生成性神经特征场,使我们能够将一个或多个物体从背景中分离出来,并在不需要额外监督的情况下,从非结构化和未处理的图像集中学习单个物体的形状和外观。深度生成模型允许以高分辨率进行高真实感图像合成。但对于许多应用程序来说,这还不够:内容创建还需要可控。
虽然近来一些工作研究了如何解开数据中变化的潜在因素,但其中大多数是在 2D 场景下运行的,而忽略了现实世界是 3D 的。此外,只有少数研究考虑了场景的构图性质。而该研究的关键假设是将组合 3D 场景表征结合到生成模型中,以生成更加可控的图像合成。
通过将场景表征为组合的生成神经特征场,该研究能够从背景中分离出一个或多个目标以及单个目标的形状和外观,同时从非结构化和未定位的图像集合中学习,而无需任何额外的监督。该研究通过将场景表征与神经渲染 pipeline 相结合,得到了快速且逼真的图像合成模型。实验表明,该模型能够分离出单个目标,并允许在场景中平移和旋转它们以及改变相机位姿。
文献地址:https://arxiv.org/abs/2112.13835
ICML 2021 杰出论文提名奖(Outstanding Paper Honorable Mention)
Optimal Complexity in Decentralized Training
展开计算图应用于许多场景中,包括训练RNN、通过展开优化调整超参数以及训练学习的优化器等等。目前,这种计算图中优化参数的方法存在着高方差梯度、偏差、缓慢更新以及大量内存使用等问题。
作者在这篇获奖论文中引入了一种持久进化策略(Persistent Evolution Strategies,PES)方法,它将计算图划分为一系列阶段展开(truncated unrolls),并在每次展开后执行基于进化策略的更新步骤。PES通过在整个展开序列中累积修正项来消除这些截断的偏差。
作者通过实验证明了PES与其他几种合成任务的梯度估计方法相比的优势,并展示了它在训练学习型优化器和调整超参数方面的适用性。
文献地址:https://icml.cc/virtual/2021/poster/8893
Oops I Took A Gradient: Scalable Sampling for Discrete Distributions
文献地址:https://icml.cc/virtual/2021/poster/9335
Understanding self-supervised learning dynamics without contrastive pairs
文献地址:https://icml.cc/virtual/2021/poster/10403
Solving high-dimensional parabolic PDEs using the tensor train format
文献地址:https://icml.cc/virtual/2021/poster/9927
ICML 2021 时间检验奖
Bayesian Learning via Stochastic Gradient Langevin Dynamics
文献地址:https://www.stats.ox.ac.uk/~teh/research/compstats/WelTeh2011a.pdf
ACL 2021 最佳论文奖
Vocabulary Learning via Optimal Transport for Neural Machine Translation
TL;DR:字节跳动火山翻译团队提出了一种新的词表学习方案 VOLT,在多种翻译任务上取得了SOTA
标记词汇的选择会影响机器翻译的性能。本文旨在找到“什么是好的词汇”,以及是否能够在不进行试训的情况下找到最佳词汇。
为了回答这些问题,作者首先从信息论的角度对词汇的作用进行了另一种理解。基于此,作者将词汇化的探索——寻找大小合适的最佳 token 词典——表述为一个最优传输(Optimal Transport,OT)问题。
作者提出了(VOcabulary Learning approach via optimal Transport,VOLT)——一种简单有效的无需试训的解决方案。实验结果表明,VOLT在不同的场景下,包括WMT-14英德翻译和TED多语言翻译,都优于广泛使用的词汇表。
在英德翻译中,VOLT实现了近70%的词汇量缩减和0.5 BLEU增益。此外,与BPE搜索相比,VOLT将英德翻译的搜索时间从384 个GPU小时减少到30个 GPU小时。文献地址:https://arxiv.org/abs/2011.12100