AAAI,ICML,CVPR,NeurIPS...31篇国际七大AI顶会2021年度Best Papers 一文回顾

机器之心 2022-02-05 12:44

以下文章来源于机器之心SOTA模型，作者机器之心SOTA模型

在机器之心 SOTA！模型启动「虎卷er行动」的第四天，我们解锁第三套「年度回顾」复习资料「Best Papers」，帮助老伙计们回顾在过去的2021年在国际上引起普遍反响的 AI 顶会最佳工作。

AAAI 2021 最佳论文奖（Best papers）

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting
TL;DR：北航、加州伯克利等为长序列时间序列预测（LSTF）设计了一个高效的基于Transformer的模型Informer

长时间序列预测技术可以应用在很多实际场景中，例如电力消耗规划。与一般的时间序列预测技术相比，长序列时间序列预测（Long sequence time-series forecasting，LSTF）对模型的预测能力提出了更高的要求，即需要能够有效地捕捉输出和输入之间精确的长期依赖耦合。

最近的研究表明，Transformer具有提高预测能力的潜力。然而，Transformer存在一些严重问题，使其无法直接应用于LSTF，包括二次时间复杂度、高内存使用率以及编码器-解码器体系结构的固有限制等等。为了解决这些问题，本文设计了一个高效的基于变压器的适用于LSTF的模型，命名为Informer。

Informer具有三个显著特征：（i）一种稀疏的自注意机制，在时间复杂度和内存使用方面达到O(Llog L)，并且在序列依赖性对齐方面也具有较高性能。（ii）自注意提取通过将级联层输入减半来突出控制注意，并能够有效地处理超长的输入序列。（iii）生成式解码器通过一次正向操作而不是一步一步的方式来预测长时间序列，这种处理方式大大提高了长序列预测的推理速度。作者在四个大规模数据集上的大量实验表明，Informer的性能明显优于现有的方法，并为LSTF问题提供了一种新的解决方案。

文献地址：https://arxiv.org/abs/2012.07436

Exploration-Exploitation in Multi-Agent Learning: Catastrophe Theory Meets Game Theory
TL;DR：新加坡科技设计大学通过 Q 学习的平滑模拟的研究探究「探索 - 利用」在多智能体学习中产生的效果。

该工作获得了AAAI 2021最佳论文奖。该工作探讨了 Exploration-Exploitation 作为一个强有力的工具，在多智能体学习（multi-agent learning，MAL）中的效果，并对相关效果进行了较为全面的分析。

探索 - 利用（exploration-exploitation）是多智能体学习（MAL）中强大而实用的工具，但其效果远未得到理解。为了探索这个目标，这篇论文研究了 Q 学习的平滑模拟。研究者认为其学习模型是学习「探索 - 利用」的最佳模型，并提供了强大的理论依据。具体而言，该研究证明了平滑的 Q 学习在任意博弈中对于成本模型有 bounded regret，该成本模型能够明确捕获博弈和探索成本之间的平衡，并且始终收敛至量化响应均衡（QRE）集，即有限理性下博弈的标准解概念，适用于具有异构学习智能体的加权潜在博弈。

文献地址：https://arxiv.org/abs/2012.03083
Mitigating Political Bias in Language Models Through Reinforced Calibration
TL;DR：达特茅斯学院、德克萨斯大学奥斯汀分校等提出了一个强化学习（RL）框架来减轻生成文本中的政治偏见。

当前的大规模语言模型可能会因其所使用的数据而产生政治偏见，在现实环境中部署时可能会造成严重问题。

该工作描述了衡量GPT-2生成中的政治偏见的指标，并提出了一个强化学习（RL）框架来缓解生成文本中的政治偏见。

通过使用单词嵌入或分类器的奖励，RL框架能够在不访问训练数据或重新训练模型的情况下指导、debiased生成。

根据对政治偏见敏感的三个属性（性别、位置和主题）进行的实证实验结果，本文方法从本文提出的评估指标和参与实验的人类主观评估两个角度出发都减少了偏见，同时保持可读性和语义一致性。

文献地址：https://arxiv.org/abs/2104.14795

AAAI 2021 最佳论文提名奖（Best Paper Runners Up）

Learning From EXtreme Bandit Feedback

TL;DR：加州大学伯克利分校、德克萨斯大学奥斯汀分校的工作。从极端强盗反馈中学习。

摘要：我们研究了在极大动作空间的设置中从强盗反馈中批量学习的问题。从极端强盗反馈中学习在推荐系统中无处不在，其中在一天内对由数百万个选择组成的集合做出数十亿个决策，产生大量观察数据。

在这些大规模的现实世界应用中，尽管由于老虎机反馈和监督标签之间的不匹配而导致显着的偏差，但诸如极限多标签分类 (XMC) 之类的监督学习框架被广泛使用。这种偏差可以通过重要性采样技术来减轻，但这些技术在处理大量动作时会出现不切实际的差异。

在本文中，我们引入了一种选择性重要性采样估计器 (sIS)，它在一个明显更有利的偏差方差机制中运行。sIS 估计器是通过对每个实例的一小部分动作（Rao-Blackwellization 的一种形式）对奖励的条件期望进行重要性采样来获得的。

我们在一个新的算法程序中使用这个估计器——称为极端模型的策略优化 (POXM)——从强盗对 XMC 任务的反馈中学习。在 POXM 中，sIS 估计器选择的动作是日志策略的 top-p 动作，其中 p 是根据数据调整的，并且明显小于动作空间的大小。

我们在三个 XMC 数据集上使用监督到强盗的转换来对我们的 POXM 方法与三种竞争方法进行基准测试：BanditNet、以前应用的部分匹配修剪策略和监督学习基线。虽然 BanditNet 有时比日志记录策略略有改进，但我们的实验表明，POXM 在所有基线上都有系统且显着的改进。

文献地址：https://arxiv.org/pdf/2009.12947.pdf
Self-Attention Attribution: Interpreting Information Interactions Inside Transformer
TL; DR：北航及微软研究院的工作。Self-Attention Attribution - 解读transformer内部的信息交互

摘要：基于 Transformer 的模型的巨大成功得益于强大的多头自注意力机制，该机制从输入中学习令牌依赖性并编码上下文信息。先前的工作努力将模型决策归因于具有不同显着性度量的单个输入特征，但他们未能解释这些输入特征如何相互作用以达到预测。

在本文中，我们提出了一种自注意力归因算法来解释 Transformer 内部的信息交互。我们以BERT为例进行广泛的研究。首先，我们提取每一层中最显着的依赖关系来构建一个归因图，它揭示了 Transformer 内部的分层交互。此外，我们应用 selfattention 归因来识别重要的注意力头，而其他注意力头只能在边缘性能下降的情况下进行修剪。

最后，我们表明归因结果可以用作对抗性模式来实施对 BERT 的非针对性攻击。

文献地址：https://arxiv.org/pdf/2004.11207.pdf

Dual-Mandate Patrols: Multi-Armed Bandits for Green Security

TL;DR：哈佛大学、卡内基梅隆大学的工作。双重任务巡逻：绿色安全的多臂强盗

摘要：在绿色安全领域保护野生动物和森林的保护工作受到防御者（即巡逻者）的有限可用性的限制，他们必须巡逻大片区域以防止攻击者（例如偷猎者或非法伐木者）。防御者必须选择在保护区的每个区域花费多少时间，平衡不常访问区域的探索和已知热点的开发。

我们将问题表述为随机多臂老虎机，其中每个动作代表一个巡逻策略，使我们能够保证巡逻策略的收敛速度。然而，幼稚的老虎机方法会为了长期最优而损害短期性能，导致动物被偷猎和森林被毁。

为了加快性能，我们利用奖励函数的平滑性和动作的可分解性。我们展示了 Lipschitz 连续性和分解之间的协同作用，因为每个都有助于另一个的收敛。通过这样做，我们弥合了组合老虎机和 Lipschitz 老虎机之间的差距，提出了一种无悔方法，可以在优化短期性能的同时收紧现有保证。

我们证明了我们的算法 LIZARD 提高了柬埔寨真实世界偷猎数据的性能。文献地址：https://arxiv.org/pdf/2009.06560.pdf

AAAI 2021 杰出论文奖（Distinguished papers）

IQ – Incremental Learning for Solving QSAT摘要：事实证明，基于反例指导抽象优化（CEGAR）方法的量化可满足性（QSAT）问题的求解器具有很高的竞争力。最近，求解器QFUN证明了在这种情况下可以成功利用机器学习。QFUN周期地使用决策树学习器，从QSAT的博弈论公式中学习动作和反动作，从而推断出在CEGAR框架内添加到部分扩展的QSAT公式中的策略。我们提出了IQ，它是一种新的QSAT求解器，它进一步发展了这一思想。IQ用增量学习（incremental learning）决策列表代替了决策树的批量学习。但是，它的关键创新在于如何利用它们。IQ跟踪这些增量学习器在每个增量上的表现，通过它们在预测已知反向运动方面的成功程度来衡量。这样，就可以在合并策略之前就何时学会了好的策略做出明智的决策。

通过这种方式，它避免了将资源投入到批量学习步骤，而这些步骤事先无法得知学习器是否会产生好的策略。因此，它避免使用资源来推论无效策略，以及避免将无效策略添加到扩展中所带来的问题。通过对IQ进行评估，发现它的性能明显优于QFUN和QuAbS

文献地址：https://www.aaai.org/AAAI21Papers/AAAI-7047.LeeT.pdf

Self-supervised Multi-view Stereo via Effective Co-Segmentation and Data-Augmentation

摘要：最近的研究表明，基于视图合成的自监督方法在多视图立体（MVS）上取得了明显的进展。但是，现有方法依赖于以下假设：不同视图之间的对应点共享相同的颜色，这在实践中可能并不总是正确的。这可能导致不可靠的自监督信号并损害最终的重建性能。

为了解决这个问题，我们提出了一个框架，在语义共分割（co-segmentation）和数据增强的指导下，集成了更可靠的监督。特别是，我们从多视图图像中挖掘出相互语义，以指导语义一致性。并且我们设计了有效的数据增强机制，通过将常规样本的预测视为伪ground truth来确保变换样本的正则化，从而确保变换的鲁棒性。在DTU数据集上的实验

结果表明，我们提出的方法在无监督方法中达到了SOTA，甚至可以与有监督方法相媲美。此外，在Tanks＆Temples数据集上的大量实验证明了该方法的有效泛化能力。

文献地址：https://www.aaai.org/AAAI21Papers/AAAI-2549.XuH.pdf

Ethically Compliant Sequential Decision Making
摘要：考虑到自动化系统在影响社会的领域中的加速部署，使自动化系统符合道德规范至关重要。尽管许多道德规范已经在道德哲学中进行了广泛的研究，但是对于构建自动化系统的开发人员来说，实施仍然具有挑战性。

本文提出了一种新颖的方法来构建符合道德规范的自动化系统，该系统在遵循道德框架的同时优化完成任务。首先，我们引入符合道德规范的自动化系统及其属性的定义。接下来，我们为神的命令理论（一种元伦理理论）、表面行为和美德伦理学提供了一系列伦理学框架。

最后，我们在一组自动驾驶模拟以及对规划和机器人专家的用户研究中证明了我们的方法的准确性和可用性。

文献地址：https://www.aaai.org/AAAI21Papers/AAAI-3534.SvegliatoJ.pdf

On the Tractability of SHAP Explanations
摘要：SHAP解释是可解释AI的流行特征分配机制。它们使用博弈论的概念来衡量各个特征对机器学习模型预测的影响。尽管最近在学术界和工业界都引起了很多关注，但尚不清楚是否可以有效地计算常见机器学习模型的SHAP解释。

在本文中，我们建立了在三个重要设置中计算SHAP解释的复杂性。

首先，我们考虑完全因子化（fully-factorized）的数据分布，并表明计算SHAP解释的复杂性与计算模型期望值的复杂性相同。此完全因子化的设置通常用于简化SHAP计算，但是我们的结果表明，对于常用模型（如逻辑回归）而言，该计算可能难以处理。

除了完全因子化的分布外，我们还表明，对于非常简单的设置，计算SHAP解释已经很棘手：在朴素贝叶斯分布上计算朴素分类器的SHAP解释。
最后，我们证明即使在经验分布上计算SHAP也是＃P-hard。文献地址：https://arxiv.org/abs/2009.08634
Expected Eligibility Traces

摘要：如何确定哪些状态和行为对某个结果负责的问题被称为信念分配问题，并且仍然是强化学习和人工智能中的核心研究问题。

资格迹（Eligibility traces）可将信念分配有效地分配给智能体最近经历的状态和操作序列，但不会分配给可能导致当前状态的反事实序列。

在这项工作中，我们引入了预期的资格迹。预期的迹允许通过单次更新来更新可能早于当前状态的状态和操作，即使它们此时未这样做也是如此。我们讨论了预期的迹何时在时序差分学习（temporal-difference learning）中优于经典（瞬时）迹，并且证明有时可以实现显著的改进。

我们提出了一种通过类似于自举的机制在瞬时迹和预期迹之间平滑内插的方法，该方法可确保生成的算法是时序差分函数的严格泛化。最后，我们讨论可能的扩展和与相关概念（例如后继特征）的联系。

文献地址：https://www.aaai.org/AAAI21Papers/AAAI-10339.vanHasseltHP.pdf

Polynomial-Time Algorithms for Counting and Sampling Markov Equivalent DAGs摘要：马尔可夫等效类的有向无环图的计数和采样是图因果分析中的基本任务。在本文中，我们证明了这些任务可以在多项式时间内完成，从而解决了该领域长期存在的开放性问题。我们的算法有效且易于实施。实验结果表明，该算法明显优于目前的SOTA方法。

文献地址：https://www.aaai.org/AAAI21Papers/AAAI-4640.WienoebstM.pdf

CVPR 2021 最佳论文奖

GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields
TL;DR：德国马克斯 · 普朗克智能系统研究所等提出 GIRAFFE，可在不影响背景或其他目标的情况下移动图像中的目标。该研究的关键假设是将组合 3D 场景表征结合到生成模型中，以生成更加可控的图像合成

这篇获奖论文工作的一项关键性假设是在生成模型中加入组合式三维场景表征，以使图像合成更加可控。将场景表示为组合生成性神经特征场，使我们能够将一个或多个物体从背景中分离出来，并在不需要额外监督的情况下，从非结构化和未处理的图像集中学习单个物体的形状和外观。

深度生成模型允许以高分辨率进行高真实感图像合成。但对于许多应用程序来说，这还不够：内容创建还需要可控。虽然近来一些工作研究了如何解开数据中变化的潜在因素，但其中大多数是在 2D 场景下运行的，而忽略了现实世界是 3D 的。此外，只有少数研究考虑了场景的构图性质。

通过将场景表征为组合的生成神经特征场，该研究能够从背景中分离出一个或多个目标以及单个目标的形状和外观，同时从非结构化和未定位的图像集合中学习，而无需任何额外的监督。该研究通过将场景表征与神经渲染 pipeline 相结合，得到了快速且逼真的图像合成模型。实验表明，该模型能够分离出单个目标，并允许在场景中平移和旋转它们以及改变相机位姿。

AAAI,ICML,CVPR,NeurIPS...31篇国际七大AI顶会2021年度Best Papers 一文回顾（1）

AAAI,ICML,CVPR,NeurIPS...31篇国际七大AI顶会2021年度Best Papers 一文回顾

AAAI 2021 最佳论文奖（Best papers）

AAAI 2021 最佳论文提名奖（Best Paper Runners Up）

AAAI 2021 杰出论文奖（Distinguished papers）

CVPR 2021 最佳论文奖

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

AAAI,ICML,CVPR,NeurIPS...31篇国际七大AI顶会2021年度Best Papers 一文回顾（1）

AAAI,ICML,CVPR,NeurIPS...31篇国际七大AI顶会2021年度Best Papers 一文回顾

AAAI 2021 最佳论文奖（Best papers）

AAAI 2021 最佳论文提名奖（Best Paper Runners Up）

AAAI 2021 杰出论文奖（Distinguished papers）

CVPR 2021 最佳论文奖

热门文章

最新文章

相关课程

相关电子书

相关实验场景