共有 5 篇论文获得 NAACL 2022 论文奖项,包括最佳新任务和新资源论文、最高效 NLP 论文、最佳新任务论文、最佳新方法论文和以人为中心的 NLP 专题最佳论文。
NAACL 会议是 ACL 的的北美分会,每年举办一次,也是 NLP 领域备受关注的顶会之一。NAACL 主要涉及对话、信息抽取、信息检索、语言生成、机器翻译、多模态、统计机器学习等多个方面。
今年共有 5 篇论文获得 NAACL 论文奖项,包括最佳新任务和新资源论文、最高效 NLP 论文、最佳新任务论文、最佳新方法论文和以人为中心的 NLP 专题最佳论文,另外还有 3 篇论文获得荣誉提名。
最佳新任务和新资源论文
- 论文:Automatic Correction of Human Translations
- 作者:Jessy Lin、Geza Kovacs、Aditya Shastry、Joern Wuebker, John DeNero
- 机构:UC 伯克利、 Lilt 公司
- 论文地址:https://arxiv.org/abs/2206.08593
获奖理由:这篇论文引入了一个新的语料库,提出一种新任务——人工翻译自动更正及其解决方法。该研究表明这项任务与经过深入研究的书面错误更正和 MT 输出更正任务不同。为这项任务开发系统需要一个新的语料库,该语料库是与一家大型人工翻译服务公司密切合作精心收集的,对新开发系统的评估包括了一项深入的可用性研究。
最高效 NLP 论文
- 论文:FNet: Mixing Tokens with Fourier Transforms
- 作者:James Lee-Thorp、Joshua Ainslie、Ilya Eckstein、Santiago Ontanon
- 机构:Google Research
- 论文地址:https://arxiv.org/abs/2105.03824
获奖理由:自推出以来,Transformer 一直是语言建模多项进展的基础,部分原因在于其学习的注意力权重。然而,随着参数量的增加,Transformer 模型需要更多的算力来训练。本文用混合输入 token 的未参数化傅里叶变换替换了 transformer 架构中的自注意力层。与类似的 Transformer 模型相比,替换之后的模型在 GPU 上的训练速度提高了 80%,在 TPU 上的训练速度提高了 70%,同时在许多任务中的准确性都能和原模型媲美。这项创新还让模型能够处理更长的输入序列,让未来研究远程上下文成为可能。NAACL 委员会称赞了该团队对大型语言模型效率的贡献。
最佳新任务论文
- 论文:FRUIT: Faithfully Reflecting Updated Information in Text
- 作者:Robert L. Logan IV、Alexandre Tachard Passos、Sameer Singh、Ming-Wei Chang
- 机构:加州大学欧文校区、 Google Research
- 论文地址:https://arxiv.org/abs/2112.08634
获奖理由:该研究为 NLP 社区提供了一个有趣且相关的新挑战:在给定新证据的情况下更新知识库信息。随着时间的推移,许多静态存储的信息已经过时,需要更新。一种自动更新过时信息的方法在现实世界的应用程序中将受到极大欢迎。该研究提出了这项任务,并讨论了新任务带来的挑战,其中涉及对比文本证据以确定哪些片段已过时,以及生成新文本的语言生成。论文中发布了新创建的数据集,并公开了源代码,以允许其他人使用与该研究相同的设置重新创建新的数据集。
最佳新方法论文
- 论文:NeuroLogic A*esque Decoding: Constrained Text Generation with Lookahead Heuristics
- 作者:Ximing Lu、Sean Welleck、Peter West、Liwei Jiang、Jungo Kasai、Daniel Khashabi、Ronan Le Bras、Lianhui Qin、Youngjae Yu, Rowan Zellers, Noah Smith, Yejin Choi
- 机构:艾伦人工智能研究院、华盛顿大学
- 论文地址:https://arxiv.org/abs/2112.08726
获奖理由:语言生成最简单的形式是在高维空间中搜索问题。该论文通过将经典的 A* 搜索算法纳入语言生成过程,明确了这种联系。A* 算法允许启发式搜索,将未来性能的「前瞻」信号合并到 token 选择中。作者在许多任务中对所提模型进行了非常彻底的评估,包括问题生成、机器翻译和故事生成。与典型的波束搜索(beam search)方法以及原始的 NeuroLogic 算法相比,新模型显示出巨大的性能改进。
以人为中心 NLP 专题最佳论文
- 论文:User-Driven Research of Medical Note Generation Software
- 作者:Tom Knoll, Francesco Moramarco, Alex Papadopoulos Korfiatis, Rachel Young, Claudia Ruffini, Mark Perera, Christian Perstl, Ehud Reiter, Anya Belz, Aleksandar Savkov
- 机构:Babylon 、阿伯丁大学、都柏林城市大学
- 论文地址:https://arxiv.org/pdf/2205.02549.pdf
获奖理由:本文是 NLP 系统以用户为中心的设计的一个很好的例子。作者进行了涵盖整个软件生命周期的不同用户研究,这有助于研究团队对系统需求以及利益相关者形成更可靠的理解。而且,作者并没有停留在部署这一步,而是在系统部署了一段时间后跟踪了用户。通过每个用户研究收集的见解证明对于 NLP 系统的设计、开发和部署至关重要。这篇论文对打算部署 NLP 系统的 NLP 研究人员和从业者很有帮助。
荣誉提名奖
对以人为中心的 NLP 专题贡献荣誉提名
- 论文:Automatic Correction of Human Translations
- 作者:Jessy Lin, Geza Kovacs, Aditya Shastry, Joern Wuebker, John DeNero
本篇论文还获得了最佳新任务和新资源论文,如前文所介绍的。
对方法贡献荣誉提名
- 论文:A Balanced Data Approach for Evaluating Cross-Lingual Transfer: Mapping the Linguistic Blood Bank
- 作者:Dan Malkin, Tomasz Limisiewicz, Gabriel Stanovsky
- 机构:希伯来大学、查理大学
- 论文地址:https://arxiv.org/pdf/2205.04086.pdf
获奖理由:本文讨论了零样本跨语言迁移学习的一个重要但未充分探索的方面,即预训练模型的语言特征对下游微调性能的影响程度。作者提出了一个新的框架来探索这个主题,以及几个有趣的指标来描述主体(donor)和接受者(recipient)语言之间的关系。本文最具启发性的发现之一是,最常用于预训练模型的语言英语通常不是最佳选择。这一结果有可能极大地改变 NLP 研究人员处理涉及跨语言迁移学习的任务的方式。
对资源贡献荣誉提名
- 论文:NewsEdits: A Dataset of News Article Revision Histories and a Novel Document-Level Reasoning Challenge
- 作者:Alexander Spangher, Xiang Ren, Jonathan May, Nanyun Peng
- 论文地址:https://openreview.net/pdf?id=EpXKbPSsYqL
获奖理由:该论文提出了一个由英语和法语报纸组成的数据集,其修订历史跨越 15 年。他们研究了文章更新在多大程度上是可预测的,并表明该任务在实践中具有相关性。先前研究主要集中在维基百科上的文章更新,其中的更改通常是小的语法更正,而该研究表明新闻文章更新主要包含语义上的新信息。除了这个新基准之外,该研究还提供了对结果的详细分析和额外的人工评估。这一新资源可以促进对自动修改文章的研究。