NLP顶会NAACL-HLT论文奖名单发布,BERT获最佳长论文奖

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 自然语言处理领域优秀论文巡礼
TB1K7FeQSzqK1RjSZPxXXc4tVXa.jpg

雷锋网 AI 科技评论按:将于今年 6 月在美国明尼阿波利斯市举行的自然语言处理顶会 NAACL-HLT (Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies;ACL 北美分会)今天通过官方博客发布了 NAACL-HLT 2019 的论文奖名单。会议设置了许多种不同的论文奖项,去年的来自谷歌的热门论文 BERT 获得最佳长论文奖 —— 虽然 BERT 本身并没能带来重大理论突破,但这篇论文发表之后的火热讨论、成为新的基线模型、以及出现大批基于 BERT 的改进模型都是有目共睹的。

根据 NAACL-HLT 官方博客介绍,NAACL-HLT 2019 正会部分最终投稿数为 1955 篇(已去除撤稿与评审前拒稿),相比 2018 年的 1072 篇增加 82%;其中长论文 1198 篇,短论文 757 篇。正会接收论文共 423 篇,接收率 21.6%。另外,工业界部分(Industry Track)的最终投稿数为 100 篇,相比 2018 年的 85 篇增加 17%;接收论文共 52 篇。

获奖论文列表与简介如下:

最佳主旨论文(Best Thematic Paper)

What's in a Name? Reducing Bias in Bios Without Access to Protected Attributes

姓名里含有什么?无需访问受保护的属性就可以降低个人简历中的偏倚

论文摘要:如今有越来越多的研究都在尝试提出新的方法减少机器学习系统中的偏倚。这些方法通常都需要访问种族、性别、年龄之类的应受到保护的隐私属性,然而这就带来了两大挑战,1,受到保护的属性可能是不允许访问的,或者使用这些信息是非法的;2,很多时候我们希望同时考虑多种受保护的属性产生的影响,或者属性的共同影响。这篇论文探究了职业性分类中减少偏倚的问题,作者们提出的方法可以降低预测到一个人的真正职业的概率和他们的名字的词嵌入之间的关联性。这种方法利用了社会偏见,它其实被编码在了姓名的词嵌入中;这样这种方法就不再需要访问受保护的属性。更重要的是,它仅仅需要在训练的时候访问不同的人的姓名,部署后就不再需要。作者们在线上的大规模个人简历数据集上评估了提出的方法的两种不同版本,结论是这两个版本的方法都可以同时减少人种和性别偏倚,同时还对分类器的总体正确率几乎没有影响。

论文地址:https://arxiv.org/abs/1904.05233 

最佳可解释性 NLP 论文(Best Explainable NLP Paper)

CNM: An Interpretable Complex-valued Network for Matching

CNM:一个用于匹配的可解释复数值网络

(是的这篇论文来自中国作者)

论文摘要:这篇论文的目标是通过量子物理的数学框架对人类语言进行建模。量子物理中已经有设计完善的数学方程式,这个框架借用了这些方程式,然后在单个复数向量空间中统一了不同的语言学单位,比如,把单词看作量子态的粒子,把句子看作混合系统。作者们构建了一个基于复数值的网络来实现这个框架并把它用于语义匹配。由于具有约束完善的复数值成分,这个网络可以把释义呈现为显式的物理概念。论文中提出的这个用于匹配的复数值网络(CNM)在测试的两个问答数据集上可以取得与优秀的 CNN 和 RNN 基准线模型近似的表现。

论文地址:https://arxiv.org/abs/1904.05298

最佳长论文(Best Long Paper)

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT:用于语言理解的预训练深度双向 Transformer 模型

这篇论文雷锋网(公众号:雷锋网) AI 科技评论有多篇相关报道,可见

谷歌最强 NLP 模型 BERT 解读

如期而至!谷歌开源 BERT 模型源代码

BERT fine-tune 终极实践教程

论文地址:https://arxiv.org/abs/1810.04805

最佳短论文(Best Short Paper)

Probing the Need for Visual Context in Multimodal Machine Translation

探测多模态机器翻译中对视觉内容的需求

论文摘要:目前的多模态机器翻译(MMT)研究表明,视觉模态往往不是必须的,或者带来的收益并不明显。作者们认为原因是这个任务的唯一一个可用数据集 Multi30K 中的问题都太简单、太短、重复性高,在这样的状况下,只把源文本作为内容就已经足够了。作者们认为,对于更加一般性的情况,合并使用视觉和文本信息、增加翻译的可靠性是完全可行的。在这篇论文中,作者们选择了目前最先进的 MMT 模型并探究了视觉模态的影响,他们部分削弱了模型的源文本侧,并进行了系统性研究。结果表明,给定有限的文本内容时,模型可以利用视觉输入中的信息并生成更好的翻译结果。这很好地反驳了当前的观点,认为 MMT 模型会丢掉视觉模态中的信息,原因是由于图像的特征的质量不高,或者视觉模态与模型的集成方式不好。

论文地址:https://arxiv.org/abs/1903.08678

最佳资源论文(Best Resource Paper)

CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge

CommonsenseQA:一个面向常识知识的问答挑战

论文摘要:当人类回答问题的时候,除了问题给定的文本之外,他们其实还会运用对这个世界的丰富的知识来帮助他们答题。问答任务上的近期研究主要关于的都是在给定的相关文本或者文档上答题,很少需要通用的背景知识。为了探究有先验通用知识的状况下的问答任务,作者们提出了 CommonsenseQA 数据集,这是一个用于常识问题回答的有挑战性的新数据集。为了捕捉关联性之外的更多常识,作者们借助 ConceptNet 提取了与同一个源概念有相同语义联系的多种概念;作者们也让众包工作者编写提到了源概念的多项选择问题,在这些问题里需要辨析源概念和其它的相关概念。这样的设定会让众包工作者们尝试编写有复杂语义的问题,这样的问题也就往往需要先验背景知识才能回答。通过这个过程,论文作者们共创建了超过一万两千个问题,并通过一系列传统上较强的基线模型的测试表明了这个任务的难度。目前作者们找到的最强的基线模型是基于 BERT-large 的,这个模型得到了 56% 的准确率;而人类的准确率为 89%。

论文地址:https://arxiv.org/abs/1811.00937

雷锋网 AI 科技评论报道。更多顶级学术会议报道请继续关注我们,或加入小组讨论。

目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【大语言模型-论文精读】谷歌-BERT:用于语言理解的预训练深度双向Transformers
【大语言模型-论文精读】谷歌-BERT:用于语言理解的预训练深度双向Transformers
148 1
|
4月前
|
机器学习/深度学习 存储 自然语言处理
【NLP-新闻文本分类】3 Bert模型的对抗训练
详细介绍了使用BERT模型进行新闻文本分类的过程,包括数据集预处理、使用预处理数据训练BERT语料库、加载语料库和词典后用原始数据训练BERT模型,以及模型测试。
82 1
|
4月前
|
机器学习/深度学习 自然语言处理 PyTorch
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案--6 提分方案
在讯飞英文学术论文分类挑战赛中的提分技巧和实现方法,包括数据增强、投票融合、伪标签等策略,以及加快模型训练的技巧,如混合精度训练和使用AdamW优化器等。
49 0
|
4月前
|
数据采集 机器学习/深度学习 存储
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–5 Bert 方案
在讯飞英文学术论文分类挑战赛中使用BERT模型进行文本分类的方法,包括数据预处理、模型微调技巧、长文本处理策略以及通过不同模型和数据增强技术提高准确率的过程。
46 0
|
4月前
|
机器学习/深度学习 数据采集 自然语言处理
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–4 机器学习LGB 方案
在讯飞英文学术论文分类挑战赛中使用LightGBM模型进行文本分类的方案,包括数据预处理、特征提取、模型训练及多折交叉验证等步骤,并提供了相关的代码实现。
54 0
|
4月前
|
数据采集 自然语言处理 机器学习/深度学习
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–3 TextCNN Fasttext 方案
讯飞英文学术论文分类挑战赛中使用TextCNN和FastText模型进行文本分类的方案,包括数据预处理、模型训练和对抗训练等步骤,并分享了模型调优的经验。
44 0
|
4月前
|
机器学习/深度学习 自然语言处理 数据挖掘
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案--2 数据分析
讯飞英文学术论文分类挑战赛数据集的分析,包括数据加载、缺失值检查、标签分布、文本长度统计等内容,并总结了数据的基本情况。
25 0
|
4月前
|
机器学习/深度学习 数据采集 自然语言处理
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案--1 赛后总结与分析
参与讯飞英文学术论文分类挑战赛的经验,包括使用的多种模型和技术,如TextCNN、FastText、LightGBM和BERT,以及提分策略和遇到的问题。
46 0
|
1月前
|
自然语言处理 API C++
阿里通义推出SmartVscode插件,自然语言控制VS Code,轻松开发应用,核心技术开源!
SmartVscode插件深度解析:自然语言控制VS Code的革命性工具及其开源框架App-Controller
|
2月前
|
自然语言处理 算法 Python
自然语言处理(NLP)在文本分析中的应用:从「被动收集」到「主动分析」
【10月更文挑战第9天】自然语言处理(NLP)在文本分析中的应用:从「被动收集」到「主动分析」
56 4

热门文章

最新文章