备案控制台

开发者社区人工智能文章正文

论文赏析[NAACL19]一个更好更快更强的序列标注成分句法分析器(一）

2022-06-21 143

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 一个更好更快更强的序列标注成分句法分析器

介绍

这篇论文主要是在之前的那篇论文

Constituent Parsing as Sequence Labelinggodweiyang.com

基础上解决了如下三个问题：

太长的短语预测错误率高。
输出空间太大导致label稀疏性。
贪心解码导致的错误传播。

本文提出的解决方法分别是：

采用融合了相对编码和绝对编码的动态编码。
将预测任务分解为多个子任务。
采用辅助任务和策略梯度。

三大问题以及解决方法

过长短语预测的高错误率

由下面这张图可以看出，当太小时，准确率就会大幅下降。这个问题主要体现在过长短语的闭合上，右括号的预测尤其困难。其实这也跟数据稀疏性有很大关系，训练集中过长短语毕竟占少数。

解决方法就是采用动态编码，如下图所示：

第一行是相对值编码，第二行是绝对值编码，之前文章都已经解释过了。第三行是结合了上面两种编码的动态编码，具体取值情况是大多数时候都还采用相对值编码，因为毕竟相对值编码空间比较小，可以适当缓解数据稀疏性。但是当满足如下两种情况的时候，就采用绝对值编码：

绝对值，也就是说CA的个数不能超过3个，这样也是为了降低数据的稀疏性。
相对值，也就是说将上图中准确率比较低的那些负数值全部用绝对值替代了，在句法树中表现为所在的子树比低两层以上。

输出空间太大导致label稀疏性

这个问题主要是由于三元组太稀疏了导致的。假设，那么这个三元组的状态空间是，可以通过将三元组分解为三个不同的子任务将复杂度降低为。最后的损失函数定义为三个子任务的损失之和：

具体实现上，可以将任务 U 的输出给任务 N 和 C 作为输入。

贪心解码导致的错误传播

这个问题在基于贪心的方法中基本都存在，也就是所谓的一步错步步错，这里主要提出了两种解决方法。

辅助任务辅助任务主要就是用来帮助主任务学习到一些不太容易学到的信息。这里才用了两个辅助任务，一个是在预测的同时再预测一个，这样就能往后多预测一步，适当的减少了贪心的影响。另一个方法就是将之前博客写到的句法距离（syntactic distances）加入到模型中一起预测：

对于不同的辅助任务，最后将他们的损失求和加到最终的损失函数中去：

策略梯度这个方法可以从全局的角度来对模型进行优化。假设模型在 t 时刻的状态为，输出标签为，那么模型选择的概率定义为策略，模型最终可以获得的奖励为，定义为句法树的F1值。

定义句法树的概率为每一步决策的概率之积：

所以模型最终就是要最大化如下的奖励：

按照梯度上升的方向更新参数，求梯度可得：

将代入可得：

其中是根据分布 p 采样出来的 n 棵句法树的奖励。

具体实现的时候有好几个小Tips。

第一个就是要将奖励减去一个baseline，这里定义为模型直接根据贪心求得的句法树的F1值：

这么做的目的就是为了让奖励有正有负，不然全部都是正数的话，因为采样不可能全部采样到，可能会导致高概率的样本概率越来越高，而没有采样到的低概率样本可能奖励非常高，却因此概率越来越低。

第二个Tip就是加入熵作为正则项：

目的就是使概率尽量不要太小，不然的话采样数不够的话就有可能造成采样不到小概率的样本。

还有就是给策略加入噪声：

目的同样是加大概率，防止概率太接近于0，当然这个可加可不加。。。

文章标签：

自然语言处理

算法码上来

目录

相关文章

楠竹11

|

2月前

|

机器学习/深度学习人工智能

类人神经网络再进一步！DeepMind最新50页论文提出AligNet框架：用层次化视觉概念对齐人类

【10月更文挑战第18天】这篇论文提出了一种名为AligNet的框架，旨在通过将人类知识注入神经网络来解决其与人类认知的不匹配问题。AligNet通过训练教师模型模仿人类判断，并将人类化的结构和知识转移至预训练的视觉模型中，从而提高模型在多种任务上的泛化能力和稳健性。实验结果表明，人类对齐的模型在相似性任务和出分布情况下表现更佳。

楠竹11

68 3 3

ShowMeAI

|

机器学习/深度学习人工智能自然语言处理

全都会！预测蛋白质标注！创建讲义！解释数学公式！最懂科学的智能NLP模型Galactica尝鲜 ⛵

本文浅试Meta开源的大型AI语言模型『Galactica』，带大家体验安装与多场景使用。Galactica被称为“最懂科学的智能NLP模型”，能够预测蛋白质标注！创建讲义！解释数学公式！全都会！

ShowMeAI

313 1 1

全都会！预测蛋白质标注！创建讲义！解释数学公式！最懂科学的智能NLP模型Galactica尝鲜 ⛵

征途黯然。

|

机器学习/深度学习算法

【论文写作分析】之五《融合类别特征扩展与N-gram子词过滤的fastText短文本分类》

【论文写作分析】之五《融合类别特征扩展与N-gram子词过滤的fastText短文本分类》

征途黯然。

75 0 0

【论文写作分析】之五《融合类别特征扩展与N-gram子词过滤的fastText短文本分类》

征途黯然。

【论文写作分析】之四《基于ALBERT-TextCNN模型的多标签医疗文本分类方法》

【论文写作分析】之四《基于ALBERT-TextCNN模型的多标签医疗文本分类方法》

征途黯然。

231 0 0

【论文写作分析】之四《基于ALBERT-TextCNN模型的多标签医疗文本分类方法》

算法码上来

|

机器学习/深度学习自然语言处理

论文赏析[NAACL19]一个更好更快更强的序列标注成分句法分析器（二）

一个更好更快更强的序列标注成分句法分析器

算法码上来

121 0 0

论文赏析[NAACL19]一个更好更快更强的序列标注成分句法分析器（二）

算法码上来

|

机器学习/深度学习自然语言处理

论文赏析[EMNLP19]如何在Transformer中融入句法树信息？这里给出了一种解决方案（一）

之前其实有很多工作将句法信息融入到了RNN中，例如ON-LSTM和PRPN，用来隐式建模句法结构信息，同时提升语言模型的准确率。本文尝试将句法信息融入到Transformer中，用来赋予attention更好的解释性。同时可以无监督的预测出句子的句法树，并且相比于一般的Transformer，语言模型的性能有所提高。

算法码上来

190 0 0

论文赏析[EMNLP19]如何在Transformer中融入句法树信息？这里给出了一种解决方案（一）

算法码上来

|

机器学习/深度学习自然语言处理算法

论文赏析[EMNLP19]如何在Transformer中融入句法树信息？这里给出了一种解决方案（二）

之前其实有很多工作将句法信息融入到了RNN中，例如ON-LSTM和PRPN，用来隐式建模句法结构信息，同时提升语言模型的准确率。本文尝试将句法信息融入到Transformer中，用来赋予attention更好的解释性。同时可以无监督的预测出句子的句法树，并且相比于一般的Transformer，语言模型的性能有所提高。

算法码上来

276 0 0

论文赏析[EMNLP19]如何在Transformer中融入句法树信息？这里给出了一种解决方案（二）

算法码上来

|

自然语言处理算法

论文赏析[NAACL19]基于DIORA的无监督隐式句法树归纳(一）

今天要分享的这篇论文来自NAACL2019，主要利用inside-outside算法推理出给定句子的句法树，不需要任何的监督，也不需要下游任务作为目标函数，只需要masked语言模型就行了。

算法码上来

464 0 0

论文赏析[NAACL19]基于DIORA的无监督隐式句法树归纳(一）

算法码上来

|

机器学习/深度学习自然语言处理算法

论文赏析[NAACL19]基于DIORA的无监督隐式句法树归纳（二）

今天要分享的这篇论文来自NAACL2019，主要利用inside-outside算法推理出给定句子的句法树，不需要任何的监督，也不需要下游任务作为目标函数，只需要masked语言模型就行了。

算法码上来

465 0 0

论文赏析[NAACL19]基于DIORA的无监督隐式句法树归纳（二）

算法码上来

论文赏析[EMNLP18]用序列标注来进行成分句法分析（二）

本文定义了一种新的树的序列化方法，将树结构预测问题转化为了序列预测问题。该序列用相邻两个结点的公共祖先（CA）数量和最近公共祖先（LCA）的label来表示一棵树，并且证明了这个树到序列的映射是单射但不是满射的，但是提出了一系列方法来解决这个问题。

算法码上来

134 0 0

论文赏析[EMNLP18]用序列标注来进行成分句法分析（二）

热门文章

最新文章

Hadoop迁移MaxCompute神器之DataX-On-Hadoop使用指南

【专栏】AI在软件测试中的应用，如自动执行测试用例、识别缺陷和优化测试设计

Java 最常见的面试题：java 中操作字符串都有哪些类？它们之间有什么区别？

大揭秘：云网流量采集方案关键点

Splay POJ3468（老题新做）

华尔街认为Twitter出售毫无悬念只是不会在今年发生

ORA-00600 [kcratr_nab_less_than_odr]

远程桌面连接的技巧

UML—对象图

记一次应用优雅下线排查经历

相关课程

更多

南瓜书《机器学习公式推导》

机器学习基础与回归算法

神经网络概览及算法详解

机器学习入门-概念原理及常用算法

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

机器学习集成学习与模型融合

相关电子书

更多

深度学习论文实现：空间变换网络-第一部分

基于神经网络的语言合成

强化学习在电商环境下的若干应用与研究

相关实验场景

更多

以客服场景意图分类为例写Prompt

如何快速训练大模型

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

函数计算部署PuLID for FLUX人像写真实现换脸效果

以电商场景为例搭建AI语义搜索应用

AI克隆声音，基于函数计算部署GPT-Sovits语音生成模型

下一篇

阿里云对象存储OSS收费标准：存储、流量和请求等多个计费项详解