论文赏析[EMNLP18]针对自顶向下和中序移进归约成分句法分析的Dynamic Oracles(一)

简介: 本文是发表在EMNLP18上的一篇关于Dynamic Oracle的论文,主要介绍了针对自顶向下和中序两种移进归约成分句法分析模型的Dynamic Oracles。在PTB数据集上,取得了单模型最高的F1值92.0(截至论文发稿时是最高的,张岳TACL18的论文已经取得了92.4的最高F1值)。

介绍


Dynamic Oracle是用在转移系统中,防止错误传播的一种手段。而转移系统主要有分为三种:bottom-up、top-down和in-order的转移系统。

其中bottom-up转移系统的Dynamic Oracle在

Span-Based Constituency Parsing with a Structure-Label System and Provably Optimal Dynamic Oraclesaclweb.org

中有很详细的证明,也可以参看我之前的博客

Deep Understanding of Dynamic Oracle in Constituent Parsinggodweiyang.com

而本文就提出了另外两种转移系统的Dynamic Oracle,其中top-down转移系统主要基于

Recurrent Neural Network Grammarsaclweb.org


in-order转移系统主要基于

In-Order Transition-based Constituent Parsingaclweb.org

基础知识


形式化定义

bottom-up的转移系统这里就不讨论了,这里主要讨论另外两种转移系统。转移系统的状态用五元组 image.png 表示,五元组内元素分别表示stack、buffer第一个单词的下标、in-order转移系统中结束标记、已经生成的短语成分集合、stack中非终结符集合。

每个短语成分用三元组 image.png 表示,其中X是非终结符,l和r是短语的边界下标。而非终结符用二元组 image.png 表示,其中j表示X入栈后下一个入栈的单词的下标。

image.png

例如对于上图中的句法树,它的gold短语成分集合是

image.png

如果采用top-down的转移系统,非终结符入栈的顺序为

image.png

如果采用in-order的转移系统,非终结符入栈的顺序为

image.png

正如之前所说,top-down中非终结符的下标就是短语的第一个单词的下标,但是in-order不是的,因为短语的第一个子结点已经在非终结符入栈之前形成了,所以它的下标是第二个子结点表示的短语的第一个单词的下标。

之前的top-down和in-order转移系统中并没有用到预测的短语集合 image.png 和stack里的非终结符集合 image.png ,但是在本文的转移系统中需要用到,因为本文要用它来改进loss函数,以此来实现Dynamic Oracle。

top-down转移系统

image.png

image.png

image.png上面两张图分别是top-down转移系统的转移过程和具体的转移示例。注意到REDUCE动作会将新的短语加入到 image.png 集合中,并且从非终结符集合 image.png 中删去该非终结符。而NT-X动作会将新的非终结符X加入到非终结符集合 image.png 中。

in-order转移系统

image.pngimage.png

上面两张图分别是in-order转移系统的转移过程和具体的转移示例,大致细节和top-down转移系统类似。

相关文章
|
8月前
没有给出二分图两个左右点集时的二分图最大匹配
没有给出二分图两个左右点集时的二分图最大匹配
36 0
|
算法
二分图的匈牙利算法(用于解决最大匹配问题)--以杭电过山车题为例
二分图的匈牙利算法(用于解决最大匹配问题)--以杭电过山车题为例
121 0
|
机器学习/深度学习 人工智能 运维
NeurIPS 2022 Oral | 基于最优子集的神经集合函数学习方法EquiVSet
NeurIPS 2022 Oral | 基于最优子集的神经集合函数学习方法EquiVSet
104 0
|
算法
【算法竞赛进阶指南】車的放置(行列模型二分图最大匹配+匈牙利算法)
【算法竞赛进阶指南】車的放置(行列模型二分图最大匹配+匈牙利算法)
100 0
|
机器学习/深度学习 Oracle 算法
论文赏析[TACL17]基于中序转移的成分句法分析(二)
论文地址:In-Order Transition-based Constituent Parsing 代码地址:github 今天要介绍的这篇论文是成分句法分析领域目前的第三名,结果最高的几篇paper可以参见ruder在github整理的列表:github。下面就是成分句法分析目前排名:
138 0
论文赏析[TACL17]基于中序转移的成分句法分析(二)
|
算法
论文赏析[TACL17]基于中序转移的成分句法分析(一)
论文地址:In-Order Transition-based Constituent Parsing 代码地址:github 今天要介绍的这篇论文是成分句法分析领域目前的第三名,结果最高的几篇paper可以参见ruder在github整理的列表:github。下面就是成分句法分析目前排名:
114 0
论文赏析[TACL17]基于中序转移的成分句法分析(一)
|
机器学习/深度学习
论文赏析[EMNLP18]用序列标注来进行成分句法分析(一)
本文定义了一种新的树的序列化方法,将树结构预测问题转化为了序列预测问题。该序列用相邻两个结点的公共祖先(CA)数量和最近公共祖先(LCA)的label来表示一棵树,并且证明了这个树到序列的映射是单射但不是满射的,但是提出了一系列方法来解决这个问题。
176 0
论文赏析[EMNLP18]用序列标注来进行成分句法分析(一)
论文赏析[EMNLP18]用序列标注来进行成分句法分析(二)
本文定义了一种新的树的序列化方法,将树结构预测问题转化为了序列预测问题。该序列用相邻两个结点的公共祖先(CA)数量和最近公共祖先(LCA)的label来表示一棵树,并且证明了这个树到序列的映射是单射但不是满射的,但是提出了一系列方法来解决这个问题。
138 0
论文赏析[EMNLP18]用序列标注来进行成分句法分析(二)
|
机器学习/深度学习 自然语言处理
论文赏析[ACL18]直接到树:基于神经句法距离的成分句法分析(二)
今天要讲的这篇论文发表在ACL18上面,一句话概括,本文就是将句法树序列化,通过预测序列进行句法分析。
121 0
论文赏析[ACL18]直接到树:基于神经句法距离的成分句法分析(二)
|
自然语言处理 并行计算 算法
论文赏析[ACL18]直接到树:基于神经句法距离的成分句法分析(一)
今天要讲的这篇论文发表在ACL18上面,一句话概括,本文就是将句法树序列化,通过预测序列进行句法分析。
161 0
论文赏析[ACL18]直接到树:基于神经句法距离的成分句法分析(一)

热门文章

最新文章