论文赏析[TACL17]基于中序转移的成分句法分析(二)

简介: 论文地址:In-Order Transition-based Constituent Parsing代码地址:github今天要介绍的这篇论文是成分句法分析领域目前的第三名,结果最高的几篇paper可以参见ruder在github整理的列表:github。下面就是成分句法分析目前排名:

句法分析模型


对于每一个状态,模型采用三个LSTM来预测当前步动作,结构如下图所示:

image.png

一个LSTM用来对栈顶元素进行编码,一个LSTM用来对buffer中所有元素进行编码,一个LSTM用来对之前预测完毕的所有动作进行编码。

单词表示

对于每个单词,用预训练词向量、随机初始化词向量、POS向量拼接起来,然后经过一个前馈神经网络来作为最终的单词表示:

image.png

其中 image.png 表示POS为 image.png 的向量, image.png 表示单词 image.png 的预训练词向量, image.png 表示单词 image.png 的随机初始化词向量。 image.png 函数通常取ReLU。

栈里的短语表示

对于自顶向下和in-order的转移系统,由于不需要二叉化,所以采用如下图所示的LSTM来对栈里的短语进行编码:

image.png

具体的短语表示为:

image.png

其中 image.png 是父结点的向量表示,其他都是子结点的短语表示。

而作为对比实验,自底向上的转移系统因为是二叉树,所以LSTM略有不同,结构图如下所示:

image.png

唯一的区别就是不管你短语的单词顺序如何,都要把中心词也就是头结点放在前面。

贪心动作预测

上面的两个小节将buffer和栈里的元素都进行了编码,最后就要对当前状态进行动作预测了。

假设第 k 个状态为 image.png ,那么当前状态每个动作的概率为:

image.png

其中 image.png 是栈里的LSTM编码结果:

image.png

image.png 是buffer里的LSTM编码结果:

image.png

image.png是之前动作序列的LSTM编码结果:

image.png

最终的损失函数采用交叉熵:

image.png

实验

实验的超参数设置如下:

image.png

经过对比实验可以发现,结果比自底向上和自顶向下的转移系统都要略高一点,就算加上了重排序,还是略高一点。单模型的话,和2017年之前的结果相比的确是最高的,但是91.8的F1值现在看来不是特别高了,毕竟伯克利基于CKY算法的chart-parser都已经到了92多甚至93了。

详细结果如下表:

image.png

模型在依存句法分析和CTB上的表现也都很不错。

总结


本文提出了一种基于中序遍历转移系统的成分句法分析模型,主要的动机还是基于人类阅读时的直觉,该模型协调了自底向上和自顶向下转移系统的优缺点,在采用重排序之后,结果达到了非常高的水准。

当然我个人认为模型也存在一些改进的地方:

  • 单词的表示可以加上Char-LSTM。
  • 预测阶段可以采用之前文章提到的Dynamic Oracle技术,来减少预测错误的发生。详见之前的文章:地址。不过这里的Dynamic Oracle要重新设计了,设计好了说不定又可以发一篇论文了?(手动滑稽)
相关文章
|
算法
论文赏析[TACL17]基于中序转移的成分句法分析(一)
论文地址:In-Order Transition-based Constituent Parsing 代码地址:github 今天要介绍的这篇论文是成分句法分析领域目前的第三名,结果最高的几篇paper可以参见ruder在github整理的列表:github。下面就是成分句法分析目前排名:
118 0
论文赏析[TACL17]基于中序转移的成分句法分析(一)
|
自然语言处理 并行计算 算法
论文赏析[ACL18]直接到树:基于神经句法距离的成分句法分析(一)
今天要讲的这篇论文发表在ACL18上面,一句话概括,本文就是将句法树序列化,通过预测序列进行句法分析。
163 0
论文赏析[ACL18]直接到树:基于神经句法距离的成分句法分析(一)
|
机器学习/深度学习 自然语言处理
论文赏析[ACL18]直接到树:基于神经句法距离的成分句法分析(二)
今天要讲的这篇论文发表在ACL18上面,一句话概括,本文就是将句法树序列化,通过预测序列进行句法分析。
125 0
论文赏析[ACL18]直接到树:基于神经句法距离的成分句法分析(二)
|
机器学习/深度学习 自然语言处理
论文赏析[ACL18]基于RNN和动态规划的线性时间成分句法分析(一)
好像已经很久没有看论文了呢,开学了一堆事情,以后还是要抽空阅读论文,保持一定的阅读量,并且不能光看最新的论文,还得去前人传统的方法中去寻找有没有能应用于深度学习的东西,说不定就发ACL了呢(手动滑稽)。 论文地址:Linear-Time Constituency Parsing with RNNs and Dynamic Programming 代码地址:github
105 0
论文赏析[ACL18]基于RNN和动态规划的线性时间成分句法分析(一)
|
机器学习/深度学习
论文赏析[ACL18]基于RNN和动态规划的线性时间成分句法分析(二)
好像已经很久没有看论文了呢,开学了一堆事情,以后还是要抽空阅读论文,保持一定的阅读量,并且不能光看最新的论文,还得去前人传统的方法中去寻找有没有能应用于深度学习的东西,说不定就发ACL了呢(手动滑稽)。 论文地址:Linear-Time Constituency Parsing with RNNs and Dynamic Programming 代码地址:github
106 0
论文赏析[ACL18]基于RNN和动态规划的线性时间成分句法分析(二)
|
Oracle 关系型数据库
论文赏析[AI18]更快的基于非二叉化自底向上策略的转移系统成分句法分析(一)
这篇论文提出了一种非二叉化、自底向上的转移系统,并且针对它提出了一种Dynamic Oracle,用损失函数的形式来实现它。
197 0
论文赏析[AI18]更快的基于非二叉化自底向上策略的转移系统成分句法分析(一)
|
Oracle 关系型数据库
论文赏析[AI18]更快的基于非二叉化自底向上策略的转移系统成分句法分析(二)
这篇论文提出了一种非二叉化、自底向上的转移系统,并且针对它提出了一种Dynamic Oracle,用损失函数的形式来实现它。
129 0
论文赏析[AI18]更快的基于非二叉化自底向上策略的转移系统成分句法分析(二)
|
Oracle 关系型数据库
论文赏析[EMNLP18]针对自顶向下和中序移进归约成分句法分析的Dynamic Oracles(二)
本文是发表在EMNLP18上的一篇关于Dynamic Oracle的论文,主要介绍了针对自顶向下和中序两种移进归约成分句法分析模型的Dynamic Oracles。在PTB数据集上,取得了单模型最高的F1值92.0(截至论文发稿时是最高的,张岳TACL18的论文已经取得了92.4的最高F1值)。
论文赏析[EMNLP18]针对自顶向下和中序移进归约成分句法分析的Dynamic Oracles(二)
|
Oracle 关系型数据库
论文赏析[EMNLP18]针对自顶向下和中序移进归约成分句法分析的Dynamic Oracles(一)
本文是发表在EMNLP18上的一篇关于Dynamic Oracle的论文,主要介绍了针对自顶向下和中序两种移进归约成分句法分析模型的Dynamic Oracles。在PTB数据集上,取得了单模型最高的F1值92.0(截至论文发稿时是最高的,张岳TACL18的论文已经取得了92.4的最高F1值)。
213 0
论文赏析[EMNLP18]针对自顶向下和中序移进归约成分句法分析的Dynamic Oracles(一)
|
机器学习/深度学习 自然语言处理
论文赏析[TACL18]隐式句法树模型真的能学到句子中有意义的结构吗?(一)
本文是一篇分析类论文,主要对近年来几种无监督句法分析模型(RL-SPINN和ST-Gumbel)进行了分析,得出了如下三个结论: 在句子分类任务上,只有一种模型效果好于传统的树结构模型。 这些模型随机性很大,初始化不同,结果也都差距很大。 这些模型产生的句法树的平均深度比PTB数据集的平均深度浅。
151 0
论文赏析[TACL18]隐式句法树模型真的能学到句子中有意义的结构吗?(一)