论文赏析[TACL18]隐式句法树模型真的能学到句子中有意义的结构吗？(一）

2022-06-23 150

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文是一篇分析类论文，主要对近年来几种无监督句法分析模型（RL-SPINN和ST-Gumbel）进行了分析，得出了如下三个结论：在句子分类任务上，只有一种模型效果好于传统的树结构模型。这些模型随机性很大，初始化不同，结果也都差距很大。这些模型产生的句法树的平均深度比PTB数据集的平均深度浅。

介绍

最近有很多工作都是利用Tree-RNN来生成句子的隐式句法树，然后利用下游任务来提供监督，这样就不需要句法树的标注了。利用上隐式句法树的信息之后，下游任务的效果的确能变好，但是几乎没有文章分析过，为什么效果会变好？这个隐式句法树真的学的很不错吗？真的学到了语法吗？如果真的学到了语法，那这对句法和语义学研究者帮助很大。如果没有学到语法，那为什么对下游任务也有帮助呢？这是值得深思的问题。

理解任何自然语言，首先都要识别出它的句子中，哪些单词组合出的短语是有意义的。而对于下面这种句子：“I saw the man with the telescope”，就会产生两种语义。一种是“with the telescope”修饰“the man”，另一种是修饰“saw”。而直接给出这句话，是基本没有办法判断属于哪种语义的，所以还是得依赖上下文来判断。

这篇论文分析了四个问题：

隐式句法树提升下游任务性能的程度。
隐式句法树模型对于不同的随机初始化，能学到相似句法树的程度。
模型学到的语法和PTB语法相似的程度。
模型学到的语法和任何可识别的语法规则相近的程度。

模型

这篇论文主要分析了两种模型：SPINN模型及其变体，ST-Gumbel模型。

SPINN模型及其变体

SPINN模型如图1所示，其实它也是基于转移系统的，没有太大区别。唯一区别就是它提出来不是用来做句法分析的，而是用来对句子编码，来产生句子的向量表示。模型的转移系统的句法监督来自于斯坦福的PCFG Parser，所以不一定完全准确，但是对于下游任务性能提升够用了。

然后是RL-SPINN，和SPINN模型基本完全一样。最大的区别就是转移系统不是用现成的parser来提供监督了，而是用下游任务准确率作为得分来做强化学习进行优化。

还有SPINN-NC（No Connection），取消了tracking模块和composition模块的连接，也就是句法树的表示不依赖buffer里的单词了，这样SPINN模型就退化为了Tree-LSTM了，完全等价。这个变体主要用来和ST-Gumbel模型进行对比，因为ST-Gumbel也是用的Tree-LSTM作为composition模块。

最后一个变体是SPINN-PI-NT（Parsed Input, No Tracking），这个变体模型移除了Tracking模块，同时依赖它的两个模块之间的连接也移除了。这个模型的转移系统就没法预测了，只能根据现成的句法树直接转移。这个变体主要用来对比，用现成的parser和训练出来的parser影响有多大。

ST-Gumbel模型

这个模型其实就是使用Tree-RNN来计算任意相邻两个结点的得分，然后合并得分最高的两个结点，最后直到只剩一个根节点。如果是有监督学习的话，这样是可行的。但是现在是无监督，所以中间过程的两个结点的得分是没法直接加入到损失函数里的，而中间过程的决策又是离散的，没法计算梯度。所以提出了用ST Gumbel-Softmax来代替传统的softmax，这样就能估计出反向传播的梯度了，而不用强化学习方法了。

其他对比模型

第一个是单向LSTM和RNN。

第二个还是SPINN-PI-NT，但是转移序列是随机的，不是正确的。

第三个也是SPINN-PI-NT，但是转移序列对应的是最大深度的句法树和平衡二叉树。

这里对几种模型做一个说明。无句法监督的模型只有RL-SPINN和ST-Gumbel两种。单向LSTM和RNN是和句法树没有任何关系的，只用来学习句子的表示。剩下的SPINN，SPINN-NC和SPINN-PI-NT都是需要句法监督的。

数据集

采用了三个数据集，PTB，SNLI和MultiNLI，并且提前都做了二叉化。更多的实验细节就不说了，直接去看论文吧。

论文赏析[TACL18]隐式句法树模型真的能学到句子中有意义的结构吗？(一）

介绍

模型

SPINN模型及其变体

ST-Gumbel模型

其他对比模型

数据集

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

论文赏析[TACL18]隐式句法树模型真的能学到句子中有意义的结构吗？(一）

介绍

模型

SPINN模型及其变体

ST-Gumbel模型

其他对比模型

数据集

热门文章

最新文章

相关课程

相关电子书

相关实验场景