论文赏析[TACL18]隐式句法树模型真的能学到句子中有意义的结构吗?(一)

简介: 本文是一篇分析类论文,主要对近年来几种无监督句法分析模型(RL-SPINN和ST-Gumbel)进行了分析,得出了如下三个结论:在句子分类任务上,只有一种模型效果好于传统的树结构模型。这些模型随机性很大,初始化不同,结果也都差距很大。这些模型产生的句法树的平均深度比PTB数据集的平均深度浅。

介绍


最近有很多工作都是利用Tree-RNN来生成句子的隐式句法树,然后利用下游任务来提供监督,这样就不需要句法树的标注了。利用上隐式句法树的信息之后,下游任务的效果的确能变好,但是几乎没有文章分析过,为什么效果会变好?这个隐式句法树真的学的很不错吗?真的学到了语法吗?如果真的学到了语法,那这对句法和语义学研究者帮助很大。如果没有学到语法,那为什么对下游任务也有帮助呢?这是值得深思的问题。

理解任何自然语言,首先都要识别出它的句子中,哪些单词组合出的短语是有意义的。而对于下面这种句子:“I saw the man with the telescope”,就会产生两种语义。一种是“with the telescope”修饰“the man”,另一种是修饰“saw”。而直接给出这句话,是基本没有办法判断属于哪种语义的,所以还是得依赖上下文来判断。

这篇论文分析了四个问题:

  • 隐式句法树提升下游任务性能的程度。
  • 隐式句法树模型对于不同的随机初始化,能学到相似句法树的程度。
  • 模型学到的语法和PTB语法相似的程度。
  • 模型学到的语法和任何可识别的语法规则相近的程度。

模型


这篇论文主要分析了两种模型:SPINN模型及其变体,ST-Gumbel模型。

SPINN模型及其变体


image.png

SPINN模型如图1所示,其实它也是基于转移系统的,没有太大区别。唯一区别就是它提出来不是用来做句法分析的,而是用来对句子编码,来产生句子的向量表示。模型的转移系统的句法监督来自于斯坦福的PCFG Parser,所以不一定完全准确,但是对于下游任务性能提升够用了。

然后是RL-SPINN,和SPINN模型基本完全一样。最大的区别就是转移系统不是用现成的parser来提供监督了,而是用下游任务准确率作为得分来做强化学习进行优化。

还有SPINN-NC(No Connection),取消了tracking模块和composition模块的连接,也就是句法树的表示不依赖buffer里的单词了,这样SPINN模型就退化为了Tree-LSTM了,完全等价。这个变体主要用来和ST-Gumbel模型进行对比,因为ST-Gumbel也是用的Tree-LSTM作为composition模块。

最后一个变体是SPINN-PI-NT(Parsed Input, No Tracking),这个变体模型移除了Tracking模块,同时依赖它的两个模块之间的连接也移除了。这个模型的转移系统就没法预测了,只能根据现成的句法树直接转移。这个变体主要用来对比,用现成的parser和训练出来的parser影响有多大。

ST-Gumbel模型


image.png

这个模型其实就是使用Tree-RNN来计算任意相邻两个结点的得分,然后合并得分最高的两个结点,最后直到只剩一个根节点。如果是有监督学习的话,这样是可行的。但是现在是无监督,所以中间过程的两个结点的得分是没法直接加入到损失函数里的,而中间过程的决策又是离散的,没法计算梯度。所以提出了用ST Gumbel-Softmax来代替传统的softmax,这样就能估计出反向传播的梯度了,而不用强化学习方法了。

其他对比模型


第一个是单向LSTM和RNN

第二个还是SPINN-PI-NT,但是转移序列是随机的,不是正确的。

第三个也是SPINN-PI-NT,但是转移序列对应的是最大深度的句法树和平衡二叉树。

这里对几种模型做一个说明。无句法监督的模型只有RL-SPINN和ST-Gumbel两种。单向LSTM和RNN是和句法树没有任何关系的,只用来学习句子的表示。剩下的SPINN,SPINN-NC和SPINN-PI-NT都是需要句法监督的。

数据集


采用了三个数据集,PTB,SNLI和MultiNLI,并且提前都做了二叉化。更多的实验细节就不说了,直接去看论文吧。

相关文章
|
存储 自然语言处理 测试技术
【论文速递】COLING 2022 - 联合语言语义和结构嵌入用于知识图补全
补全知识三元组的任务具有广泛的下游应用。结构信息和语义信息在知识图补全中都起着重要作用。与以往依赖知识图谱的结构或语义的方法不同
254 0
|
7月前
|
编解码 算法 测试技术
【论文精读】ICLR2022 - 语言驱动的语义分割
【论文精读】ICLR2022 - 语言驱动的语义分割
|
7月前
|
机器学习/深度学习 自然语言处理 算法
【Python自然语言处理】概率上下文无关文法(PCFG)及神经网络句法分析讲解(图文解释 超详细)
【Python自然语言处理】概率上下文无关文法(PCFG)及神经网络句法分析讲解(图文解释 超详细)
218 0
|
机器学习/深度学习 编解码 自然语言处理
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(一)
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(一)
421 0
|
机器学习/深度学习 数据采集 Oracle
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(二)
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(二)
389 0
【论文写作分析】之二 《基于类别混合嵌入的电力文本层次化分类方法》
【论文写作分析】之二 《基于类别混合嵌入的电力文本层次化分类方法》
【论文写作分析】之二 《基于类别混合嵌入的电力文本层次化分类方法》
|
机器学习/深度学习 自然语言处理
论文赏析[TACL18]隐式句法树模型真的能学到句子中有意义的结构吗?(二)
本文是一篇分析类论文,主要对近年来几种无监督句法分析模型(RL-SPINN和ST-Gumbel)进行了分析,得出了如下三个结论: 在句子分类任务上,只有一种模型效果好于传统的树结构模型。 这些模型随机性很大,初始化不同,结果也都差距很大。 这些模型产生的句法树的平均深度比PTB数据集的平均深度浅。
534 0
论文赏析[TACL18]隐式句法树模型真的能学到句子中有意义的结构吗?(二)
|
自然语言处理 算法
论文赏析[NAACL19]基于DIORA的无监督隐式句法树归纳(一)
今天要分享的这篇论文来自NAACL2019,主要利用inside-outside算法推理出给定句子的句法树,不需要任何的监督,也不需要下游任务作为目标函数,只需要masked语言模型就行了。
470 0
论文赏析[NAACL19]基于DIORA的无监督隐式句法树归纳(一)
|
机器学习/深度学习 自然语言处理 算法
论文赏析[NAACL19]基于DIORA的无监督隐式句法树归纳(二)
今天要分享的这篇论文来自NAACL2019,主要利用inside-outside算法推理出给定句子的句法树,不需要任何的监督,也不需要下游任务作为目标函数,只需要masked语言模型就行了。
467 0
论文赏析[NAACL19]基于DIORA的无监督隐式句法树归纳(二)
|
机器学习/深度学习 自然语言处理
论文赏析[ACL18]一个句子向量表示究竟可以塞进多少语言性质?
本文主要探究了不同encoder在不同任务上训练得到的句子向量表示,是否蕴含了各种语言性质。
157 0
论文赏析[ACL18]一个句子向量表示究竟可以塞进多少语言性质?
下一篇
DataWorks