论文赏析【EMNLP19】语言模型效果不好？也许你可以给它添加一点句法信息-阿里云开发者社区

论文赏析【EMNLP19】语言模型效果不好？也许你可以给它添加一点句法信息

2022-06-24 145

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文介绍了如何将一个句法分析器融入到神经网络语言模型中，这样在利用了句法信息增强语言模型效果的同时，还可以去掉句法上的监督信号，用来无监督地生成句法树。

论文地址

PaLM: A Hybrid Parser and Language Model^[1]

介绍

本文介绍了如何将一个句法分析器融入到神经网络语言模型中，这样在利用了句法信息增强语言模型效果的同时，还可以去掉句法上的监督信号，用来无监督地生成句法树。

其实将句法信息加入到语言模型中地思想之前就有了，比如PRPN（Shen et al.^[2]）和ON-LSTM（Shen et al.^[3]）。而本文提出了一种新的融入句法信息的方法，相比于之前的两个模型，主要有如下优点：

更加符合直觉、更加轻巧，不需要很复杂的解码算法。
在LSTM中加入的attention信息可以用句法信息来监督，可解释性更强，可以和语言模型联合训练。
如果没有句法信息监督也不要紧，模型可以无监督预测出句法树。

模型

span attention

注意上面向量都省略了前向箭头！

下面就是计算所有 span 表示的算法伪代码：

下图就是一个简单的例子：

实验

这是一篇短文，所以实验就很简单了。

首先是PTB上的语言模型困惑度：

然后是WikiText2上的语言模型困惑度：

两个实验都可以看出加了句法树监督的语言模型效果更好，而无监督隐式的语言模型效果也还可以。注意这里的AWD-LSTM指的是之前提出的一种LSTM变体（Merity et al.^[5]）。看得出来这些模型参数量其实没多大差别，而如果句法信息乱加监督（比如用右二叉树），效果反而会变差。

接着是无监督句法分析的效果：

可以发现效果还是很差的，只比随机的二叉树好了那么一丢丢。比之前的 PRPN 差许多，和 DIROA 相比就更不用谈了（Drozdov et al.^[6]）。这也说明了对语言模型有用的句法信息可能并不符合 PTB 句法树结构。

最后还分析了左结合多还是右结合多：

可以看出，基本全部都是右结合，也就是attention基本都聚焦在了 span 的最左边的单词。具体原因作者也不知道，留着未来探索。

后记

其实这篇短文和我 ACL 的工作挺像的，着实让我惊了一身冷汗（希望 ACL 能中，加油！）。

不过这篇还是有些小瑕疵的，比如最大考虑长度，这个值在语言模型的训练时用到了，但是分析无监督句法树的时候就去掉限制了，其实会影响无监督句法分析性能的。不过也不要紧，毕竟本文任务不是做句法分析。

再比如算 attention 是要对所有分数做归一化的，但是句法分析又采用了没有归一化的得分来解码，原因是因为一个右边界对应着多个左边界，所以不能用 attention 解码。但其实这个 attention 在做有监督句法信息的时候， gold 的就不是归一化的，也就是非 one-hot 的。总之这里做的挺粗糙的，也没有设计的很优雅。