论文赏析【EMNLP19】语言模型效果不好？也许你可以给它添加一点句法信息-阿里云开发者社区

论文赏析【EMNLP19】语言模型效果不好？也许你可以给它添加一点句法信息

2022-06-24 164

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文介绍了如何将一个句法分析器融入到神经网络语言模型中，这样在利用了句法信息增强语言模型效果的同时，还可以去掉句法上的监督信号，用来无监督地生成句法树。

论文地址

PaLM: A Hybrid Parser and Language Model^[1]

介绍

本文介绍了如何将一个句法分析器融入到神经网络语言模型中，这样在利用了句法信息增强语言模型效果的同时，还可以去掉句法上的监督信号，用来无监督地生成句法树。

其实将句法信息加入到语言模型中地思想之前就有了，比如PRPN（Shen et al.^[2]）和ON-LSTM（Shen et al.^[3]）。而本文提出了一种新的融入句法信息的方法，相比于之前的两个模型，主要有如下优点：

更加符合直觉、更加轻巧，不需要很复杂的解码算法。
在LSTM中加入的attention信息可以用句法信息来监督，可解释性更强，可以和语言模型联合训练。
如果没有句法信息监督也不要紧，模型可以无监督预测出句法树。

模型

span attention

注意上面向量都省略了前向箭头！

下面就是计算所有 span 表示的算法伪代码：

下图就是一个简单的例子：

实验

这是一篇短文，所以实验就很简单了。

首先是PTB上的语言模型困惑度：

然后是WikiText2上的语言模型困惑度：

两个实验都可以看出加了句法树监督的语言模型效果更好，而无监督隐式的语言模型效果也还可以。注意这里的AWD-LSTM指的是之前提出的一种LSTM变体（Merity et al.^[5]）。看得出来这些模型参数量其实没多大差别，而如果句法信息乱加监督（比如用右二叉树），效果反而会变差。

接着是无监督句法分析的效果：

可以发现效果还是很差的，只比随机的二叉树好了那么一丢丢。比之前的 PRPN 差许多，和 DIROA 相比就更不用谈了（Drozdov et al.^[6]）。这也说明了对语言模型有用的句法信息可能并不符合 PTB 句法树结构。

最后还分析了左结合多还是右结合多：

可以看出，基本全部都是右结合，也就是attention基本都聚焦在了 span 的最左边的单词。具体原因作者也不知道，留着未来探索。

后记

其实这篇短文和我 ACL 的工作挺像的，着实让我惊了一身冷汗（希望 ACL 能中，加油！）。

不过这篇还是有些小瑕疵的，比如最大考虑长度，这个值在语言模型的训练时用到了，但是分析无监督句法树的时候就去掉限制了，其实会影响无监督句法分析性能的。不过也不要紧，毕竟本文任务不是做句法分析。

再比如算 attention 是要对所有分数做归一化的，但是句法分析又采用了没有归一化的得分来解码，原因是因为一个右边界对应着多个左边界，所以不能用 attention 解码。但其实这个 attention 在做有监督句法信息的时候， gold 的就不是归一化的，也就是非 one-hot 的。总之这里做的挺粗糙的，也没有设计的很优雅。

参考资料

[1]

PaLM: A Hybrid Parser and Language Model: http://arxiv.org/abs/1909.02134

[2]

Neural Language Modeling by Jointly Learning Syntax and Lexicon: http://arxiv.org/abs/1711.02013

[3]

Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks: http://arxiv.org/abs/1810.09536

[4]

Rational Recurrences: https://arxiv.org/abs/1808.09357

[5]

Regularizing and Optimizing LSTM Language Models: https://arxiv.org/abs/1708.02182

[6]

Unsupervised Latent Tree Induction with Deep Inside-Outside Recursive Autoencoders: http://arxiv.org/abs/1904.02142

作者简介：godweiyang，知乎同名，华东师范大学计算机系硕士在读，方向自然语言处理与深度学习。喜欢与人分享技术与知识，期待与你的进一步交流~

论文赏析【EMNLP19】语言模型效果不好？也许你可以给它添加一点句法信息

论文地址

介绍

模型

span attention

实验

后记

参考资料

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

论文赏析【EMNLP19】语言模型效果不好？也许你可以给它添加一点句法信息

论文地址

介绍

模型

span attention

实验

后记

参考资料

热门文章

最新文章

相关课程

相关电子书

相关实验场景