论文赏析[EMNLP19]如何在Transformer中融入句法树信息？这里给出了一种解决方案（一）-阿里云开发者社区

论文赏析[EMNLP19]如何在Transformer中融入句法树信息？这里给出了一种解决方案（一）

2022-06-26 207

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 之前其实有很多工作将句法信息融入到了RNN中，例如ON-LSTM和PRPN，用来隐式建模句法结构信息，同时提升语言模型的准确率。本文尝试将句法信息融入到Transformer中，用来赋予attention更好的解释性。同时可以无监督的预测出句子的句法树，并且相比于一般的Transformer，语言模型的性能有所提高。

论文地址：

https://www.aclweb.org/anthology/D19-1098.pdf

介绍

之前其实有很多工作将句法信息融入到了RNN中，例如ON-LSTM和PRPN，用来隐式建模句法结构信息，同时提升语言模型的准确率。本文尝试将句法信息融入到Transformer中，用来赋予attention更好的解释性。同时可以无监督的预测出句子的句法树，并且相比于一般的Transformer，语言模型的性能有所提高。

模型结构

上面这张是模型结构，最主要的区别就是在multi-head attention操作基础上新增了一个成分的attention，用来表示一段span能否构成一个短语。比如上图中，“cute dog”构成一个短语，所以第0层中这两个单词的attention较大。而“the cute dog”构成了一个更大的短语，所以第1层中“the”和“dog”的attention较大。

回顾self-attention的操作，主要是计算两个单词的向量点积：