论文赏析[EMNLP19]如何在Transformer中融入句法树信息？这里给出了一种解决方案（二）-阿里云开发者社区

论文赏析[EMNLP19]如何在Transformer中融入句法树信息？这里给出了一种解决方案（二）

2022-06-26 276

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 之前其实有很多工作将句法信息融入到了RNN中，例如ON-LSTM和PRPN，用来隐式建模句法结构信息，同时提升语言模型的准确率。本文尝试将句法信息融入到Transformer中，用来赋予attention更好的解释性。同时可以无监督的预测出句子的句法树，并且相比于一般的Transformer，语言模型的性能有所提高。

实验

首先是在WSJ测试集上的无监督句法分析结果：

可以看到Tree-Transformer效果还是好于之前的ON-LSTM和PRPN的，虽然比在NLI上训练的DIORA略差，但也情有可原，毕竟人家训练集大，而且是全局解码，甚至还达到了URNNG的效果。而层数选择10层是效果最好的。

然后是在WSJ10测试集上的无监督句法分析结果：

可以看到，长度很短的时候Tree-Transformer效果就甚至不如PRPN了，和ON-LSTM相比其实也半斤八两。论文并没有分析原因，甚至都没有提这个。

然后是采用不同的层做出来的无监督句法分析结果：

可以看到，最小递归到第三层的时候结果最好，而看的层数越少，也就是只看高层的，效果非常的差。只看单独一层的效果也不大行，这都说明了高层的表示更加的抽象，其实不大适宜句法信息的表示。而低层又太接近单词层面了，都是表面信息。这其实和最近的一篇解释bert中attention含义的论文结果一致，中间层的attention表示的是句法信息。

最后是语言模型的困惑度结果：

这里就只和普通的Transformer相比了，结果还是更好的。因为这里得用masked LM做目标函数，所以没法和ON-LSTM、PRPN等语言模型相比。

其他关于attention解释性等讨论详见论文，我觉得没有多大意思，attention的可解释性最近争论一直很大，强行解释没有意义。

结论

本文提出的Tree Transformer用成分先验表示两个单词属于同一个短语的概率，然后和self-attention联合决定两个单词之间的attention。并且提出了一种解码出句法树的算法，但是还存在着一些问题。

文中说尝试过用Transformer预训练Tree Transformer，这样loss下降的更低了，拟合的更好，但是解码出的句法树效果更差了。这其实是有道理的，之前见过一篇分析论文，提到了语言模型训练的好，并不一定代表着句法树学的好，这两者不能划等号。所以今后如何选择更好更合适的损失函数，值得研究。

这里面还有一些文章可以做，我总感觉本文模型的attention计算方式还是挺牵强的，特别是得分归一化那里，强行将单词左右邻居视为两种不同的角色。下一步工作我可以在上面进行改进，换一种全新的attention计算方式试试，另外损失函数上面考虑到前一篇文章提到的乱序问题，可以尝试用还原词序作为目标任务。

论文赏析[EMNLP19]如何在Transformer中融入句法树信息？这里给出了一种解决方案（二）

实验

结论

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

论文赏析[EMNLP19]如何在Transformer中融入句法树信息？这里给出了一种解决方案（二）

实验

结论

热门文章

最新文章

相关课程

相关电子书

相关实验场景