论文赏析[EMNLP19]如何在Transformer中融入句法树信息?这里给出了一种解决方案(二)

简介: 之前其实有很多工作将句法信息融入到了RNN中,例如ON-LSTM和PRPN,用来隐式建模句法结构信息,同时提升语言模型的准确率。本文尝试将句法信息融入到Transformer中,用来赋予attention更好的解释性。同时可以无监督的预测出句子的句法树,并且相比于一般的Transformer,语言模型的性能有所提高。

实验


首先是在WSJ测试集上的无监督句法分析结果:

image.png

可以看到Tree-Transformer效果还是好于之前的ON-LSTM和PRPN的,虽然比在NLI上训练的DIORA略差,但也情有可原,毕竟人家训练集大,而且是全局解码, 甚至还达到了URNNG的效果。而层数选择10层是效果最好的。

然后是在WSJ10测试集上的无监督句法分析结果:

image.png

可以看到,长度很短的时候Tree-Transformer效果就甚至不如PRPN了,和ON-LSTM相比其实也半斤八两。论文并没有分析原因,甚至都没有提这个。

然后是采用不同的层做出来的无监督句法分析结果:

image.png

可以看到,最小递归到第三层的时候结果最好,而看的层数越少,也就是只看高层的,效果非常的差。只看单独一层的效果也不大行,这都说明了高层的表示更加的抽象,其实不大适宜句法信息的表示。而低层又太接近单词层面了,都是表面信息。这其实和最近的一篇解释bert中attention含义的论文结果一致,中间层的attention表示的是句法信息。

最后是语言模型的困惑度结果:

image.png

这里就只和普通的Transformer相比了,结果还是更好的。因为这里得用masked LM做目标函数,所以没法和ON-LSTM、PRPN等语言模型相比。

其他关于attention解释性等讨论详见论文,我觉得没有多大意思,attention的可解释性最近争论一直很大,强行解释没有意义。

结论


本文提出的Tree Transformer用成分先验表示两个单词属于同一个短语的概率,然后和self-attention联合决定两个单词之间的attention。并且提出了一种解码出句法树的算法,但是还存在着一些问题。

文中说尝试过用Transformer预训练Tree Transformer,这样loss下降的更低了,拟合的更好,但是解码出的句法树效果更差了。这其实是有道理的,之前见过一篇分析论文,提到了语言模型训练的好,并不一定代表着句法树学的好,这两者不能划等号。所以今后如何选择更好更合适的损失函数,值得研究。

这里面还有一些文章可以做,我总感觉本文模型的attention计算方式还是挺牵强的,特别是得分归一化那里,强行将单词左右邻居视为两种不同的角色。下一步工作我可以在上面进行改进,换一种全新的attention计算方式试试,另外损失函数上面考虑到前一篇文章提到的乱序问题,可以尝试用还原词序作为目标任务。



相关文章
|
2月前
|
机器学习/深度学习 人工智能
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念对齐人类
【10月更文挑战第18天】这篇论文提出了一种名为AligNet的框架,旨在通过将人类知识注入神经网络来解决其与人类认知的不匹配问题。AligNet通过训练教师模型模仿人类判断,并将人类化的结构和知识转移至预训练的视觉模型中,从而提高模型在多种任务上的泛化能力和稳健性。实验结果表明,人类对齐的模型在相似性任务和出分布情况下表现更佳。
68 3
|
4月前
|
机器学习/深度学习 算法 网络架构
神经网络架构殊途同归?ICML 2024论文:模型不同,但学习内容相同
【8月更文挑战第3天】《神经语言模型的缩放定律》由OpenAI研究人员完成并在ICML 2024发表。研究揭示了模型性能与大小、数据集及计算资源间的幂律关系,表明增大任一资源均可预测地提升性能。此外,论文指出模型宽度与深度对性能影响较小,较大模型在更多数据上训练能更好泛化,且能高效利用计算资源。研究提供了训练策略建议,对于神经语言模型优化意义重大,但也存在局限性,需进一步探索。论文链接:[https://arxiv.org/abs/2001.08361]。
52 1
|
7月前
|
机器学习/深度学习 计算机视觉
【论文速递】MMM2020 - 电子科技大学提出一种新颖的局部变换模块提升小样本分割泛化性能
【论文速递】MMM2020 - 电子科技大学提出一种新颖的局部变换模块提升小样本分割泛化性能
44 0
|
机器学习/深度学习 自然语言处理 算法
论文赏析【EMNLP19】语言模型效果不好?也许你可以给它添加一点句法信息
论文赏析【EMNLP19】语言模型效果不好?也许你可以给它添加一点句法信息
101 0
|
机器学习/深度学习 文件存储 计算机视觉
CVPR 2022 Oral | 腾讯优图&厦门大学提出无需训练的ViT结构搜索算法
CVPR 2022 Oral | 腾讯优图&厦门大学提出无需训练的ViT结构搜索算法
129 0
|
存储
一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,实现SOTA
一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,实现SOTA
125 0
|
机器学习/深度学习 自然语言处理
论文赏析[EMNLP19]如何在Transformer中融入句法树信息?这里给出了一种解决方案(一)
之前其实有很多工作将句法信息融入到了RNN中,例如ON-LSTM和PRPN,用来隐式建模句法结构信息,同时提升语言模型的准确率。本文尝试将句法信息融入到Transformer中,用来赋予attention更好的解释性。同时可以无监督的预测出句子的句法树,并且相比于一般的Transformer,语言模型的性能有所提高。
190 0
论文赏析[EMNLP19]如何在Transformer中融入句法树信息?这里给出了一种解决方案(一)
|
自然语言处理
|
机器学习/深度学习 自然语言处理
|
机器学习/深度学习
论文赏析[AAAI18]面向序列建模的元多任务学习(一)
多任务学习一般的模型是共享特征表示层,也就是最底层的特征表示层是共享的,上层的神经网络都是随具体任务而不同的。但是这有个问题,比如用LSTM对句子进行建模的时候,不同的短语的组合函数是一样的,比如动词+名词、形容词+名词。但是组合函数应该定义成不同的比较好,于是这篇文章提出了针对不同的任务,不同的时刻产生不同的参数矩阵的动态参数生成方法。
520 0
论文赏析[AAAI18]面向序列建模的元多任务学习(一)