论文赏析[EMNLP19]如何在Transformer中融入句法树信息?这里给出了一种解决方案(一)

简介: 之前其实有很多工作将句法信息融入到了RNN中,例如ON-LSTM和PRPN,用来隐式建模句法结构信息,同时提升语言模型的准确率。本文尝试将句法信息融入到Transformer中,用来赋予attention更好的解释性。同时可以无监督的预测出句子的句法树,并且相比于一般的Transformer,语言模型的性能有所提高。

论文地址:

https://www.aclweb.org/anthology/D19-1098.pdf

介绍

之前其实有很多工作将句法信息融入到了RNN中,例如ON-LSTM和PRPN,用来隐式建模句法结构信息,同时提升语言模型的准确率。本文尝试将句法信息融入到Transformer中,用来赋予attention更好的解释性。同时可以无监督的预测出句子的句法树,并且相比于一般的Transformer,语言模型的性能有所提高。

模型结构


image.png

上面这张是模型结构,最主要的区别就是在multi-head attention操作基础上新增了一个成分的attention,用来表示一段span能否构成一个短语。比如上图中,“cute dog”构成一个短语,所以第0层中这两个单词的attention较大。而“the cute dog”构成了一个更大的短语,所以第1层中“the”和“dog”的attention较大。

回顾self-attention的操作,主要是计算两个单词的向量点积:

image.png

这里image.png 。但是在本文中,新增加了一个成分先验 C ,其中 image.png 表示 image.pngimage.png 在一个短语内的概率。然后与原来的self-attention做元素乘即可:

image.png

注意不同的head之间共享 C 。

那么这个成分先验 C 怎么算呢?这里把它拆成若干相邻单词在同一短语内概率的乘积。也就是定义image.png 在同一短语内的概率,那么 image.png 就可以表示为:

image.png

这样只有 image.png 中所有单词都有较大概率在同一短语中, image.png 取值才比较大。当然在实现中会取对数,来避免数值太小。

那么问题又来了, a 怎么算?首先类似self-attention,计算相邻两个单词属于同一短语的得分:

image.png

注意这里区分了方向,也就是还存在得分 image.png ,并且两者虽然意义是一样的,但是分数不一定相同。为了防止出现一种问题,也就是所有得分全部相同,然后算出来概率全是1,那就没有意义了,所以要给得分加上限制,也就是归一化。这里选择归一化一个单词和左右邻居两者的得分:

image.png

然后由于 image.png 值不一样,所以取平均:

image.png

这样的话,如果两个相邻单词互相之间连接的概率很大,就会导致 image.png 很大,也就说明了这两个单词大概率属于同一个短语。

从第一张模型图中可以看到,成分attention不只计算了一层。低层可以用来表示两两相邻单词之间属于同一短语的概率,而高层可以表示属于更大的短语的概率。注意还得满足一个性质,也就是如果两个单词在低层大概率属于同一个短语,那他们高层肯定更大概率属于一个更大的短语。所以计算方式如下:

image.png

初始化的时候 image.png 都设为0。这样对于每一层都可以得到一个成分先验 image.png

无监督句法分析


image.pngimage.png

相关文章
|
2月前
|
机器学习/深度学习 人工智能
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念对齐人类
【10月更文挑战第18天】这篇论文提出了一种名为AligNet的框架,旨在通过将人类知识注入神经网络来解决其与人类认知的不匹配问题。AligNet通过训练教师模型模仿人类判断,并将人类化的结构和知识转移至预训练的视觉模型中,从而提高模型在多种任务上的泛化能力和稳健性。实验结果表明,人类对齐的模型在相似性任务和出分布情况下表现更佳。
68 3
|
4月前
|
机器学习/深度学习 算法 网络架构
神经网络架构殊途同归?ICML 2024论文:模型不同,但学习内容相同
【8月更文挑战第3天】《神经语言模型的缩放定律》由OpenAI研究人员完成并在ICML 2024发表。研究揭示了模型性能与大小、数据集及计算资源间的幂律关系,表明增大任一资源均可预测地提升性能。此外,论文指出模型宽度与深度对性能影响较小,较大模型在更多数据上训练能更好泛化,且能高效利用计算资源。研究提供了训练策略建议,对于神经语言模型优化意义重大,但也存在局限性,需进一步探索。论文链接:[https://arxiv.org/abs/2001.08361]。
52 1
|
7月前
|
机器学习/深度学习 计算机视觉
【论文速递】MMM2020 - 电子科技大学提出一种新颖的局部变换模块提升小样本分割泛化性能
【论文速递】MMM2020 - 电子科技大学提出一种新颖的局部变换模块提升小样本分割泛化性能
44 0
|
机器学习/深度学习 自然语言处理 算法
论文赏析【EMNLP19】语言模型效果不好?也许你可以给它添加一点句法信息
论文赏析【EMNLP19】语言模型效果不好?也许你可以给它添加一点句法信息
101 0
|
机器学习/深度学习 文件存储 计算机视觉
CVPR 2022 Oral | 腾讯优图&厦门大学提出无需训练的ViT结构搜索算法
CVPR 2022 Oral | 腾讯优图&厦门大学提出无需训练的ViT结构搜索算法
129 0
|
存储
一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,实现SOTA
一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,实现SOTA
125 0
|
机器学习/深度学习 自然语言处理 算法
论文赏析[EMNLP19]如何在Transformer中融入句法树信息?这里给出了一种解决方案(二)
之前其实有很多工作将句法信息融入到了RNN中,例如ON-LSTM和PRPN,用来隐式建模句法结构信息,同时提升语言模型的准确率。本文尝试将句法信息融入到Transformer中,用来赋予attention更好的解释性。同时可以无监督的预测出句子的句法树,并且相比于一般的Transformer,语言模型的性能有所提高。
276 0
论文赏析[EMNLP19]如何在Transformer中融入句法树信息?这里给出了一种解决方案(二)
|
机器学习/深度学习 自然语言处理
|
自然语言处理
|
机器学习/深度学习
论文赏析[AAAI18]面向序列建模的元多任务学习(一)
多任务学习一般的模型是共享特征表示层,也就是最底层的特征表示层是共享的,上层的神经网络都是随具体任务而不同的。但是这有个问题,比如用LSTM对句子进行建模的时候,不同的短语的组合函数是一样的,比如动词+名词、形容词+名词。但是组合函数应该定义成不同的比较好,于是这篇文章提出了针对不同的任务,不同的时刻产生不同的参数矩阵的动态参数生成方法。
520 0
论文赏析[AAAI18]面向序列建模的元多任务学习(一)