论文赏析[EMNLP19]如何在Transformer中融入句法树信息?这里给出了一种解决方案(一)

简介: 之前其实有很多工作将句法信息融入到了RNN中,例如ON-LSTM和PRPN,用来隐式建模句法结构信息,同时提升语言模型的准确率。本文尝试将句法信息融入到Transformer中,用来赋予attention更好的解释性。同时可以无监督的预测出句子的句法树,并且相比于一般的Transformer,语言模型的性能有所提高。

论文地址:

https://www.aclweb.org/anthology/D19-1098.pdf

介绍

之前其实有很多工作将句法信息融入到了RNN中,例如ON-LSTM和PRPN,用来隐式建模句法结构信息,同时提升语言模型的准确率。本文尝试将句法信息融入到Transformer中,用来赋予attention更好的解释性。同时可以无监督的预测出句子的句法树,并且相比于一般的Transformer,语言模型的性能有所提高。

模型结构


image.png

上面这张是模型结构,最主要的区别就是在multi-head attention操作基础上新增了一个成分的attention,用来表示一段span能否构成一个短语。比如上图中,“cute dog”构成一个短语,所以第0层中这两个单词的attention较大。而“the cute dog”构成了一个更大的短语,所以第1层中“the”和“dog”的attention较大。

回顾self-attention的操作,主要是计算两个单词的向量点积:

image.png

这里image.png 。但是在本文中,新增加了一个成分先验 C ,其中 image.png 表示 image.pngimage.png 在一个短语内的概率。然后与原来的self-attention做元素乘即可:

image.png

注意不同的head之间共享 C 。

那么这个成分先验 C 怎么算呢?这里把它拆成若干相邻单词在同一短语内概率的乘积。也就是定义image.png 在同一短语内的概率,那么 image.png 就可以表示为:

image.png

这样只有 image.png 中所有单词都有较大概率在同一短语中, image.png 取值才比较大。当然在实现中会取对数,来避免数值太小。

那么问题又来了, a 怎么算?首先类似self-attention,计算相邻两个单词属于同一短语的得分:

image.png

注意这里区分了方向,也就是还存在得分 image.png ,并且两者虽然意义是一样的,但是分数不一定相同。为了防止出现一种问题,也就是所有得分全部相同,然后算出来概率全是1,那就没有意义了,所以要给得分加上限制,也就是归一化。这里选择归一化一个单词和左右邻居两者的得分:

image.png

然后由于 image.png 值不一样,所以取平均:

image.png

这样的话,如果两个相邻单词互相之间连接的概率很大,就会导致 image.png 很大,也就说明了这两个单词大概率属于同一个短语。

从第一张模型图中可以看到,成分attention不只计算了一层。低层可以用来表示两两相邻单词之间属于同一短语的概率,而高层可以表示属于更大的短语的概率。注意还得满足一个性质,也就是如果两个单词在低层大概率属于同一个短语,那他们高层肯定更大概率属于一个更大的短语。所以计算方式如下:

image.png

初始化的时候 image.png 都设为0。这样对于每一层都可以得到一个成分先验 image.png

无监督句法分析


image.pngimage.png

目录
打赏
0
0
0
0
14
分享
相关文章
神经网络架构殊途同归?ICML 2024论文:模型不同,但学习内容相同
【8月更文挑战第3天】《神经语言模型的缩放定律》由OpenAI研究人员完成并在ICML 2024发表。研究揭示了模型性能与大小、数据集及计算资源间的幂律关系,表明增大任一资源均可预测地提升性能。此外,论文指出模型宽度与深度对性能影响较小,较大模型在更多数据上训练能更好泛化,且能高效利用计算资源。研究提供了训练策略建议,对于神经语言模型优化意义重大,但也存在局限性,需进一步探索。论文链接:[https://arxiv.org/abs/2001.08361]。
86 1
ICLR 2024 Spotlight:连续数值分布式表征加持,浙大UIUC让语言模型擅长表格预测
【6月更文挑战第23天】在ICLR 2024会议上,浙大和UIUC的研究团队推出TP-BERTa,一种改进的BERT模型,专为表格预测。通过将连续数值特征转为文本并利用自注意力机制,TP-BERTa能有效处理高维、异构表格数据,提高预测性能。预训练和微调策略使其在XGBoost等传统方法及FT-Transformer等深度学习模型中脱颖而出。论文链接:[anzIzGZuLi](https://openreview.net/pdf?id=anzIzGZuLi)
174 5
【热门话题】常见分类算法解析
本文介绍了6种常见分类算法:逻辑回归、朴素贝叶斯、决策树、支持向量机、K近邻和神经网络。逻辑回归适用于线性问题,朴素贝叶斯在高维稀疏数据中有效,决策树适合规则性任务,SVM擅长小样本非线性问题,KNN对大规模数据效率低,神经网络能处理复杂任务。选择算法时需考虑数据特性、任务需求和计算资源。
147 0
论文赏析[EMNLP19]如何在Transformer中融入句法树信息?这里给出了一种解决方案(二)
之前其实有很多工作将句法信息融入到了RNN中,例如ON-LSTM和PRPN,用来隐式建模句法结构信息,同时提升语言模型的准确率。本文尝试将句法信息融入到Transformer中,用来赋予attention更好的解释性。同时可以无监督的预测出句子的句法树,并且相比于一般的Transformer,语言模型的性能有所提高。
296 0
论文赏析[EMNLP19]如何在Transformer中融入句法树信息?这里给出了一种解决方案(二)

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等