论文赏析【EMNLP19】多粒度自注意力机制(MG-SA)

简介: 论文赏析【EMNLP19】多粒度自注意力机制(MG-SA)

介绍

现在主流的机器翻译模型基本都是采用多头注意力机制来对句子进行编码解码,但是有一些研究表明,这么多 head 其实并不是都有用的,有些 head 的信息是冗余的,所以本文就想充分利用一下这些冗余的 head 。

此外,统计机器翻译的研究也表明了,对短语的翻译效果可能要好于对单个单词的翻译,所以本文将一些 head 用来建模短语(比如 2-gram 或者 3-gram)。

最后本文在两个翻译任务(WMT14 英译德和 NIST 中译英)上做了实验,效果都要好于普通的 Transformer ,但是运行速度上慢了许多。

多粒度自注意力机制(MG-SA)

整体框架

首先将单词级别的输入  映射为短语级别的表示 :

其中  是第  个 head 对应的映射函数,针对不同的短语粒度有不同的映射函数。而  是短语的个数,不同粒度个数也是不同的。

然后对于第  个 head 来说,将  分别做线性变换,得到自注意力机制的 query、key 和 value:

这样三种向量都被映射到了相同的维度: 。

接着做 self-attention 得到每个单词的输出:

最后将  个 head 输出拼接起来得到了最后的输出:

短语划分

短语划分有两种方式,一种是 n-gram ,一种是根据句法树划分。n-gram 划分方式就是将句子  等分为  个短语得到  。而句法树划分就是按照句法树的不同层次得到不同粒度的短语,如下图所示:

绿色框是第一层,有 2 个短语,粒度比较大。红色框是第二层,有 4 个短语,粒度小一点。

短语组合

每个短语  的表示可以用不同的网络来得到:

这里  函数可以用 CNN、LSTM 或者自注意力网络(SAN)。

最后所有短语的表示记为  。

短语交互

这些短语之间也像单词一样做一下上下文表示,效果可能会更好:

这里  可以选择 LSTM 或者编码结构能力好的 ON-LSTM[2]

最后如下图所示,通过短语划分短语组合短语交互,模型得到了不同粒度的各个短语表示:

损失函数

这里添加了一个辅助任务用来增强效果:短语标签预测。也就是对于  而言,在句法树中对应着  个短语标签  。然后用一个线性变换接 softmax 来预测标签的概率:

最后标签预测的损失函数就是:

最终的损失函数还得再加上机器翻译的损失:

这里的  就是机器翻译的输出单词, 在实验中设置为了 。

实验

模型是在 Transformer 基础上修改的,把四分之一的 head 还用来做单词级别的 self-attention 。对于 n-gram 划分来说,四分之三的 head 分别用来做 2-gram、3-gram 和 4-gram 短语的 self-attention 。对于句法树短语划分来说,四分之三的 head 正好对应了最高的三层短语的 self-attention 。

实验主要得出了三点结论,如果不想看细节的,可以只看结论了:

  • 融入了 MG-SA 的 Transformer 的确提高了机器翻译的 BLUE 得分。
  • MG-SA 确实可以促进目标短语的生成。
  • MG-SA 确实可以捕捉到不同粒度的短语信息。

不同短语组合策略

可以看出三种策略效果都比普通的 Transformer 好,SAN 的效果最好,所以后面实验都用 SAN 。

不同 encoder 层

MG-SA 用的层数越低效果越好,只用在最低层上效果最好(可能是因为直接和单词表示接触,对短语建模更有利),所以后面实验都只用到最低层上。

短语划分、标签监督和短语交互策略影响

这个也不用过多解释,说明了句法树划分短语比 n-gram 划分短语效果好,短语标签预测辅助任务确实有用,用 ON-LSTM 融合短语确实要更好。

输出 n-gram 性能提升

通过对翻译结果的 n-gram 的 BLEU 得分进行分析,可以看出几种 MG-SA 的变体效果都是好于普通的 Transformer 的,说明了确实可以促进目标短语的生成。

主要结果

无论是 Transformer 的 base 还是 large 版本,加上 MG-SA 之后效果都有较大提升,base 版本加上去之后效果甚至逼近了 large 版本,同时参数量并没有多太多。

attention 可视化


可以看出,普通的 Transformer(左边)每个词主要聚焦于前后一个词和句子结束标记,而 MG-SA 则大多聚焦于句子的关键词“三峡工程”和“首要任务”。

多粒度标签预测任务

做了 5 个探测任务:Voice(主动被动)、Tense(时态)、TSS(根结点下层标签序列预测)、SPC(单词的最小包含短语标签)和 POS(词性标注)。

模型就是在 MG-SA 的 encoder 上面接了一个 MLP ,然后做分类。encoder 分为两种,一种是固定参数,用 NMT 训练好的 encoder ,一种是重新训练 encoder 。

主要得到以下几点结论:

  • 重新训练 encoder 结果比直接用 NMT 的 encoder 效果提升大(除了 SPC 和 POS)。
  • 用句法树划分短语效果比 n-gram 划分短语效果好。
  • 用 NMT 的 encoder 时,只有 SPC 和 POS 效果提升大(主要这两个任务粒度小,都是单词级别的,任务很简单)。
  • 重新训练 encoder 时前三个任务有提升(因为粒度比较大,而后两个仅靠 MLP 就能学的很好了)。

结论

本文提出了一种多粒度的自注意力机制,将其加入到了 Transformer 的 encoder 中。不仅仅是机器翻译任务,其他许多任务例如阅读理解、语言推理、情感分类等都可以用上这种方法,更好的融入短语结构信息。

其实这篇和 Tree Transformer: Integrating Tree Structures into Self-Attention[3] 挺类似的,都是在 Transformer 的 self-attention 上面做了手脚,加入了一些结构上的信息,增强 encoder 的编码能力。

相关文章
|
2月前
|
机器学习/深度学习 网络架构 计算机视觉
YOLOv5改进有效涨点系列->适合多种检测场景的BiFormer注意力机制(Bi-level Routing Attention)
YOLOv5改进有效涨点系列->适合多种检测场景的BiFormer注意力机制(Bi-level Routing Attention)
105 0
|
3月前
|
机器学习/深度学习 测试技术 决策智能
【论文速递】CVPR2022 - 全局跟踪Transformers
【论文速递】CVPR2022 - 全局跟踪Transformers
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
RT-DETR原理与简介(干翻YOLO的最新目标检测项目)
RT-DETR原理与简介(干翻YOLO的最新目标检测项目)
104 1
|
2月前
|
机器学习/深度学习 算法 固态存储
MFDS-DETR开源 | HS-FPN多级特征融合+Deformable Self-Attention,再续DETR传奇
MFDS-DETR开源 | HS-FPN多级特征融合+Deformable Self-Attention,再续DETR传奇
231 0
|
2月前
|
机器学习/深度学习 网络架构 计算机视觉
YOLOv8改进有效涨点系列->适合多种检测场景的BiFormer注意力机制(Bi-level Routing Attention)
YOLOv8改进有效涨点系列->适合多种检测场景的BiFormer注意力机制(Bi-level Routing Attention)
144 0
|
3月前
|
机器学习/深度学习 存储 人工智能
NeurIPS'23 Paper Digest | PromptTPP: Prompt Pool 与时序点过程模型的持续学习
我们完成了首个把 Prompt Pool 机制首次引入时间序列领域的工作。代码、数据均已经开源,并将集成进开源库 EasyTPP。
NeurIPS'23 Paper Digest | PromptTPP: Prompt Pool 与时序点过程模型的持续学习
|
3月前
|
机器学习/深度学习 自然语言处理 算法
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
|
3月前
|
机器学习/深度学习 数据可视化 计算机视觉
【论文速递】CVPR2022 - 检测测器的局部和全局知识蒸馏
【论文速递】CVPR2022 - 检测测器的局部和全局知识蒸馏
|
3月前
|
存储 算法 自动驾驶
【论文速递】CVPR2022 - 用于语义分割的跨图像关系知识蒸馏
【论文速递】CVPR2022 - 用于语义分割的跨图像关系知识蒸馏
|
8月前
|
自然语言处理
【论文速递】ACL 2021-CasEE: 一种用于重叠事件抽取的级联解码联合学习框架
【论文原文】:A Joint Learning Framework with Cascade Decoding for Overlapping Event Extraction
58 0