论文赏析【EMNLP19】多粒度自注意力机制(MG-SA)

简介: 现在主流的机器翻译模型基本都是采用多头注意力机制来对句子进行编码解码,但是有一些研究表明,这么多 head 其实并不是都有用的,有些 head 的信息是冗余的,所以本文就想充分利用一下这些冗余的 head 。

论文地址


Multi-Granularity Self-Attention for Neural Machine Translation[1]

介绍


现在主流的机器翻译模型基本都是采用多头注意力机制来对句子进行编码解码,但是有一些研究表明,这么多 head 其实并不是都有用的,有些 head 的信息是冗余的,所以本文就想充分利用一下这些冗余的 head 。

此外,统计机器翻译的研究也表明了,对短语的翻译效果可能要好于对单个单词的翻译,所以本文将一些 head 用来建模短语(比如 2-gram 或者 3-gram)。

最后本文在两个翻译任务(WMT14 英译德和 NIST 中译英)上做了实验,效果都要好于普通的 Transformer ,但是运行速度上慢了许多。

多粒度自注意力机制(MG-SA)

整体框架



image.png

短语划分



image.pngimage.png

绿色框是第一层,有 2 个短语,粒度比较大。红色框是第二层,有 4 个短语,粒度小一点。

短语组合



image.png

短语交互



image.png

image.png

损失函数



image.png

实验


模型是在 Transformer 基础上修改的,把四分之一的 head 还用来做单词级别的 self-attention 。对于 n-gram 划分来说,四分之三的 head 分别用来做 2-gram、3-gram 和 4-gram 短语的 self-attention 。对于句法树短语划分来说,四分之三的 head 正好对应了最高的三层短语的 self-attention 。

实验主要得出了三点结论,如果不想看细节的,可以只看结论了:

  • 融入了 MG-SA 的 Transformer 的确提高了机器翻译的 BLUE 得分。
  • MG-SA 确实可以促进目标短语的生成。
  • MG-SA 确实可以捕捉到不同粒度的短语信息。

不同短语组合策略


image.png

可以看出三种策略效果都比普通的 Transformer 好,SAN 的效果最好,所以后面实验都用 SAN 。

不同 encoder 层


image.png

MG-SA 用的层数越低效果越好,只用在最低层上效果最好(可能是因为直接和单词表示接触,对短语建模更有利),所以后面实验都只用到最低层上。

短语划分、标签监督和短语交互策略影响


image.png

这个也不用过多解释,说明了句法树划分短语比 n-gram 划分短语效果好,短语标签预测辅助任务确实有用,用 ON-LSTM 融合短语确实要更好。

输出 n-gram 性能提升


image.png

通过对翻译结果的 n-gram 的 BLEU 得分进行分析,可以看出几种 MG-SA 的变体效果都是好于普通的 Transformer 的,说明了确实可以促进目标短语的生成。

主要结果


image.png

无论是 Transformer 的 base 还是 large 版本,加上 MG-SA 之后效果都有较大提升,base 版本加上去之后效果甚至逼近了 large 版本,同时参数量并没有多太多。

attention 可视化


image.png

可以看出,普通的 Transformer(左边)每个词主要聚焦于前后一个词和句子结束标记,而 MG-SA 则大多聚焦于句子的关键词“三峡工程”和“首要任务”。

多粒度标签预测任务


image.png

做了 5 个探测任务:Voice(主动被动)、Tense(时态)、TSS(根结点下层标签序列预测)、SPC(单词的最小包含短语标签)和 POS(词性标注)。

模型就是在 MG-SA 的 encoder 上面接了一个 MLP ,然后做分类。encoder 分为两种,一种是固定参数,用 NMT 训练好的 encoder ,一种是重新训练 encoder 。

主要得到以下几点结论:

  • 重新训练 encoder 结果比直接用 NMT 的 encoder 效果提升大(除了 SPC 和 POS)。
  • 用句法树划分短语效果比 n-gram 划分短语效果好。
  • 用 NMT 的 encoder 时,只有 SPC 和 POS 效果提升大(主要这两个任务粒度小,都是单词级别的,任务很简单)。
  • 重新训练 encoder 时前三个任务有提升(因为粒度比较大,而后两个仅靠 MLP 就能学的很好了)。

结论


本文提出了一种多粒度的自注意力机制,将其加入到了 Transformer 的 encoder 中。不仅仅是机器翻译任务,其他许多任务例如阅读理解、语言推理、情感分类等都可以用上这种方法,更好的融入短语结构信息。

其实这篇和 Tree Transformer: Integrating Tree Structures into Self-Attention[3] 挺类似的,都是在 Transformer 的 self-attention 上面做了手脚,加入了一些结构上的信息,增强 encoder 的编码能力。

参考资料


[1]

Multi-Granularity Self-Attention for Neural Machine Translation: http://arxiv.org/abs/1909.02222

[2]

Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks: http://arxiv.org/abs/1810.09536

[3]

Tree Transformer: Integrating Tree Structures into Self-Attention: http://arxiv.org/abs/1909.06639

image.png

作者简介:godweiyang知乎同名华东师范大学计算机系硕士在读,方向自然语言处理与深度学习喜欢与人分享技术与知识,期待与你的进一步交流~


相关文章
|
3天前
|
机器学习/深度学习 网络架构 计算机视觉
YOLOv5改进有效涨点系列->适合多种检测场景的BiFormer注意力机制(Bi-level Routing Attention)
YOLOv5改进有效涨点系列->适合多种检测场景的BiFormer注意力机制(Bi-level Routing Attention)
144 0
|
3天前
|
机器学习/深度学习 测试技术 决策智能
【论文速递】CVPR2022 - 全局跟踪Transformers
【论文速递】CVPR2022 - 全局跟踪Transformers
|
3天前
|
自动驾驶 机器人 测试技术
CVPR 2024:分割一切模型SAM泛化能力差?域适应策略给解决了
【4月更文挑战第24天】CVPR 2024 论文提出了解决图像分割基础模型 SAM 在分布偏移下泛化能力不足的问题,通过弱监督自训练策略增强模型适应性和计算效率。在多种图像分割任务上超越预训练 SAM 和现有适应方法,但弱标签质量和数量可能限制性能,且需大量计算资源。[Improving the Generalization of Segmentation Foundation Model under Distribution Shift via Weakly Supervised Adaptation](https://arxiv.org/pdf/2312.03502.pdf)
32 1
|
3天前
|
机器学习/深度学习 算法 固态存储
MFDS-DETR开源 | HS-FPN多级特征融合+Deformable Self-Attention,再续DETR传奇
MFDS-DETR开源 | HS-FPN多级特征融合+Deformable Self-Attention,再续DETR传奇
361 0
|
3天前
|
机器学习/深度学习 网络架构 计算机视觉
YOLOv8改进有效涨点系列->适合多种检测场景的BiFormer注意力机制(Bi-level Routing Attention)
YOLOv8改进有效涨点系列->适合多种检测场景的BiFormer注意力机制(Bi-level Routing Attention)
186 0
|
3天前
|
机器学习/深度学习 自然语言处理 算法
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
|
3天前
|
存储 算法 自动驾驶
【论文速递】CVPR2022 - 用于语义分割的跨图像关系知识蒸馏
【论文速递】CVPR2022 - 用于语义分割的跨图像关系知识蒸馏
|
12月前
|
机器学习/深度学习 自然语言处理 数据可视化
论文赏析【EMNLP19】多粒度自注意力机制(MG-SA)
论文赏析【EMNLP19】多粒度自注意力机制(MG-SA)
101 0
|
12月前
|
机器学习/深度学习 PyTorch 算法框架/工具
即插即用 | SA模块携Shuffle Attention带你CV全任务涨点(文末获取论文与源码)(一)
即插即用 | SA模块携Shuffle Attention带你CV全任务涨点(文末获取论文与源码)(一)
523 0
|
12月前
|
数据挖掘 计算机视觉
即插即用 | SA模块携Shuffle Attention带你CV全任务涨点(文末获取论文与源码)(二)
即插即用 | SA模块携Shuffle Attention带你CV全任务涨点(文末获取论文与源码)(二)
93 0