基于注意力机制优化的生成式文档摘要模型

简介: 在互联网时代,各个领域场景产生越来越多的文本数据,文本摘要作为文本“降维”处理的重要手段,旨在将文本或者文本集合转换成包含关键信息的简短摘要。该任务方法主要分为两大类:抽取式摘要和生成式摘要。抽取式摘要方法从源文档中抽取关键句或者关键词组成摘要,摘要内容全部来自原文,这种方法比较简单直接,但是做法和人类总结概括文章的方法技巧相差甚远,同时也面临coherence等问题。

本文收录于EMNLP 2019,oral 短文。

背景

在互联网时代,各个领域场景产生越来越多的文本数据,文本摘要作为文本“降维”处理的重要手段,旨在将文本或者文本集合转换成包含关键信息的简短摘要。该任务方法主要分为两大类:抽取式摘要和生成式摘要。抽取式摘要方法从源文档中抽取关键句或者关键词组成摘要,摘要内容全部来自原文,这种方法比较简单直接,但是做法和人类总结概括文章的方法技巧相差甚远,同时也面临coherence等问题。随着sequence2sequence模型的出现和发展,生成式摘要模型相关研究也吸引了众多学者的目光。生成式摘要模型顾名思义,就是从源文档生成摘要,摘要中的词可能在原文中并不存在。这一大类方法更接近于人类的摘要方法,得到的摘要一般较为通顺,但是也存在诸多问题,如repetition、saliency、incorrect fact等。当然文本生成任务本身就具有较大难度,我们期待未来有一天计算机能够像人类一样会写作表达,可以写出高质量的自然语言文本。

本文聚焦于优化摘要模型中的注意力机制,注意力机制最早是应用于图像领域,大概是九几年就提出来的思想。在2014年,Google Mind团队发表的《Recurrent Models of Visual Attention》[1]一文使得注意力机制开始火了起来,该论文提出在RNN模型上使用Attention机制来进行图像分类,结果取得了很好的性能。随后,在Bahdanau等人发表论文《Neural Machine Translation by Jointly Learning to Align and Translate》[2]中提出在机器翻译任务上使用注意力机制将翻译和对齐同时进行,他们的工作是第一个将注意力机制应用在NLP领域中的。最近两年self attention也是很火热,各项记录不断被刷新。
在文档摘要任务中,注意力机制也是被广泛使用。但是当输入时长文档的时候,基础的注意力机制容易注意力分散,很难捕捉到那些重要的信息,因此有一些工作致力于解决这个问题,我们的工作也是沿着这个研究线探索注意力机制的优化。

模型

__
Pointer-generator模型

image.png

本文将pointer-generator模型[3]作为baseline模型,该模型采用指针网络增强标准的基于注意力机制的seq2seq模型,这个组合在之后也是被很多的学者借鉴使用。
源文档首先输入到一个Bi-LSTM的编码器中得到文档的向量表示,之后一个uni-directional LSTM的解码器逐词输出摘要,指针网络控制输出是copy自原文还是从字典生成得到的。在每个解码时间步,注意力分布a_t计算方式如下:

image.png

local optimization

image.png

(1)注意力精炼单元
就人类而言阅读总结一篇长文档也是很困难的一件事,在将要写下一个词的时候有时也会有些不确定。为了确定当前时刻要写的词是什么以及和前面已经写过的内容是否相关,很多人都会确认一下原文内容和已经写过的内容,然后调整当前时刻关注内容。这样的阅读习惯可以定义为以下计算,我们命名这样的功能块叫做注意力精炼单元。

image.png

image.png

(2)局部注意力方差损失函数
大部分的注意力机制都是“soft”的,注意力分散在输入的各个位置。直观上来讲,如果一个学生能够在概括文章写每个字的时候都很明确自己要写哪一部分的内容,那么经过反复训练之后他一定可以写出文章包含文章中心思想的概括,而不会在写作过程中注意力涣散不知道从哪儿下笔。和soft attention对应的hard attention就是会把注意力放在某个位置上,每一步都很明确自己的关注点。一些研究表明训练好hard attention倾向于取得更加准确的结果4,但是hard attention计算不可微较难训练。因此为了兼顾hard attention的好效果和soft attention的端到端易训练的特点,我们提出了局部方差损失函数,激励模型将注意力放在极少部分输入位置上,明确当前时刻的关注内容。

通过观察我们发现,当注意力权重分散在各个位置的时候,注意力分布相对于集中注意力的时候的形状要来的平坦些。从数学上来说,相对平坦的分布它的方差相对来说也是较小的。借鉴数据上的方差概念,我们认为一个好的注意力分布形状应该是尖锐的(少数位置值较大),也就是说方差是比较大的。因此,局部方差损失函数定义如下:

image.png

global optimization
为了解决摘要中常见的重复问题,我们提出了另外一个基于方差的损失函数——全局方差损失函数。理想情况下,同一个位置不应该被反复赋予较高注意力权重,也就是说某位置除去某个时刻赋予的一个较高权重外,其他时刻赋予的注意力应该都比较小或者没有。比较有名的coverage机制会记录当前时刻前的所有时刻的注意力分布总和,并加入到注意力分布的计算中,但是这种方法可能会引入一些错误的监督信息。当之前的某个时刻错误将注意力放在了某位置上,coverage机制会阻碍后续步骤正确的给与该位置较高注意力。我们直接设计了全局角度的损失函数防止重复并避免这种情况,在理想情况下所有解码时间步的注意力分布总和去掉每个位置历史最大注意力值组成的分布应该是一个全部为0的分布,也就是说方差是0。从下图可以看出,当某个位置反复给与较大注意力权重的时候(会导致重复问题),该位置的注意力总和和历史最大注意力权重之间的差值是比较大的,差值分布整体是比较尖锐的,方差相对来说也比较大。

image.png

因此,全局方差损失函数设计如下:

image.png

模型训练
本文模型分两个阶段训练,先训练基础的pointer-generator模型至收敛,训练的目标函数是:

image.png

finetune阶段加入本文的两个损失函数继续训练至收敛:

image.png

实验

__
数据集和评价指标
实验主要在公开摘要数据集CNN/Daily Mail上进行,数据集包括287226对训练数据、13368对验证数据、11490对测试数据。评价指标采用ROUGE系列和METEOR。
实验配置
• hidden_dim & embedding_dim: 256
• 优化器:adagrad
• batch_size: 64
• learning rate: 0.15

实验结果
在CNN/Daily Mail数据集上实验效果如下,相对于baseline模型PGN,本文模型有较大提升(3.85, 2.1 and 3.37 in terms of R-1, R-2 and R-L respectively)。本文模型没有超过当当时效果最好的几个模型,
FastAbs[6]将ROUGE-L作为强化学习的reward函数,这带来了巨大的性能提升。 DCA[7]提出了具有增强功能的深层通讯器,并在CNN/Daily Mail上取得了最佳效果。尽管我们的实验结果并未优于最新模型,但我们的模型结构却参数少,简单可移植,是一次注意力机制优化的探索,

image.png

人工评测
我们还对生成的摘要进行人工评估,我们从CNN/Daily Mail数据集的测试集中随机选择了100个样本,并要求3名人类测试人员测量每个摘要的相关性和可读性(打分从1-5,1最差,5最好)。相关性基于摘要包含的重要信息,而可读性则取决于摘要的流利程度和语法。以下为评测结果,从表中可以看出我们的模型在relevance得分上要高于baseline模型,也说明了模型可以更好的捕捉重要内容。

image.png

global optimization的有效性
从下图可以看出,重复的n-grams比率有较大降低,数据接近reference。

image.png

case study
此外,我们在表3中显示了由我们的模型和基准模型生成的摘要的示例。从表中可以看出,PGN遭受重复的困扰,而且无法获得重要信息。尽管采用coverage机制解决了saliency和repetition问题,但它的结果包含一些琐碎的事实。使用注意力精炼单元(ARU),该模型成功地将注意力集中在重要信息上,但是,它也存在严重的重复问题。通过方差损失函数进一步优化,我们的模型可以避免重复,并且包含重点信息。此外,与PGN + Coverage模型相比,我们生成的摘要包含的琐碎信息更少。

image.png

未来工作

__
在本文中,我们提出了一种简单而有效的方法来优化摘要文档摘要中的基础注意机制,在CNN/Daily Mail数据集上的结果证明了我们方法的有效性。我们认为,这些简单的方法也适用于其他摘要模型。对此的进一步探索以及与RL等其他方法的结合仍然是我们未来的一个研究方向。

参考文献

[1] Mnih, Volodymyr, Hees, Nicolas, Graves, Alex, and Kavukcuoglu, Koray. Recurrent models of visual attention. In NIPS, 2014.
[2] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2014. Neural machine translation by jointly learning to align and translate. CoRR, abs/1409.0473.
[3] Abigail See, Peter J. Liu, and Christopher D. Manning. 2017. Get to the point: Summarization with pointer- generator networks. In Proceedings of the 55th An- nual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1073– 1083. Association for Computational Linguistics.
[4] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron C. Courville, Ruslan Salakhutdinov, Richard S. Zemel, and Yoshua Bengio. 2015. Show, attend and tell: Neural image caption generation with visual attention. In Proceedings of the 32nd In- ternational Conference on Machine Learning, ICML 2015, Lille, France, 6-11 July 2015, pages 2048– 2057.
[5] Shiv Shankar, Siddhant Garg, and Sunita Sarawagi. 2018. Surprisingly easy hard-attention for sequence to sequence learning. In Proceedings of the 2018 Conference on Empirical Methods in Natural Lan- guage Processing, Brussels, Belgium, October 31 - November 4, 2018, pages 640–645.
[6] Yen-Chun Chen and Mohit Bansal. 2018. Fast abstrac- tive summarization with reinforce-selected sentence rewriting. In Proceedings of the 56th Annual Meet- ing of the Association for Computational Linguistics (Volume 1: Long Papers), pages 675–686. Associa- tion for Computational Linguistics.
[7] Asli Celikyilmaz, Antoine Bosselut, Xiaodong He, and Yejin Choi. 2018. Deep communicating agents for abstractive summarization. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Hu- man Language Technologies, Volume 1 (Long Pa- pers), pages 1662–1675. Association for Computa- tional Linguistics.

相关文章
|
机器学习/深度学习 人工智能 算法
顶会论文 | 阿里云视频摘要 SOTA 模型:用于视频摘要的多层时空网络
这次向大家分享的工作是作者所负责团队在国际人工智能多媒体顶会 ACM MM 2022 (CCF-A)发表的文章 “Multi-Level Spatiotemporal Network for Video Summarization”,该文提出了一种用于视频摘要的多层时空网络,在视频摘要领域实现了全球领先的研究探索。基于作者团队在工业级推荐系统方面的研究积累,成功地在阿里云产业大规模视频摘要场景实践中解决了一个视频摘要领域的重要问题,推动了该领域的发展。
2386 1
顶会论文 | 阿里云视频摘要 SOTA 模型:用于视频摘要的多层时空网络
|
10天前
|
机器学习/深度学习 算法 PyTorch
基于图神经网络的大语言模型检索增强生成框架研究:面向知识图谱推理的优化与扩展
本文探讨了图神经网络(GNN)与大型语言模型(LLM)结合在知识图谱问答中的应用。研究首先基于G-Retriever构建了探索性模型,然后深入分析了GNN-RAG架构,通过敏感性研究和架构改进,显著提升了模型的推理能力和答案质量。实验结果表明,改进后的模型在多个评估指标上取得了显著提升,特别是在精确率和召回率方面。最后,文章提出了反思机制和教师网络的概念,进一步增强了模型的推理能力。
33 4
基于图神经网络的大语言模型检索增强生成框架研究:面向知识图谱推理的优化与扩展
|
1月前
|
机器学习/深度学习 自然语言处理 语音技术
揭秘深度学习中的注意力机制:兼容性函数的深度解析
揭秘深度学习中的注意力机制:兼容性函数的深度解析
|
1月前
|
机器学习/深度学习 数据采集 数据处理
谷歌提出视觉记忆方法,让大模型训练数据更灵活
谷歌研究人员提出了一种名为“视觉记忆”的方法,结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分,支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示,该方法在多个数据集上取得了优异的性能,如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制,但视觉记忆为深度学习提供了新的思路。
34 2
|
2月前
|
自然语言处理 索引
RAG入门:理解检索增强生成模型的基本原理
【10月更文挑战第21天】作为一名长期从事自然语言处理(NLP)研究的技术人员,我一直在关注各种新兴技术的发展趋势。其中,检索增强生成(Retrieval-Augmented Generation, RAG)模型引起了我的特别兴趣。RAG技术结合了检索系统和生成模型的优点,旨在解决传统生成模型在处理长文本理解和生成时所面临的挑战。本文将从个人的角度出发,介绍RAG的基本概念、工作原理及其相对于传统生成模型的优势,并探讨一些基本的实现方法。
87 1
|
2月前
|
机器学习/深度学习 编解码 负载均衡
MoH:融合混合专家机制的高效多头注意力模型及其在视觉语言任务中的应用
本文提出了一种名为混合头注意力(MoH)的新架构,旨在提高Transformer模型中注意力机制的效率。MoH通过动态注意力头路由机制,使每个token能够自适应选择合适的注意力头,从而在减少激活头数量的同时保持或提升模型性能。实验结果显示,MoH在图像分类、类条件图像生成和大语言模型等多个任务中均表现出色,尤其在减少计算资源消耗方面有显著优势。
70 1
|
2月前
|
机器学习/深度学习 自然语言处理 数据挖掘
从理论到实践:详解GraphRAG框架下的多模态内容理解与生成
【10月更文挑战第10天】随着多媒体内容的爆炸性增长,如何有效地理解和生成跨模态的数据(如图像、文本和视频)变得越来越重要。近年来,图神经网络(GNNs)因其在处理非结构化数据方面的强大能力而受到广泛关注。在此背景下,Graph Retrieval-Augmented Generation (GraphRAG) 框架作为一种新的方法,通过结合图检索和生成模型来提升多模态内容的理解与生成效果。本文将深入探讨GraphRAG的基本原理、核心组件以及实际应用,并通过代码示例展示其在多媒体内容处理中的潜力。
346 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
|
7月前
|
存储 机器学习/深度学习 人工智能
论文介绍:InfLLM——揭示大型语言模型在无需训练的情况下处理极长序列的内在能力
【5月更文挑战第18天】InfLLM是一种新方法,无需额外训练即可增强大型语言模型处理极长序列的能力。通过使用记忆单元存储长序列的远距离上下文,InfLLM能更准确地捕捉长距离依赖,提高对长文本理解。实验表明,InfLLM使预训练在短序列上的模型在处理极长序列时表现媲美甚至超过专门训练的模型。尽管有挑战,如动态上下文分割和记忆单元效率,InfLLM为长序列处理提供了有效且未经训练的解决方案。论文链接:https://arxiv.org/abs/2402.04617
186 3
|
7月前
|
机器学习/深度学习 人工智能
论文介绍:PreFLMR——扩展细粒度晚期交互多模态检索器以提升知识视觉问答性能
【5月更文挑战第3天】PreFLMR是扩展的细粒度晚期交互多模态检索器,用于提升知识视觉问答(KB-VQA)性能。基于FLMR,PreFLMR结合大型语言模型和检索增强生成,增强准确性与效率。通过M2KR框架全面评估,PreFLMR展示出色性能,尤其在E-VQA和Infoseek等任务。然而,其在预训练阶段未充分训练知识密集型任务,且仍有优化训练方法和数据集混合比例的空间。[论文链接](https://arxiv.org/abs/2402.08327)
195 1