写在最前面
SimCLS: A Simple Framework for Contrastive Learning of Abstractive Summarization(2021ACL会议)
https://arxiv.org/abs/2106.01890
论文:https://arxiv.org/pdf/2106.01890.pdf
预期写两篇博客详细展示该论文,两篇博客分析公开的代码
(感谢吕博的分享,最近看了一些线上汇报梳理了一些论文工作)
B站有论文作者的PPT讲解:
【SimCLS:抽象概括对比学习的简单框架】 https://www.bilibili.com/video/BV1iM4y197WC/?share_source=copy_web&vd_source=5c26e6ddafba66137ab0d49dc584e2ce
2 抽象总结的对比学习框架
给定一个源文档D和一个参考摘要Sˆ,抽象摘要模型f的目标是生成候选摘要S = f(D),以便它获得由评估度量M分配的最高分数m = M(S, Sˆ)。
在这项工作中,我们将整体生成过程分为两个阶段,其中包括:
1、生成模型g,用于生成候选摘要,
2、评估模型h,用于评分和选择最佳候选摘要。
第一阶段
:
候选摘要生成 生成模型g(·)是一个经过训练的Seq2Seq模型,在给定源文档D的情况下最大限度地提高参考摘要Sˆ的可能性。
然后使用预先训练的g(·)生成多个候选摘要S1, · · · , Sn,并使用Beam Search等抽样策略,其中n是抽样候选的数量。
第二阶段
:
无参考评价高级的想法是,一个更好的候选摘要Si应该比源文档D获得更高的质量分数。
我们通过对比学习来接近上述思想,
并定义了一个评价函数h(·)的目的是仅根据源文档和候选人Si之间的相似性为生成的候选人分配不同的分数r1, · · · , rn,即ri = h(Si , D)。最终输出总结S是得分最高的候选:
在这里,我们将h(·)实例化为一个预先训练好的大型自我注意模型RoBERTa (Liu et al., 2019)。它被用来分别编码Si和D,第一个令牌编码之间的余弦相似度被用作相似度得分ri。
对比训练而不是明确地构建一个积极或消极的例子,大多数现有的工作与对比学习已经采用(Chen et al., 2020; Wu et al., 2020),这里的“对比”反映在自然生成的总结的不同品质评估参数化模型h(·)。具体来说,我们为h(·)引入一个排名损失:
其中S˜ 1, · · · , S˜ n按M(S˜ i , Sˆ)向下排序。
这里,λij = (j − i) * λ是我们在Zhong et al. (2020)后面定义的相应的边距,λ是一个超参数。1
M可以是任何自动评估指标或人类判断,这里我们使用ROUGE (Lin, 2004)。
1由于它不敏感,我们在实验中将其设置为0.01。
3实验
3.1 数据集
使用两个数据集进行实验。数据集统计数
据列在附录A中。
CNNDM CNN/DailyMail 2(Hermann et al., 2015;
Nallapati et al., 2016)数据集是一个大型新闻文章数据集。
XSum XSum 3(Narayan et al., 2018)数据集是一
个高度抽象的数据集,包含来自英国广播公司(BBC)的在线文章。
2https://cs.nyu.edu/˜kcho/DMQA/
3https://github.com/EdinburghNLP/XSum
3.2 评估指标
主要评价指标:ROUGE-1/2/L (R-1/2/L)。
语义相似度度量标准:BERTScore (Zhang et al., 2020b)和movescore(Zhao et al., 2019)。
3.3 基础系统
两阶段框架中的生成模型和评估模型是分别训练的,所以使用预先训练的最先进的抽象摘要系统作为生成模型。
具体来说,我们使用BART(Lewis et al.,2020)和Pegasus(Zhang et al., 2020a),因为它们很受欢迎,并且经过了全面的评估。
3.4 训练详情
对于基线系统,我们使用transformer4(Wolfet al., 2020)库提供的检查点。
使用多元波束搜索(Vijayakumar et al., 2016)作为抽样策略来生成候选摘要。
使用16组进行多样性抽样,结果是16个候选组。
为了训练评估模型,使用带学习率调度的Adam优化器(Kingma and Ba, 2015)。
模型在验证集上的性能用于选择检查点。详情见附录B。
4https://github.com/huggingface/transformers
3.5 CNNDM数据集上的结果
在CNNDM数据集上的结果如表所示:
使用预训练的BART 5作为基础生成模型(Origin)。
使用BART, Pegasus,GSum(Dou et al., 2021)和ProphetNet(Qi et al.,2020)进行比较。
值得注意的是,总是选择最佳候选的Max oracle的性能比原始输出要好得多,这表明使用多样化的抽样策略
可以进一步利用预先训练的抽象系统的潜在能力。
除了ROUGE,我们还给出了语义相似度度量的评价结果。我们的方法能够在所有指标上优于基线模型,表明其改进超出了利用ROUGE的潜在工件。虽然用这些指标很难解释改进的规模,但我们注意到改进能够通过显著性检验。
在计算能力的限制下,我们尝试使用尽可能多的候选来进行评估模型的训练。然而,我们也注意到,我们的方法对于特定数量的候选对象具有鲁棒性,因为在测试过程中,我们发现我们的模型仍然能够在较少的候选对象下优于基线模型。
5“facebook/bart-large-cnn”
4 结论
在这项工作中,提出了一个对比摘要框架,旨在优化在摘要级别生成的摘要的质量,减轻了MLE框架中训练和测试阶段之间的差异。除了在CNNDM数据集上对基线模型的显著改进外,还在不同的语义级别上进行了综合评估,解释了方法所做的改进的来源。
实验结果还表明,现有的抽象系统有潜力生成比原始输出更好的候选摘要。因此,未来方向包括:
(1)将这种两阶段策略扩展到用于抽象模型的其他数据集;
(2)改进抽象模型的训练算法,使其朝着更全面的优化过程发展。