Re32:读论文 Summarizing Legal Regulatory Documents using Transformers

简介: 这篇文章提出了一个英文法律规范文件摘要数据集。模型就是很简单地把抽取式摘要建模成每一句的二分类任务,还测试了在此之前用TextRank先抽取一遍的效果。(这个指标甚至没有做人工的)看起来非常简单,这样就能发SIGIR吗,那我怎么不行……所以可能本文的贡献重点在数据集上吧!

1. Background & Motivation


法律文本的重要问题在于外行看不懂,本文关注提取文中的重点(即实现文本摘要任务)。


现有的文本摘要工作关注于短文本和生成式摘要。

本文提出基于transformers的模型,实现抽取式摘要,效果超过了TextRank。超过TextRank是什么值得写出来的事情吗?结合TextRank以预先过滤候选句子,然后再使用基于transformer的模型,效果可能会更好。(先抽取,然后再抽取?)


2. EUR-LexSum数据集


e125b64f8e634731a31422aa19732eda.png

image.png

image.png


3. 基于transformer的抽取式摘要模型


本文基于类似Bert的结构,生成句子表征,对每个句子用二元分类的范式,决定最终选出哪些句子。

image.png


(本文提及了一下,具体的通过生成式摘要结果来抽取oracle抽取式摘要标签的方法也是值得探索的。我也觉得!!!!!)


3.1 数据爬取和清洗

数据来源:https://eur-lex.europa.eu/browse/summaries.html

具体细节略。


3.2 微调基于transformer的模型

贪心搜索选择32句(生成式摘要的平均长度)。

最小化选出句子之间的相似性:trigram blocking1


4. 实验


对数据集的介绍见本文第二节。


4.1 baseline

TextRank

直接预测VS先抽取再预测


4.2 实验设置

使用TransformerSum包。本文介绍该包及其优越性的内容不赘。

具体的设置比较简单,略。


4.3 主实验结果

评估指标是ROUGE-1、2、L的P、R和F1

image.png


4.4 模型分析

摘要长度对ROUGE值的影响:

image.png

image.png

image.png




目录
打赏
0
0
0
0
20
分享
相关文章
文献解读-Prediction of axillary lymph node metastasis in triple-negative breast cancer by multi-omics analysis and an integrated model
研究旨在为三阴性乳腺癌患者提供更准确的腋窝淋巴结转移风险评估工具。研究者综合分析了临床病理信息、基因组和转录组数据,构建了一个多组学预测模型。
34 4
【博士每天一篇文献-算法】Evolutionary multi-task learning for modular knowledge representation in neuralnetworks
本文提出了一种进化式多任务学习方法(EMTL),用于在神经网络中通过模块化网络拓扑实现模块化知识表示,模仿人脑的模块化结构存储知识,提高了网络的鲁棒性和灵活性,并在奇偶校验问题和基准模式分类任务上验证了其有效性。
46 1
【博士每天一篇文献-算法】A pseudo-inverse decomposition-based self-organizing modular echo
本文提出了一种基于伪逆分解的自组织模块化回声状态网络(PDSM-ESN),通过增长-修剪方法和伪逆分解提高学习速度,有效解决了ESN中的不适定问题,并在多个数据集上展示了其优越的预测性能和鲁棒性。
33 1
[UIM]论文解读:subword Regularization: Multiple Subword Candidates
[UIM]论文解读:subword Regularization: Multiple Subword Candidates
74 0
【提示学习】Prompt Tuning for Multi-Label Text Classification: How to Link Exercises to Knowledge Concept
文章这里使用的是BCEWithLogitsLoss,它适用于多标签分类。即:把[MASK]位置预测到的词表的值进行sigmoid,取指定阈值以上的标签,然后算损失。
105 0
【论文精读】AAAI 2022 - OneRel Joint Entity and Relation Extraction with One Module in One Step
联合实体和关系提取是自然语言处理和知识图构建中的一项重要任务。现有的方法通常将联合提取任务分解为几个基本模块或处理步骤,以使其易于执行
262 0
【论文精读】COLING 2022 - CLIO: Role-interactive Multi-event Head Attention Network for DEE
将网络上的大量非结构化文本转换为结构化事件知识是NLP的一个关键但尚未解决的目标,特别是在处理文档级文本时。
86 0
Re16:读论文 ILDC for CJPE: Indian Legal Documents Corpus for Court Judgment Prediction and Explanation
Re16:读论文 ILDC for CJPE: Indian Legal Documents Corpus for Court Judgment Prediction and Explanation
Re16:读论文 ILDC for CJPE: Indian Legal Documents Corpus for Court Judgment Prediction and Explanation