Re32:读论文 Summarizing Legal Regulatory Documents using Transformers

简介: 这篇文章提出了一个英文法律规范文件摘要数据集。模型就是很简单地把抽取式摘要建模成每一句的二分类任务,还测试了在此之前用TextRank先抽取一遍的效果。(这个指标甚至没有做人工的)看起来非常简单,这样就能发SIGIR吗,那我怎么不行……所以可能本文的贡献重点在数据集上吧!

1. Background & Motivation


法律文本的重要问题在于外行看不懂,本文关注提取文中的重点(即实现文本摘要任务)。


现有的文本摘要工作关注于短文本和生成式摘要。

本文提出基于transformers的模型,实现抽取式摘要,效果超过了TextRank。超过TextRank是什么值得写出来的事情吗?结合TextRank以预先过滤候选句子,然后再使用基于transformer的模型,效果可能会更好。(先抽取,然后再抽取?)


2. EUR-LexSum数据集


e125b64f8e634731a31422aa19732eda.png

image.png

image.png


3. 基于transformer的抽取式摘要模型


本文基于类似Bert的结构,生成句子表征,对每个句子用二元分类的范式,决定最终选出哪些句子。

image.png


(本文提及了一下,具体的通过生成式摘要结果来抽取oracle抽取式摘要标签的方法也是值得探索的。我也觉得!!!!!)


3.1 数据爬取和清洗

数据来源:https://eur-lex.europa.eu/browse/summaries.html

具体细节略。


3.2 微调基于transformer的模型

贪心搜索选择32句(生成式摘要的平均长度)。

最小化选出句子之间的相似性:trigram blocking1


4. 实验


对数据集的介绍见本文第二节。


4.1 baseline

TextRank

直接预测VS先抽取再预测


4.2 实验设置

使用TransformerSum包。本文介绍该包及其优越性的内容不赘。

具体的设置比较简单,略。


4.3 主实验结果

评估指标是ROUGE-1、2、L的P、R和F1

image.png


4.4 模型分析

摘要长度对ROUGE值的影响:

image.png

image.png

image.png




相关文章
|
7月前
|
机器学习/深度学习 自然语言处理 算法
【论文精读】ACL 2022:Graph Pre-training for AMR Parsing and Generation
【论文精读】ACL 2022:Graph Pre-training for AMR Parsing and Generation
|
机器学习/深度学习 算法 Oracle
Paper:《“Why Should I Trust You?“: Explaining the Predictions of Any Classifier》翻译与解读
Paper:《“Why Should I Trust You?“: Explaining the Predictions of Any Classifier》翻译与解读
|
4月前
|
机器学习/深度学习 存储 算法
【博士每天一篇文献-算法】Evolutionary multi-task learning for modular knowledge representation in neuralnetworks
本文提出了一种进化式多任务学习方法(EMTL),用于在神经网络中通过模块化网络拓扑实现模块化知识表示,模仿人脑的模块化结构存储知识,提高了网络的鲁棒性和灵活性,并在奇偶校验问题和基准模式分类任务上验证了其有效性。
37 1
|
4月前
|
算法 数据挖掘
【博士每天一篇文献-算法】A pseudo-inverse decomposition-based self-organizing modular echo
本文提出了一种基于伪逆分解的自组织模块化回声状态网络(PDSM-ESN),通过增长-修剪方法和伪逆分解提高学习速度,有效解决了ESN中的不适定问题,并在多个数据集上展示了其优越的预测性能和鲁棒性。
27 1
|
数据挖掘
【提示学习】Automatic Multi-Label Prompting: Simple and Interpretable Few-Shot Classification
文章提出了一种简单确高效地构建verbalization的方法:
|
7月前
|
机器学习/深度学习 自然语言处理 算法
[UIM]论文解读:subword Regularization: Multiple Subword Candidates
[UIM]论文解读:subword Regularization: Multiple Subword Candidates
60 0
|
数据挖掘
【提示学习】Prompt Tuning for Multi-Label Text Classification: How to Link Exercises to Knowledge Concept
文章这里使用的是BCEWithLogitsLoss,它适用于多标签分类。即:把[MASK]位置预测到的词表的值进行sigmoid,取指定阈值以上的标签,然后算损失。
|
人工智能 自然语言处理 算法
【论文精读】AAAI 2022 - OneRel Joint Entity and Relation Extraction with One Module in One Step
联合实体和关系提取是自然语言处理和知识图构建中的一项重要任务。现有的方法通常将联合提取任务分解为几个基本模块或处理步骤,以使其易于执行
242 0
|
机器学习/深度学习 编解码 固态存储
Single Shot MultiBox Detector论文翻译【修改】
Single Shot MultiBox Detector论文翻译【修改】
107 0
Single Shot MultiBox Detector论文翻译【修改】
|
机器学习/深度学习
Re16:读论文 ILDC for CJPE: Indian Legal Documents Corpus for Court Judgment Prediction and Explanation
Re16:读论文 ILDC for CJPE: Indian Legal Documents Corpus for Court Judgment Prediction and Explanation
Re16:读论文 ILDC for CJPE: Indian Legal Documents Corpus for Court Judgment Prediction and Explanation