Re11:读论文 EPM Legal Judgment Prediction via Event Extraction with Constraints

简介: Re11:读论文 EPM Legal Judgment Prediction via Event Extraction with Constraints

1. Background & Motivation


本文认为过去的LJP模型预测失误的原因在于错误定位影响判决结果的关键事件信息,以及没有利用LJP各子任务之间的跨任务一致性限制(也就是特定抽取出的法条只能对应特定的罪名和刑期),因此本文提出了一个基于事件和限制的预测模型EPM来解决这些问题。

法条由事件模式(event pattern)和判决(judgment)/惩罚(penalty)两部分组成。本文认为只要能抽取出案例中的事件信息,就能预测出正确的判决结果。

①抽取事件以辅助LJP任务(认为以前的模型错误预测事件导致预测失败)。

②在事件输出和子任务之间增加了constraint(不满足特定条件时增加penalty。限制特定事件角色必须出现、事件类型之间必须对应,特定法条会限制charge和terms of penalty的选择范围。这个具体限制关系的列表在代码中给出了)。


2. 问题定义与模型介绍


2.1 定义分层级的事件

(跟传统的法律领域事件定义不太相同,是为了trigger types and argument roles能用于LJP任务而定义的)

基于法条定义法律事件,因为法条是分层级的,所以对应定义出的事件也是分层级的

image.png

细粒度事件:

image.png

event trigger:指示一个事件的发生,与特定事件匹配(如事件Robbery对应的trigger type为Trigger-Rob)

event role:事件元素的类型(感觉可以类比为,role是类,argument是实例)

token labeling任务范式:subordinate trigger(如果该token是trigger的一部分)或者subordinate role type(如果该token是argument的一部分)


2.2 EPM

我发誓这是今年我看过最魔性的模型,这也太能叠了!

联合训练:①抽取事件。②使用事件特征来实现多任务分类(用法条文本特征来做attention,考虑到事件输出constraint和多任务之间的constraint)。

baseline版本/EPM完整模型(用Switch分类器来切换:见后文实验部分介绍)

baseline版本:使用事实描述文本表征(context features)和法条表征(article embeddings)做attention,然后做3个分类任务

EPM版本:使用抽取出的事件的事件表征,和对应token的表征concat后得到的表征(event features),替换baseline中的context features

image.png


Token representation layer:使用预训练的Legal BERT模型实现事实描述文本表征

对事实描述文本表征进行max pooling,得到context feature(这个是在baseline里面用的,在EPM中将替换成后文会介绍的事件特征)

使用法条语义信息:用Token representation layer对法条进行character表征、使用max pooling得到每个法条的表征,然后用这个与context feature做attention:

image.png


Legal judgment prediction layer:对每个子任务实现一个线性分类器

image.png

hierarchical event extraction layer:①superordinate module:计算每个事实描述文本token的表征向量来与superordinate types/roles的correlation score ②subordinate module:基于层级信息计算subordinate type/role的分布概率


  1. 用可训练向量表示每个superordinate type/role的语义特征,用全连接层计算每个token与每个superordinate type/role的correlation score:image.png
  2. 用softmax计算每个token的superordinate type/role feature(一个加权求和,软的表征)image.png
  3. 预测token属于subordinate type/role的概率:输入特征为concat token表征和superordinate type/role feature:image.png
  4. 用CRF生成得分最高的types/roles序列:image.png
  5. 使用预测出的types序列来生成事件特征:将每个抽取出的span的文本表征(token表征经max pooling得到)和subordinate type/role embedding进行concat,得到span的表征;再将所有span表征取max pooling,得到最终的事件特征
  6. 用事件特征替换前文baseline用的context feature


训练阶段损失函数:

3个子任务的损失函数为交叉熵。

事件抽取的损失函数和总的损失函数(这个没加事件输出限制的罚项):

image.png

事件输出限制:如果特定trigger或role缺失,会增加penalty;特定trigger type必须出现特定角色

image.png

986ea787dba24b2491320f8cf29013b6.png


多任务之间的一致性限制:预测出的法条会限制charge和term penalty的选择范围(训练时,如果法条预测正确,在损失函数里加上mask 我跟学弟讨论了一下感觉作为单分类的话,理应训练时是无用的,但是在ablation study中article也会跟着受影响,所以训练阶段应该也会产生影响。另原论文中此处损失函数有两个连加号,但是别的损失函数公式都是单样本上的,所以怀疑是写错了这个情况是这样的。我问了作者,说是①做了label smoothing,所以mask始终会起效。②数据本身就有噪音,所以训练集真实标签不一定是对的,所以当y为1时mask不一定绝对是1。 测试时始终加上mask)

作者の回复:

image.png

代码呢也随后从one-hot改成了label smoothing。

测试时加mask的方法,直接在预测分布时将不允许输出的类别的概率置0:

image.png


3. 实验


3.1 数据集

CAIL(big和small两个数据集)

新数据集LJP-E(手动标注了15种罪名上的案例的事件信息)


3.2 baseline

①baseline:去掉事件抽取和constraint、把事件特征换成事实描述文本上下文特征的EPM模型。

③EPM模型先去掉事件部分(指①用的baseline模型)在原始数据集CAIL的训练集上进行预训练,然后再在标注事件信息的数据集LJP-E的训练集上进行微调。(问题:trick?感觉已经获得了fact description的信息,不公平)


3.3 实验设置

image.png


3.4 主实验结果

衡量模型使用的指标:Accuracy (Acc), Macro-Precision (MP), Macro-Recall (MR) and Macro-F1 (F1)

(实验结果表中的gold或@G指使用了真实事件标签(而非预测事件)来生成的结果)

在LJP-E上的实验结果:

image.png

在CAIL上的实验结果:

由于LJP-E数据集只包含15种案例类型,因此先在CAIL训练集上训练了一个legal BERT,用[CLS] token的表征预测案例是否属于这15种之一(这个分类器叫Switch。batch size为32,训练20个epoch,用Adam做优化器,学习率为0.0001,在CAIL-big上的准确率为89.82%,CAIL-small为85.32%),如果是就用EPM来预测,如果不是就用微调前的EPM(③中讲的预训练的EPM)来预测。


除直接使用EPM和各SOTA模型外:

  1. 在对比的SOTA模型上加EPM(如果Switch预测案例属于LJP-E的15种之一,就用fine-tuned EPM来分类;反之用原模型来分类)(我觉得这样直接加起来有些怪怪的)
  2. 修改TOPJUDGE模型(结果中的TOPJUDGE+Event):将CNN encoder换成LSTM,将原输入事实描述表征换成事件特征。效果会比直接TOPJUDGE+EPM更差,说明直接拿EPM当黑盒用效果会更好。

image.png

image.png

image.png


3.5 模型分析

3.5.1 Ablation Study

  1. 删除事件元素
  2. 删除事件输出限制(absolute constraint→CSTR1,event-based consistency constraint→CSTR2)
  3. 删除子任务之间的限制(article-charge constraint→DEP1,article-term constraint→DEP2)
  4. 删除Superordinate types,模型直接预测token的superordinate features
  5. 将event extraction视为auxiliary task(和LJP任务共享encoder)

image.png

image.png


4. 代码复现


我问作者:image.png

作者回复:image.png

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
OneIE:A Joint Neural Model for Information Extraction with Global Features论文解读
大多数现有的用于信息抽取(IE)的联合神经网络模型使用局部任务特定的分类器来预测单个实例(例如,触发词,关系)的标签,而不管它们之间的交互。
183 0
|
自然语言处理 算法 vr&ar
X-GEAR:Multilingual Generative Language Models for Zero-Shot Cross-Lingual Event Argument Extraction
我们提出了一项利用多语言预训练生成语言模型进行零样本跨语言事件论元抽取(EAE)的研究。通过将EAE定义为语言生成任务,我们的方法有效地编码事件结构并捕获论元之间的依赖关系。
123 0
|
机器学习/深度学习 数据采集 自然语言处理
MEE: A Novel Multilingual Event Extraction Dataset 论文解读
事件抽取(EE)是信息抽取(IE)的基本任务之一,旨在从文本中识别事件提及及其论点(即参与者)。由于其重要性,已经为事件抽取开发了广泛的方法和资源。
155 0
|
算法 计算机视觉 知识图谱
ACL2022:A Simple yet Effective Relation Information Guided Approach for Few-Shot Relation Extraction
少样本关系提取旨在通过在每个关系中使用几个标记的例子进行训练来预测句子中一对实体的关系。最近的一些工作引入了关系信息
125 0
|
机器学习/深度学习 移动开发 自然语言处理
DEPPN:Document-level Event Extraction via Parallel Prediction Networks 论文解读
当在整个文档中描述事件时,文档级事件抽取(DEE)是必不可少的。我们认为,句子级抽取器不适合DEE任务,其中事件论元总是分散在句子中
132 0
DEPPN:Document-level Event Extraction via Parallel Prediction Networks 论文解读
|
存储 机器学习/深度学习 人工智能
PTPCG: Efficient Document-level Event Extraction via Pseudo-Trigger-aware Pruned Complete Graph论文解读
据我们所知,我们目前的方法是第一项研究在DEE中使用某些论元作为伪触发词的效果的工作,我们设计了一个指标来帮助自动选择一组伪触发词。此外,这种度量也可用于度量DEE中带标注触发词的质量。
125 1
|
机器学习/深度学习 存储 数据挖掘
Global Constraints with Prompting for Zero-Shot Event Argument Classification 论文解读
确定事件论元的角色是事件抽取的关键子任务。大多数以前的监督模型都利用了昂贵的标注,这对于开放域应用程序是不实际的。
73 0
|
机器学习/深度学习 自然语言处理 算法
Joint Information Extraction with Cross-Task and Cross-Instance High-Order Modeling 论文解读
先前的信息抽取(IE)工作通常独立地预测不同的任务和实例(例如,事件触发词、实体、角色、关系),而忽略了它们的相互作用,导致模型效率低下。
95 0
|
自然语言处理 算法 知识图谱
DEGREE: A Data-Efficient Generation-Based Event Extraction Model论文解读
事件抽取需要专家进行高质量的人工标注,这通常很昂贵。因此,学习一个仅用少数标记示例就能训练的数据高效事件抽取模型已成为一个至关重要的挑战。
159 0
|
人工智能 自然语言处理 算法
【论文精读】AAAI 2022 - OneRel Joint Entity and Relation Extraction with One Module in One Step
联合实体和关系提取是自然语言处理和知识图构建中的一项重要任务。现有的方法通常将联合提取任务分解为几个基本模块或处理步骤,以使其易于执行
208 0