Re29:读论文 D2GCLF: Document-to-Graph Classifier for Legal Document Classification

简介: Re29:读论文 D2GCLF: Document-to-Graph Classifier for Legal Document Classification

1. Background


和传统分类任务不同,不同类的法律文书也可能在语义上高度相似:


DOCSCRH(商业住房产权纠纷)类型(只有房地产公司能出售商业住房):

image.png

DOCSPHP(房屋买卖合同纠纷)类型:

image.png


本文认为,有两点原因造成传统文本分类方法不适用于法律领域:

  1. 传统文本分类没有充分利用文本结构信息。一些过去的方法用句子关系来解决这一问题,但并非所有句子都于预测任务有利。
  2. 法律案例中事实与理由部分最重要,但现在的词贡献图难以表征关键事实,且含大量与预测任务无关的词语。

本文认为法律文书分类任务最重要在理解事实,本文表示为实体之间的关系。


2. D2GCLF


从法律抽取中抽取关键当事人(原告和被告)的事实构成4个图:

  1. Entity-Matter
  2. Entity-Action
  3. Entity-Keyword(主题)
  4. Semantic Role Labeling (SRL):建模更广泛的关系,包括有第三方人事的

然后组合4张图,过GNN(GAT),得到图表征,作为文书表征,实现分类。


整体架构图:

image.png


2.1 Motivation和民事诉讼文书数据分析

民事诉讼文书组成部分:

  • Entity information sections:诉讼当事人的信息
  • Facts
  • Reason:原告诉讼理由

(当事人关系常存于facts和reason部分)

  • Miscellaneous items:相关法律、程序、证据的讨论,与文书类型关系不大,因为同一法律可能应用于不同纠纷中


组成部分示意图:

image.png


不同类型借贷纠纷的示例(DOCPL是私人贷款合同纠纷,例子1讨论借贷行为,例子2、3提到借贷诉讼的目的和原因;DOCS是保人合同纠纷):

image.png

如果模型不知道句子之间的关系,可能会忽略关键词guarantor。


2.2 建图

2.2.1 Entity-Matter Graph

matters:识别纠纷类别的重要证据

常是名词,和原被告出现在同一句,所以本文用POS解析器1抽取每一包含原被告的句子里的名词。为了理解matters上发生的动作,我们也抽取了形容被抽取名词的动词,如table2中的borrowed和dollar。


文书节点,原告节点A,被告节点B:

image.png


2.2.2 Entity-Action Graph

案例中,纠纷必然对应某些原被告之间的动作。

本文抽取出现原被告句子中的动词,和每个动作的对象。

image.png


2.2.3 Entity-Keyword Graph

生成原被告相关的主题。

本文用TextRank抽取含有所有当事人句子中的关键词。

image.png


2.2.4 SRL Graph

(subject, predicate, object)

predicate谓语

用LTP工具2从每一句中抽取。

image.png


2.2.5 Combined graph

image.png


2.3 GNN

本文用预训练的词嵌入作为初始节点表征,用GAT聚合得到document节点表征,然后后面的就是常规MLP分类模型了。


3. 实验


3.1 数据集

本文算是给出了一部分的数据集?就给了这些:https://drive.google.com/file/d/1bZVv0TPSjIRsRjO0P67v8Y-K-tb-o7IE/view

image.png


4000个案例(每类最新200个案例),20类。70%训练集,30%测试集。替换指示代词为原被告真名。


3.2 baseline

词嵌入用的是https://github.com/Embedding/Chinese-Word-Vectors

传统机器学习方法词嵌入用的是https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

深度学习方法词嵌入用的是https://huggingface.co/hfl/chinese-roberta-wwm-extlarge

(为什么词嵌入都不统一呢这个小编也不知道!)


基于图的方法:构建文档-词图,即直接连接文档节点及其中的词语节点、在文档中共现的词语节点。


用AUC作为评估指标。


(用不同词嵌入方法的结果见附件)

8dbf12f3f8b847c1960a44b669690a7b.png


3.3 实验设置

在训练集上交叉验证取参数。


3.4 模型分析

image.png

image.png

相关文章
|
机器学习/深度学习 数据挖掘
【提示学习】HPT: Hierarchy-aware Prompt Tuning for Hierarchical Text Classification
本文是较早把Prompt应用到层级多标签文本分类领域的论文。思路是把层级标签分层编入到Pattern中,然后修改损失函数以适应多标签的分类任务。
246 0
|
7月前
|
机器学习/深度学习 数据挖掘 API
[FastText in Text Classification]论文实现:Bag of Tricks for Efficient Text Classification
[FastText in Text Classification]论文实现:Bag of Tricks for Efficient Text Classification
46 2
|
机器学习/深度学习 数据采集 自然语言处理
MEE: A Novel Multilingual Event Extraction Dataset 论文解读
事件抽取(EE)是信息抽取(IE)的基本任务之一,旨在从文本中识别事件提及及其论点(即参与者)。由于其重要性,已经为事件抽取开发了广泛的方法和资源。
163 0
|
自然语言处理 算法 vr&ar
X-GEAR:Multilingual Generative Language Models for Zero-Shot Cross-Lingual Event Argument Extraction
我们提出了一项利用多语言预训练生成语言模型进行零样本跨语言事件论元抽取(EAE)的研究。通过将EAE定义为语言生成任务,我们的方法有效地编码事件结构并捕获论元之间的依赖关系。
129 0
|
机器学习/深度学习 存储 自然语言处理
RAAT: Relation-Augmented Attention Transformer for Relation Modeling in Document-Level 论文解读
在文档级事件提取(DEE)任务中,事件论元总是分散在句子之间(跨句子问题),多个事件可能位于一个文档中(多事件问题)。在本文中,我们认为事件论元的关系信息对于解决上述两个问题具有重要意义,并提出了一个新的DEE框架
135 0
|
数据挖掘
【提示学习】Prompt Tuning for Multi-Label Text Classification: How to Link Exercises to Knowledge Concept
文章这里使用的是BCEWithLogitsLoss,它适用于多标签分类。即:把[MASK]位置预测到的词表的值进行sigmoid,取指定阈值以上的标签,然后算损失。
|
机器学习/深度学习 移动开发 自然语言处理
DEPPN:Document-level Event Extraction via Parallel Prediction Networks 论文解读
当在整个文档中描述事件时,文档级事件抽取(DEE)是必不可少的。我们认为,句子级抽取器不适合DEE任务,其中事件论元总是分散在句子中
144 0
DEPPN:Document-level Event Extraction via Parallel Prediction Networks 论文解读
|
机器学习/深度学习 人工智能 自然语言处理
【论文精读】AAAI 2022 - Unified Named Entity Recognition as Word-Word Relation Classification
到目前为止,命名实体识别(NER)已经涉及三种主要类型,包括扁平、重叠(又名嵌套)和不连续NER,它们大多是单独研究的。
252 0
【论文精读】AAAI 2022 - Unified Named Entity Recognition as Word-Word Relation Classification
|
自然语言处理 算法 知识图谱
DEGREE: A Data-Efficient Generation-Based Event Extraction Model论文解读
事件抽取需要专家进行高质量的人工标注,这通常很昂贵。因此,学习一个仅用少数标记示例就能训练的数据高效事件抽取模型已成为一个至关重要的挑战。
169 0
|
自然语言处理 搜索推荐 数据挖掘
RolePred: Open-Vocabulary Argument Role Prediction for Event Extraction 论文解读
事件抽取中的论元角色是指事件和参与事件的论元之间的关系。尽管事件抽取取得了巨大进展,但现有研究仍然依赖于领域专家预定义的角色。
76 0