Re29:读论文 D2GCLF: Document-to-Graph Classifier for Legal Document Classification

简介: Re29:读论文 D2GCLF: Document-to-Graph Classifier for Legal Document Classification

1. Background


和传统分类任务不同,不同类的法律文书也可能在语义上高度相似:


DOCSCRH(商业住房产权纠纷)类型(只有房地产公司能出售商业住房):

image.png

DOCSPHP(房屋买卖合同纠纷)类型:

image.png


本文认为,有两点原因造成传统文本分类方法不适用于法律领域:

  1. 传统文本分类没有充分利用文本结构信息。一些过去的方法用句子关系来解决这一问题,但并非所有句子都于预测任务有利。
  2. 法律案例中事实与理由部分最重要,但现在的词贡献图难以表征关键事实,且含大量与预测任务无关的词语。

本文认为法律文书分类任务最重要在理解事实,本文表示为实体之间的关系。


2. D2GCLF


从法律抽取中抽取关键当事人(原告和被告)的事实构成4个图:

  1. Entity-Matter
  2. Entity-Action
  3. Entity-Keyword(主题)
  4. Semantic Role Labeling (SRL):建模更广泛的关系,包括有第三方人事的

然后组合4张图,过GNN(GAT),得到图表征,作为文书表征,实现分类。


整体架构图:

image.png


2.1 Motivation和民事诉讼文书数据分析

民事诉讼文书组成部分:

  • Entity information sections:诉讼当事人的信息
  • Facts
  • Reason:原告诉讼理由

(当事人关系常存于facts和reason部分)

  • Miscellaneous items:相关法律、程序、证据的讨论,与文书类型关系不大,因为同一法律可能应用于不同纠纷中


组成部分示意图:

image.png


不同类型借贷纠纷的示例(DOCPL是私人贷款合同纠纷,例子1讨论借贷行为,例子2、3提到借贷诉讼的目的和原因;DOCS是保人合同纠纷):

image.png

如果模型不知道句子之间的关系,可能会忽略关键词guarantor。


2.2 建图

2.2.1 Entity-Matter Graph

matters:识别纠纷类别的重要证据

常是名词,和原被告出现在同一句,所以本文用POS解析器1抽取每一包含原被告的句子里的名词。为了理解matters上发生的动作,我们也抽取了形容被抽取名词的动词,如table2中的borrowed和dollar。


文书节点,原告节点A,被告节点B:

image.png


2.2.2 Entity-Action Graph

案例中,纠纷必然对应某些原被告之间的动作。

本文抽取出现原被告句子中的动词,和每个动作的对象。

image.png


2.2.3 Entity-Keyword Graph

生成原被告相关的主题。

本文用TextRank抽取含有所有当事人句子中的关键词。

image.png


2.2.4 SRL Graph

(subject, predicate, object)

predicate谓语

用LTP工具2从每一句中抽取。

image.png


2.2.5 Combined graph

image.png


2.3 GNN

本文用预训练的词嵌入作为初始节点表征,用GAT聚合得到document节点表征,然后后面的就是常规MLP分类模型了。


3. 实验


3.1 数据集

本文算是给出了一部分的数据集?就给了这些:https://drive.google.com/file/d/1bZVv0TPSjIRsRjO0P67v8Y-K-tb-o7IE/view

image.png


4000个案例(每类最新200个案例),20类。70%训练集,30%测试集。替换指示代词为原被告真名。


3.2 baseline

词嵌入用的是https://github.com/Embedding/Chinese-Word-Vectors

传统机器学习方法词嵌入用的是https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

深度学习方法词嵌入用的是https://huggingface.co/hfl/chinese-roberta-wwm-extlarge

(为什么词嵌入都不统一呢这个小编也不知道!)


基于图的方法:构建文档-词图,即直接连接文档节点及其中的词语节点、在文档中共现的词语节点。


用AUC作为评估指标。


(用不同词嵌入方法的结果见附件)

8dbf12f3f8b847c1960a44b669690a7b.png


3.3 实验设置

在训练集上交叉验证取参数。


3.4 模型分析

image.png

image.png

相关文章
|
1月前
|
机器学习/深度学习 数据挖掘 API
[FastText in Text Classification]论文实现:Bag of Tricks for Efficient Text Classification
[FastText in Text Classification]论文实现:Bag of Tricks for Efficient Text Classification
21 2
|
10月前
|
机器学习/深度学习 数据采集 自然语言处理
MEE: A Novel Multilingual Event Extraction Dataset 论文解读
事件抽取(EE)是信息抽取(IE)的基本任务之一,旨在从文本中识别事件提及及其论点(即参与者)。由于其重要性,已经为事件抽取开发了广泛的方法和资源。
105 0
|
10月前
|
自然语言处理 算法 vr&ar
X-GEAR:Multilingual Generative Language Models for Zero-Shot Cross-Lingual Event Argument Extraction
我们提出了一项利用多语言预训练生成语言模型进行零样本跨语言事件论元抽取(EAE)的研究。通过将EAE定义为语言生成任务,我们的方法有效地编码事件结构并捕获论元之间的依赖关系。
85 0
|
8月前
|
数据挖掘
【提示学习】Prompt Tuning for Multi-Label Text Classification: How to Link Exercises to Knowledge Concept
文章这里使用的是BCEWithLogitsLoss,它适用于多标签分类。即:把[MASK]位置预测到的词表的值进行sigmoid,取指定阈值以上的标签,然后算损失。
|
10月前
|
机器学习/深度学习 移动开发 自然语言处理
DEPPN:Document-level Event Extraction via Parallel Prediction Networks 论文解读
当在整个文档中描述事件时,文档级事件抽取(DEE)是必不可少的。我们认为,句子级抽取器不适合DEE任务,其中事件论元总是分散在句子中
97 0
DEPPN:Document-level Event Extraction via Parallel Prediction Networks 论文解读
|
10月前
|
自然语言处理 数据挖掘 Java
Title2Event: Benchmarking Open Event Extraction with a Large-scale Chinese Title Dataset 论文解读
事件抽取(EE)对于新聚合和事件知识图构建等下游任务至关重要。大多数现有的EE数据集手动定义固定的事件类型,并为每种事件设计特定的模式
111 0
|
10月前
|
自然语言处理 算法 知识图谱
DEGREE: A Data-Efficient Generation-Based Event Extraction Model论文解读
事件抽取需要专家进行高质量的人工标注,这通常很昂贵。因此,学习一个仅用少数标记示例就能训练的数据高效事件抽取模型已成为一个至关重要的挑战。
83 0
|
机器学习/深度学习 数据挖掘
【论文解读】Co-attention network with label embedding for text classification
华南理工出了一篇有意思的文章,将标签和文本进行深度融合,最终形成带标签信息的文本表示和带文本信息的标签表示。
159 1
|
数据可视化 数据挖掘
【论文解读】Dual Contrastive Learning:Text Classification via Label-Aware Data Augmentation
北航出了一篇比较有意思的文章,使用标签感知的数据增强方式,将对比学习放置在有监督的环境中 ,下游任务为多类文本分类,在低资源环境中进行实验取得了不错的效果
271 0
|
机器学习/深度学习 算法 数据挖掘
【多标签文本分类】Large Scale Multi-label Text Classification with Semantic Word Vectors
【多标签文本分类】Large Scale Multi-label Text Classification with Semantic Word Vectors
116 0
【多标签文本分类】Large Scale Multi-label Text Classification with Semantic Word Vectors