Re29:读论文 D2GCLF: Document-to-Graph Classifier for Legal Document Classification

简介: Re29:读论文 D2GCLF: Document-to-Graph Classifier for Legal Document Classification

1. Background


和传统分类任务不同,不同类的法律文书也可能在语义上高度相似:


DOCSCRH(商业住房产权纠纷)类型(只有房地产公司能出售商业住房):

image.png

DOCSPHP(房屋买卖合同纠纷)类型:

image.png


本文认为,有两点原因造成传统文本分类方法不适用于法律领域:

  1. 传统文本分类没有充分利用文本结构信息。一些过去的方法用句子关系来解决这一问题,但并非所有句子都于预测任务有利。
  2. 法律案例中事实与理由部分最重要,但现在的词贡献图难以表征关键事实,且含大量与预测任务无关的词语。

本文认为法律文书分类任务最重要在理解事实,本文表示为实体之间的关系。


2. D2GCLF


从法律抽取中抽取关键当事人(原告和被告)的事实构成4个图:

  1. Entity-Matter
  2. Entity-Action
  3. Entity-Keyword(主题)
  4. Semantic Role Labeling (SRL):建模更广泛的关系,包括有第三方人事的

然后组合4张图,过GNN(GAT),得到图表征,作为文书表征,实现分类。


整体架构图:

image.png


2.1 Motivation和民事诉讼文书数据分析

民事诉讼文书组成部分:

  • Entity information sections:诉讼当事人的信息
  • Facts
  • Reason:原告诉讼理由

(当事人关系常存于facts和reason部分)

  • Miscellaneous items:相关法律、程序、证据的讨论,与文书类型关系不大,因为同一法律可能应用于不同纠纷中


组成部分示意图:

image.png


不同类型借贷纠纷的示例(DOCPL是私人贷款合同纠纷,例子1讨论借贷行为,例子2、3提到借贷诉讼的目的和原因;DOCS是保人合同纠纷):

image.png

如果模型不知道句子之间的关系,可能会忽略关键词guarantor。


2.2 建图

2.2.1 Entity-Matter Graph

matters:识别纠纷类别的重要证据

常是名词,和原被告出现在同一句,所以本文用POS解析器1抽取每一包含原被告的句子里的名词。为了理解matters上发生的动作,我们也抽取了形容被抽取名词的动词,如table2中的borrowed和dollar。


文书节点,原告节点A,被告节点B:

image.png


2.2.2 Entity-Action Graph

案例中,纠纷必然对应某些原被告之间的动作。

本文抽取出现原被告句子中的动词,和每个动作的对象。

image.png


2.2.3 Entity-Keyword Graph

生成原被告相关的主题。

本文用TextRank抽取含有所有当事人句子中的关键词。

image.png


2.2.4 SRL Graph

(subject, predicate, object)

predicate谓语

用LTP工具2从每一句中抽取。

image.png


2.2.5 Combined graph

image.png


2.3 GNN

本文用预训练的词嵌入作为初始节点表征,用GAT聚合得到document节点表征,然后后面的就是常规MLP分类模型了。


3. 实验


3.1 数据集

本文算是给出了一部分的数据集?就给了这些:https://drive.google.com/file/d/1bZVv0TPSjIRsRjO0P67v8Y-K-tb-o7IE/view

image.png


4000个案例(每类最新200个案例),20类。70%训练集,30%测试集。替换指示代词为原被告真名。


3.2 baseline

词嵌入用的是https://github.com/Embedding/Chinese-Word-Vectors

传统机器学习方法词嵌入用的是https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

深度学习方法词嵌入用的是https://huggingface.co/hfl/chinese-roberta-wwm-extlarge

(为什么词嵌入都不统一呢这个小编也不知道!)


基于图的方法:构建文档-词图,即直接连接文档节点及其中的词语节点、在文档中共现的词语节点。


用AUC作为评估指标。


(用不同词嵌入方法的结果见附件)

8dbf12f3f8b847c1960a44b669690a7b.png


3.3 实验设置

在训练集上交叉验证取参数。


3.4 模型分析

image.png

image.png

相关文章
|
机器学习/深度学习 并行计算 PyTorch
CUDA驱动深度学习发展 - 技术全解与实战
CUDA驱动深度学习发展 - 技术全解与实战
608 1
|
6月前
|
缓存 监控 API
电商 API 场景中,电商平台将核心完整诊断、分析和优化过程
某头部电商平台通过分阶段性能优化,将核心 API 的 QPS 从 100 提升至 1000。优化涵盖架构、应用、代码和运维四层,包括引入 API 网关、数据库分库分表、多级缓存、异步化改造、序列化优化、容器化弹性伸缩等关键手段,并结合 Jaeger、Prometheus、wrk 等工具进行性能诊断与监控。最终平均响应时间下降 4.7 倍,错误率降低 15 倍,资源使用率显著下降,系统稳定性与吞吐能力大幅提升。
|
4月前
|
数据可视化 测试技术 API
从接口性能到稳定性:这些API调试工具,让你的开发过程事半功倍
在软件开发中,接口调试与测试对接口性能、稳定性、准确性及团队协作至关重要。随着开发节奏加快,传统方式已难满足需求,专业API工具成为首选。本文介绍了Apifox、Postman、YApi、SoapUI、JMeter、Swagger等主流工具,对比其功能与适用场景,并推荐Apifox作为集成度高、支持中文、可视化强的一体化解决方案,助力提升API开发与测试效率。
|
8月前
|
安全 算法 Ubuntu
Linux(openssl)环境:编程控制让证书自签的技巧。
总结:在Linux环境中,OpenSSL是一个非常实用的工具,可以帮助我们轻松地生成自签名证书。通过上述三个简单步骤,即可为内部网络、测试环境或开发环境创建自签名证书。但在公共访问场景下,建议购买经过权威认证机构签发的证书,以避免安全警告。
368 13
|
10月前
|
人工智能 缓存 监控
AI 网关需要具备的 10 大基本能力
我们认为 AI 网关并不是独立于 API 网关的新形态,本质也是一种 API 网关,区别在于针对 AI 场景的新需求专门做了扩展,它既是 API 网关的继承,也是 API 网关的演进。因此我们从 API 视角,对 AI 网关的能力做了分类,便于形成概念的共识。
444 12
|
10月前
|
机器学习/深度学习 存储 弹性计算
社区签到
每日在社区首页、开发者大数据页面、云原生等12个页面签到,每页可获5积分,总计61分。周一至周五连续签到,周五可抽奖(仅3次机会),其他页面额外获20积分,因此周五积分最高。签到积分需前往积分商城领取,可用于兑换奖品。坚持签到积累更多积分,享受丰富回报!
547 9
|
10月前
|
Java 数据库连接 Maven
【YashanDB知识库】私有maven使用崖山JDBC驱动
本文介绍如何将YashanDB的JDBC驱动包(yashandb-jdbc-1.5.1.jar)安装到Maven本地仓库。通过使用`mvn install:install-file`命令,指定参数如`-Dfile`(jar路径)、`-DgroupId`、`-DartifactId`和`-Dversion`等,可完成打包。之后,在项目中只需在`pom.xml`中添加对应依赖即可使用该驱动,方便集成与管理。
|
12月前
|
自然语言处理 搜索推荐 算法
VectoRex:向量数据库
VectoRex 是一款高性能、可扩展的开源向量搜索引擎,专为现代 AI 和大数据应用设计。它具备轻量级、可嵌入和独立部署等优势,适用于推荐系统、图像搜索、自然语言处理等场景。
661 22
|
9月前
|
安全 算法 数据建模
HTTPS证书类型和品牌一览
HTTPS证书(SSL证书)是保障网站数据传输安全与身份可信认证的重要工具,适用于电商、企业官网等各类平台。证书主要分为DV(域名验证)、OV(企业验证)、EV(扩展验证)三种安全级别,以及单域名、通配符、多域名等不同覆盖类型。品牌方面,既有高性价比的国产锐安信、CFCA,也有国际知名的Sectigo、Digicert。

热门文章

最新文章