Re18:读论文 GCI Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis

简介: Re18:读论文 GCI Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis

1. Background


1.1 因果推理

自变量treatment,因变量outcome,自变量上的改变量intervention,计算自变量被扰动是否会引起因变量变化以及如何变化,就是因果推理

Confounder:变量,同时影响自变量和因变量

treated group是自变量为1的,反之是untreated group


1.2 因果图

image.png

factor(本文中所有factor都是二元变量)和charge是节点,因果关系是边

传统的结合文本的因果推理方法比较简单,就直接将文本视作一个节点,而没有考虑不同的aspect如事件等。


1.3 PAG

image.png


2. 模型


image.png

从事实描述文本中自动构建因果图,用因果推理来辅助法律决策的制定,本文中similar charge disambiguation任务上测试了该框架的效果。

①用关键词抽取(用YAKE+IDF计算单词对罪名的重要性),来识别出事实描述中的key factors。②将相似的key factors聚类到组中,每个组视为一个独立节点。(图的节点的每个组和罪名)③用对未识别变量鲁棒(无监督抽取可能导致关键词不完全,因果发现时有未识别confounder)的causal discovery algorithm(Greedy Fast Causal Inference (GFCI))来构造因果图。(输出是Partial Ancestral Graph (PAG))(在附录中可以看到,这种算法能够识别出隐factor)(限制:1. 禁止罪名节点出边。2. 以案例(事件描述文本)的时间顺序来限制因果关系)(抽样因果图)④估算每条边的causal strength来减少不可靠边的影响。(保持Confounder不变)(方法:Average Treatment Effect (ATE))(估算ATE的方法:Propensity Score Matching (PSM) 在treated/untreated group之间构建相似样本对)

将因果知识结合到NN中:①在NN attention weights上加入causal strength限制(加损失函数)。②在因果图上抽取出的因果链上使用RNN。

image.png


3. 实验


3.1 数据集

本文使用的是CAIL数据集。


3.2 实验结果

证明的结果:(1) 构建的因果图是合理的。(2) 可以捕捉到文本中的细微差别,尤其在训练数据很少时。

image.png


证明因果的优势的baseline:GCI-co(correlation-based graph,factor之前如皮尔森相关系数>0.5则从出现更早的频率更高的factor连一条边到另一个)

解释了一下为什么没用多任务等范式、没用预训练模型,以前的结合因果推理的工作无法捕捉文本内部的因果关系所以也不作为baseline。

比较了不同训练集比例下模型的表现效果。

每个实验在3个随机种子上跑,以平均ACC和macro-F1作为指标。

408763f714694733813d352bb472109b.png


3.3 因果图质量分析

因果发现过程的鲁棒性,因果图的敏感度分析


  1. Random Confounder
  2. Placebo Treatment
  3. Subset of Data

image.png

image.png


3.4 人工评估:看attention

image.png


3.5 讨论

聚类导致的粒度变粗、否定语义、pronoun resolution、intent


3.6 由于数据不平衡而产生的性别公平问题

False Positive Equality Difference (FPED) and False Negative Equality Difference (FNED)

image.png

相关文章
|
运维 网络虚拟化 5G
带你读《ONAP技术详解与应用实践》之一:网络自动化挑战及ONAP介绍
国内首部系统剖析ONAP的书籍,也是理论性与实战性兼具的网络自动化实践指导书!本书详细全面地介绍了网络自动化的挑战和发展趋势,以及ONAP的概况、架构设计理念、设计原则、各模块实现细节、关键特性、应用场景和案例实践等。通过本书读者可以深入理解ONAP,提升对网络自动化及相关领域的认知。作者及其团队成员均是华为网络开源领域的专家,长期参与社区的治理、贡献和回馈,致力于通过产业协作,打造统一的平台,降低集成成本,加快新技术导入,助力新一代网络运维系统升级。同时,本书也融入了作者及其团队在网络开源领域的深刻洞察和见解,书中分享了华为参与网络开源的实践经验,是电信网络转型的重要参考。
|
6月前
|
Java 调度 开发者
线程池
线程池是一种管理多个线程的技术,通过复用线程减少创建和销毁的开销,提高多线程编程效率。它帮助开发者简化线程管理,避免资源浪费和过度线程切换。Java中通过Executor框架实现线程池,核心类包括ExecutorService、ThreadPoolExecutor等,支持任务提交、调度及关闭操作。本文介绍其使用方法与内部架构。
191 3
|
网络虚拟化
网络二层环路,老练的网工,都是这么排查的!
网络二层环路,老练的网工,都是这么排查的!
937 0
ConnectionResetError: [Errno 104] Connection reset by peer|4-16
ConnectionResetError: [Errno 104] Connection reset by peer|4-16
|
前端开发 JavaScript 开发工具
前端开发最佳实践与工具推荐
【7月更文挑战第22天】前端开发是一个充满挑战和机遇的领域,掌握最佳实践和高效工具是提升开发效率、保证项目质量的关键。通过遵循版本控制、构建和部署、编写高质量代码、性能优化和安全性等最佳实践,并结合代码编辑工具、版本控制工具、包管理工具、构建工具、调试工具等实用工具,我们可以更好地完成前端开发任务,提升个人和团队的竞争力。
|
云安全 存储 运维
首次全面解析云原生成熟度模型:解决企业「诊断难、规划难、选型难」问题
从“上云”到“云上”原生,云原生提供了最优用云路径,云原生的技术价值已被广泛认可。当前行业用户全面转型云原生已是大势所趋,用户侧云原生平台建设和应用云原生化改造进程正在加速。
3121 97
首次全面解析云原生成熟度模型:解决企业「诊断难、规划难、选型难」问题
|
机器学习/深度学习 人工智能 算法
入门人工智能的书籍推荐
入门人工智能的书籍推荐
|
JSON 负载均衡 Java
Springcloud OpenFeign 详解
Springcloud OpenFeign 详解
851 1
|
机器学习/深度学习 存储 算法
C# | 凸包算法之Graham,快速找到一组点最外侧的凸多边形
这篇关于凸包算法的文章,本文使用C#和Graham算法来实现凸包算法。 首先消除两个最基本的问题: 什么是凸包呢? 凸包是一个包围一组点的凸多边形。凸多边形是指多边形中的每个内角都小于180度的多边形。 凸包算法有什么用呢? 凸包算法的作用是找到这个凸多边形,并且使用最少的点来绘制出它的轮廓。凸包算法在计算机图形学、计算几何和机器学习等领域中有着广泛的应用。
407 0