智能司法领域的 NLP 技术与应用|学习笔记-阿里云开发者社区

智能司法领域的 NLP 技术与应用|学习笔记

2022-11-21 570

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

NLP自然语言处理_基础版，每接口每天50万次

NLP 自学习平台，3个模型定制额度 1个月

NLP自然语言处理_高级版，每接口累计50万次

简介： 快速学习智能司法领域的 NLP 技术与应用

开发者学堂课程【达摩院自然语言处理 NLP 技术和应用：智能司法领域的 NLP 技术与应用】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/41/detail/955

智能司法领域的 NLP 技术与应用

内容介绍：

一、智能司法背景

二、智能司法 NLP 涉足的环节

三、智能审核的服务中台

四、智能司法的应用点

一、智能司法背景

在浙江省每年案件量呈现10%～20%的增长，员额法官的数量基本上保持不变，因此就出现了案多人少。目前每年每个法官大概需要办理345个案件，并且这个数据在持续的上升。

其次简单案件花费了大量的精力而且这些很多都是重复性的的劳动。此外，裁判标准较难以统一;同案同判，缺少一定的标尺;除了法官这块的一些困境之外，当事人在里边也有两个困境。第一，他不会写诉讼状，不善于归纳40个理由。

第二，整个的结果较难预测，而且整个司法裁判的过程不是特别透明。基于此，就做出了一个项目叫智能审判的引擎。一方面帮助法官减负，提升法官的办案效率，另一方面方面能更好的便民。

二、智能司法 NLP 涉足的环节

智能司法涉足的 NLP 环节可以从刚开始的导述到最终的裁判。

在导述阶段，有自助的问答机器人，有类案推送和结果预测。此外，还有调节建议的生成。在立案阶段，有诉状的生成，包括要素完整性的判断。在庭审阶段，有笔录自动生成（语音转文字）以及文本摘要的生成。在判决阶段，有类案推送、预判结果和要点审核、证据三性认定以及判决书的生成。

以上可以看出整个数据，整个闭环数据的积累有利于各个环节的之中迭代优化。

三、智能审核的服务中台

在底层，有两个原子化的能力。一个是司法知识图谱协作平台能力，另一个是 NLP 自学习平台能力。

NLP 平台融入了标注、预测和训练为一体的平台。 LFK 可以根据自己的项目定制自己化的标注。

我们可以做到自适应当中的训练和预测。知识图谱的平台，可以把他们判案的逻辑树立到我们的平台上。

随着数据的积累，知识图谱会有一定的判案能力。在上层，有解决方案的建设平台。包括一些通用能力和一些案件处理能力。通用能力包括案件文本结构化、OCR、ASR调节策略生成以及 AI 问答机器人、庭审笔录的生成等等。

四、智能司法的应用点

1.咨询的法律背景

AI咨询机器人在很多场景下都会使用到，在智能司法当中其更多的是解决一些专业的司法方面问题。

2.智能司法应用点①——AI 咨询机器人

人工客服也是有一些法律背景的。第一、AI客服可以减少一定的人工成本，第二、它可以根据客户的回答，经过引导没有描述清楚的一些必要性信息的填写，第三、根据提问判断是否可以做进一步的邀约。邀约专业的人士来回答此问题。咨询机器人首先对一些问题做大致的分类，子类当中目前有八大领域，上百个子类。

此外，除了叫做意图识别之外，当做一些相似问题的推荐时，有意图识别会识别到某一个子类上去。当前子类下有很多问题。

相似的问题很多的回答不太一样。目前我们拥有大量的采访文书、知识图谱、法律百科等等。后面还需要做一些信息的整合，做为答案内容的一个优化。

AI咨询机器人是多轮对话，在意图识别、相似问题技术、答案内容优化、多轮对话研究点上，都会同步进展。目前也有一些阶段性的成果。

3.智能司法应用点②——信息抽取

基于审判要素的抽取是跟案由相关的，因此将会抽取20个维度。信

息抽取的应用是信息回填、类案推送、信息分类等。

4.智能司法的应用点③——类案推荐

类案推荐大部分是基于关键词的匹配方式，也就是计算两个文档的相似性，这边的切入点是基于要素的匹配

两个文案相似性里面有很多不可以参与里面的计算，如人名，地名等等。做好了案件的结构化之后，可以很好地基于案由关注的一些维度处理出来，基于两个案由关注的一些维度，做一个相似度的匹配，最终算出一个像素的一个值。在这个方面很好地辅助金融在智能的辅助审判以及法律咨询的平台。

很多人对法律咨询的平台类似于一个不太懂法律的用户，对他们进行提问，问一个问题，之后，可以根据这个问题找一些跟当天问题较相似的已经审判过的案件，把该案件返回给用户，给他们做一个参考。

5.智能司法的应用点④——庭审笔录的撰写

ASR最近两年大规模地使用在庭审笔录上面，通过对比发现庭ASR庭审笔录和数据源的庭审笔录大概只60%~70%是相同的，而30%左右是不同的。所以需要做的几个事情，第一、针对庭审笔录进展一个语言模型。第二、口语文本的顺滑，包括一些词汇的识别，包括一些重复片段的检测。第三、在实体修正方面，包括一些热词的修正，对其挖掘一些专有的术语予以修正。第四、标点还原，包括多任务的还原以及书名号的还原。第五、文本标准化，包括数字文本标准化，里面分为有监督和无监督标准化。ASR最近两年大规模地使用在庭审笔录上面，通过对比发现庭ASR庭审笔录和数据源的庭审笔录大概只60%~70%是相同的，而30%左右是不同的。

对于实体修正后的事例，比如在法律术语上面“到签”变成“倒签”。修正后会把它们恢复到以前的文本中去。通过这样的方式可以降低速记员修改率20%。

6.智能司法的应用点⑤——自动裁判

因为需要对结果做一个预判，司法是一个严谨的过程，每一步都需要一定的理由，因此采用基于图谱的裁判。

好处是：1、结果是可以解释，可以回溯的，便于撰写到裁判文书中。2、图谱制度可以不停地积累法官的裁判知识。当一个法条发生变动时，只需要修改图谱，需要改动算法和流程。

以网络交易纠纷中的欺诈案由为例，这是一个知识图谱的一个局部，顶点代表两个典型的诉讼请求，一个是退换货款另一个是三倍赔偿。

白色部分为未激活的区域，代表不诉不理，蓝色部分为激活的区域，每一个代表审查的点。

整个部分是自体向上的推理过程。如果根据前面的设施判定为欺诈，那么一定会退还货款。是否为三倍赔偿，要看当前的消费者，如果是一个正常的消费者，那么就会三倍赔偿。如果是一个职业打假人，那仅仅可能是退换货款。

左边的图形，是根据案件的表征同时训练两个纠纷的任务，一个是纠纷的原因，一个是纠纷的结果。同时还有两个诉讼的任务，一个是事实的认定，一个是审判的结果。

基于多任务多表征学习的智能审判，可以有效提升审判的结果。最右边的表格是实验一方面，评估了的是单任务的效果。另一方面通过实验对比，去掉类似于知识图谱或者买家卖家，都会有不同程度的下降。说明多任务多表征的智能审判是对整个审判结果是有明显的提升的。下降说明多任务多标准的智能审判对整个的审判结果是有明显的提升的。

7.智能司法的应用点⑥——裁判文书自动生成

裁判文书自动生成这块采用基于模板的信息点。基于信息的抽取，有大量的信息被处理出来，这些信息抽取可以很好的把这些信息放到裁判文书当中。

有一些基于这种逻辑的推理的判断，基于整个知识图谱，可以很好的把整个数据做一些内向的回溯，回添到裁判文书里面去，这是给予自动裁判文书生成的一个结果。