阿里来了位技术新童鞋,一秒K.O八位律师

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: AI与法务,会擦出怎样的火花? 日前在阿里巴巴内部,进行了这样一场特殊的“比赛”。600份在线协议,8位专业律师用了一周时间完成审核,而人工智能仅用时1秒,并且在这600份协议中,标记出的问题准确率达到100%。

AI与法务,会擦出怎样的火花?

日前在阿里巴巴内部,进行了这样一场特殊的“比赛”。600份在线协议,8位专业律师用了一周时间完成审核,而人工智能仅用时1秒,并且在这600份协议中,标记出的问题准确率达到100%。

这是阿里巴巴信息平台企业数据智能部的工程师们,自主研发的智能合同诊断系统,用AI代替法务进行互联网在线协议的审核工作。究竟AI在法务领域如何运用?背后有哪些技术原理?以下是我们给出的解决方案。

背景

互联网背景下的消费者权益保护成为大众关注的新焦点。这其中就包括了客户服务协议、用户隐私协议等消费者与运营商签署的互联网在线协议问题。阿里巴巴因为业务线众多,对于此类协议的审查与更新工作更是一项庞大工程。

目前人工审核一份在线协议的平均时长在30分钟左右,并且由于文字量大、规则多,人工检查不可能100%覆盖,人工审核标准不够统一。有没有可能让AI来代替法务进行审核工作?在这样的背景下,智能合同诊断系统上线了。

这套智能合同诊断系统主要做两件事,一是判断出不该出现的内容(如:违反法律法规的违禁词、侵犯消费者权限的条款、模糊表述等);二是判断哪些是原本应该出现的内容,并给出修改建议或推荐用词。

84c6012f8fca3dede06ed9466803d3248ce77b9b

智能合同诊断系统检查出风险点,并给出推荐表述

看似简单,但实际在系统学习过程中却困难重重:

1、法律语言表达和自然语言的差异性

目前普遍在做的NLP应用,大部分是基于自然语言进行处理。例如社交网络语言,更加接近人们对话的用语表达。而法律用语和自然语言用语之间存在较大差异,法律语言通常有其特定领域的表达规范和逻辑,和我们通常的自然语言表述有较大差异。这就导致了现有的研究成果无法直接应用于法务领域,需要做特定领域的迁移。

2、技术和业务场景的鸿沟

如果不具备法务法律领域相关知识基础,有好的NLP技术也不一定能在法务领域落地。能够将法务领域需求抽象并和技术相结合,具有很大挑战,需要跨领域人才和多领域人才密切配合。

3、标注数据的稀缺性

在法务领域,数据十分稀缺,而且往往涉及到敏感信息和商业机密,导致了数据无法共享。有些场景仅有少量标注数据。

4、较高的准确性要求

法务领域对算法指标要求较高,特别有些场景对算法的召回率有严格要求,因为一旦漏掉关键信息有可能造成较大的法律风险;此外,法务很多场景对算法可解释性要求较高,因此算法不但要知其然还要知其所以然。

解决方案

在搭建系统时,第一步就是针对法务领域建立行业词库和知识图谱。

只有首先教会系统理解法律术语,而不是自然语言,接下来才能更好训练系统去理解法律概念。基于阿里巴巴大量的在线协议、合同、诉讼等各种法律文书,采用大规模无监督的短语挖掘方法 Phrase Mining[1,2] 能自动从文书中提取出行业关联度较强的短语,例如:“包括但不限于”、“授权委托书”、“过失侵权行为”等;

同时,法务专家会根据特定业务场景梳理出业务规则,比如在在线协议领域,就标注出一份禁止用语清单,以及出现相关禁用语的对应推荐词可供机器学习。比如:“一经公告、立即生效”的推荐表述为“公告之后的7日后生效”等。针对大量这些法务规则输入,从技术角度解析为知识图谱上的点,变为计算机可以处理的格式。

词的向量表示

基于大规模训练的通用词向量几乎对所有NLP任务都有显著帮助。而针对法务领域而言,由于有其特定的领域特性,我们在通用的词向量基础上,加入了大量法务领域文书的语料,使得学习到的词向量在法务领域表现更为突出。

普通的词向量模型大多采用 Word2Vec 或者 GloVe 训练得到,最近的一项研究[3]发现基于 context 的词向量 ELMo 能够进一步提升帮助多个NLP 任务。

37974ef820fb678ee5f1b41ceaa6ea990eea92d6

基于context的词向量本质是语言模型的词向量,词向量不仅仅是词本身的函数,也同时是句子里面其他词以及序列位置的函数。在法务领域中我们也尝试了ELMo 语言模型得到词向量,提升了模型性能。

冷启动和快速样本标注

标注数据一直是机器学习问题最重要的要素之一,只有拥有了大量标注数据才能训练得到比较好的模型。然而在法务领域,标注数据的获取是非常昂贵的,需要具备法律专业的人士进行标注。

为了取得效率和成本的权衡,我们首先基于专家输入的规则和知识图谱,构建了基于规则系统的自动标注服务,能够对存量数据进行自动打标。另一方面,可以替换关键词,自动生成标注数据。例如:“一经公告、立即生效”,可以将“立即”替换为“立刻”、“立马”、“即刻”等,通过这种方式可以生成大量的标注数据。

主动学习。规则毕竟是有限的,虽然可以解决一部分问题,但是无法解决模型的泛化能力,最终还是需要依赖一部分人工标注。为了减少人工标注成本,可以采用主动学习方法。每次仅需要人工标注最不确定的那些少量样本就可以很大程度提升模型的性能。

cba621bee2a7c60eccc3137f65a505ecd9ed5dd2

多模型组合

文本分类技术也经历了从传统基于规则、人工特征到目前基于深度学习的技术演变过程。目前比较流行的技术方案是基于RNN的序列模型、基于CNN的模型,以及在此基础上演化而来的各种变种,比如结合注意力(attention)机制,用预训练的词嵌入(Word Embedding)等方法。

73261907ddb8807c4a74d565a680ce06d76ce381

在法务垂直领域中,我们利用 ELMo 构建了领域特性的词向量作为模型的输入,针对在线协议审查这一具体问题设计了一种结合CNN和RNN的深度神经网络:C-GRU模型。不仅充分捕捉了核心词与周围词的关系,也解决了长句依赖问题。

深度学习模型虽然能较好解决违规表述的分类问题,但是由于模型对于用户而言是黑盒,可解释性差。在线协议智能审核不仅要找到违规的条款表述,还需要定位到具体哪些词语引起的,以及需要改成什么样的才是推荐的表述。

因此我们的最终方案采取深度学习模型负责高召回,将所有可能产生违规表述的条款检测出来。然后采用句法分析和规则方法对条款进行解析,定位到具体违规表述的位置和推荐表达。这种方案的优点是利用深度学习提高召回率,用规则进行精确定位。

1ad2cdd8c59b99e9d2b14c58696576621f713cf1

目前在线协议AI诊断系统除了极大提升协议审核效率,实现秒级审核速度,平均准确率在94%以上,每年相当于节省130人日的工作量。

未来规划

近年来,以深度学习和自然语言处理为代表的人工智能技术取得巨大突破,也开始在法律智能领域崭露头角,受到学术界和产业界的广泛关注。智能合同诊断只是我们在智能法务领域的第一步探索,除此之外,更多在合同、诉讼文书以及裁决文书上的工作正在进行中。

在技术上,我们进一步和阿里巴巴机器智能技术(MIT) 合作共建,加强在行业知识图谱构建、机器阅读理解以及信息抽取技术在法律领域应用的研究与探索。沉淀法律领域基础数据资源,构建领域特点的自然语言处理平台,共同服务于多样化的法律业务中。

除了自然语言处理技术之外,我们还会在音视频技术上加大投入,如图像识别,光学字符识别(OCR)、手写字符识别、ASR等。用于处理不同类型的法律材料,解决自然语言处理上游多源信息输入问题。我们的最终目标是构建全链路全能力的法务AI能力。

相信法务AI能力的建设和完善能够服务于广大普通用户、律师、法院等法律行业从业者。

阿里巴巴信息平台事业部-企业数据智能团队,集数据,算法,产品为一体,拥有文本,运筹,视觉等多类别AI能力,通过发掘数据内在价值,提升企业智能化管理水平。

团队成员曾活跃于TREC QA Track,LFW(Labeled Faces in the Wild),ACM/ICPC等各大赛事,博士占比25%。


原文发布时间为:2018-05-30

本文作者:信息平台小助手

本文来自云栖社区合作伙伴“阿里技术”,了解相关信息可以关注“阿里技术”。

相关文章
|
6月前
|
监控 Java 应用服务中间件
硬核神作|2w字带你拿下Sentinal
硬核神作|2w字带你拿下Sentinal
|
物联网 机器人 智能硬件
数字商圈有什么用?江湖之中武林之外有三位高人这么说……
数字商圈有什么用?江湖之中武林之外有三位高人这么说……
172 0
|
缓存 移动开发 前端开发
字节前端二面凉凉记录,晋级赛失败
面试日期为 2021-06-06 18:00 接着上回一面后,有个人给我打电话了,问我可不可以二面,我毕竟抱着学习的态度来面试的,但是万一成了呢,我突然紧张了。感觉答应的唐突了,但是感觉没事,毕竟滴滴二面时那种八股文我已经又准备了一遍。
|
缓存 移动开发 JavaScript
5.17-5.25 大厂一轮面试题目全记录(腾讯PCG、WXG、虾皮、字节)
本瓜前段时间(2020.05.17 ~ 2020.05.25)可能由于机缘巧合?获得了几家大厂的面试资格。遂去试了试水(不该裸面呀),发现自己还是火候不够。
|
分布式数据库 双11 OceanBase
倒计时6天|同行十二年,每一“步”都算数
8 月 10 日,OceanBase 将在北京、上海、深圳,以“三地分布式”形式举办「2022 年 OceanBase 年度发布会」,届时,OceanBase 将重磅发布 4.0 版本,并围绕产品技术、公有云、开源、服务等话题展开讨论。此次大会以“小就是大”为主题,突破技术极限的一小步,迈向产业的一大步,小就是大,small is the new big!
106 0
倒计时6天|同行十二年,每一“步”都算数
实战!拿着造假的简历领了人生中第一个需求
  最近有一个朋友,拿着包装的简历去到了公司干货,虽然不是一个大厂,但是也领到了自己人生中第一个需求,虽然说这个需求我看起来不是很难,但是对于我朋友那种自学转行的人来说还是有一定难度的,这个需求我们来看看是什么需求把,其实也很简单:利用java代码根据文字生成随机浅色背景的图片,而且字体也要可变换。
146 0
实战!拿着造假的简历领了人生中第一个需求
程序人生 - 王者荣耀正确刷荣耀称号的方法解析
程序人生 - 王者荣耀正确刷荣耀称号的方法解析
468 0
|
运维 Oracle 架构师
OBCE首位认证 实力与颜值并存 | 90后技术宅郑皓嘉的通关之路
2021年9月28日,90后技术宅郑皓嘉正式通过了专家组面试答辩,成为首位通过OBCE的实验及面试的专家,获取了OceanBase历史上第一份OBCE认证。
407 0
OBCE首位认证 实力与颜值并存 | 90后技术宅郑皓嘉的通关之路
|
Java 程序员 双11
双11解码,这份程序员的浪漫请查收
一分钟激情下单,背后是陈酿已久的攻略研究;双11上云狂欢节,这份程序员的友情包裹已送达。
双11解码,这份程序员的浪漫请查收