复盘|“云”加持下,北大英华加速法律人工智能

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 前沿科技应用于专业性极强的法律行业,人工智能技术如何帮助检索浩瀚如烟的卷宗、起草基本的法律文书和商业合同、对诉讼案件风险进行预测等等,不但能将法律从业者从重复性的工作中解放出来,更能促进“类案同判”带来的法律适用统一性和稳定性,加快实现司法公正。北大英华与阿里云从2019年开始合作,从在云上布置应用到人工智能、大数据等产品的使用,合作逐步深入,也见证着中国法律数字化建设的发展。

2021年麦田创投产业研究院发布了《Legal Tech人工智能的全球与中国市场2022--2028年:技术、参与者、趋势、市场规模及占有率研究报告》,针对Legal Tech主要应用领域——文件管理系统、实践与案例管理、合同管理、IP管理、法律研究、法律分析、网络安全、预测技术等——对比了中国与欧美、日本、东南亚的行业发展情况,分析了行业应用情况、现阶段供需关系和技术趋势。2019Legal Tech的全球市场规模已经达到173.2亿美元,根据预测,2025年这个数字将达到251.7亿美元。

 

Legal Tech是什么?法律科技,它指人类借助计算机技术和数学的应用,使法律更易于理解、易于管理、更可预测,数学家、哲学家莱布尼茨是一位律师,他被认为是Legal Tech的开创人,也是最早研究如何用数学公式改进法律的人。

 

AlphaGo战胜世界围棋冠军的2016年,全球首位人工智能律师Ross诞生,辅助律师实现更高效的案例检索。

 

实际上时至今日,自然语言理解技术在机器理解法律文本上还存在巨大困难,仍是待解难题。以法律科技试图攻克的类案同判为例,法官在处理案件时,除了参照法条,还会参照相似判例的处理方式,目的是维护法律适用的统一性和稳定性,保障司法公正。为了让类案更具参考价值,最高人民法院还会不定期发布指导性案例。但在司法实践中,类案同判还往往依赖于人力寻找类案的判例和法律法规,传统的搜索引擎无法实现基于通篇语义理解的精确查找。

 

这和法律条文、判例的特点有关,由于涉及的领域广、应用行业多、社会要求高,内容浩瀚且严谨、专业性强,其机器理解和关联检索的难度远远超过共享单车、远程医疗、无人驾驶、智慧城市等我们目前相对熟知的情况。

 

北大英华科技中心总监、人工智能研究院副院长杨增元指出:如果能结合AI、大数据技术,通过知识图谱呈现出完整的案例画像,找到影响案件判决的所有因素和特征因子,给出判决推导,或者升级为一套成熟的技术体系生成判决参考,辅助法官更全面地考虑判案因素,兼顾司法公平并提高判案效率,这应该是司法机关比较需要的服务。不过,这仍是一种理想状态。目前利用AI实现类案同判,虽然已取得阶段性成果,但仍面临一定难度。

 

这种理想状态正是北大英华和阿里云共同奔赴的方向。

 

一切从做好检索讲起

 

北大英华科技有限公司,成立于1999年,依托于北京大学优势资源,致力于法律知识工程、法律人工智能等领域的工作。成立之初便聚焦在打造国内最大最先进的法律数据库,为法律专业机构和专业人士提供权威、全面、便利的法律信息检索服务

 

经过30多年不断地改进与完善,北大英华开发的智能型法律信息检索系统北大法宝,已包括法律法规、司法案例、法学期刊、律所实务、专题参考、英文译本、检察文书、行政处罚文书、企业信用等29类数据库,全面涵盖法律信息的各种类型。北大法宝的注册用户为100万,服务机构3万家。最新数据显示,北大法宝全站年访问数达1.2亿次,年活跃用户数达1300万人次。

 

可以说,北大英华自身对法律科技发展的认知和投入一直是行业领先的。任何人工智能的应用,大数据都是根基,秉承这样的理念,北大英华在数据基础领域深耕了多年。同时,把科技+法律双引擎驱动作为发展根基的北大英华,不断加大在前沿技术上的投入以更强有力地支撑业务发展,也顺理成章。

 

在成立初期,北大英华也有过光盘检索、搭建局域网、自建数据中心的经历。

 

2020年左右,北大英华的智能型法律信息检索系统北大法宝业务量翻倍,然而网站的搜索速度却在变慢,搜索结果也没那么准确,杨增元回忆,北大法宝之前的搜索架构特别简单,因为那时的业务量不大,能够应对。业务需求激增下,团队萌生了要寻找一个更好的搜索框架的想法。

 

彼时,阿里云上有一款Elasticsearch检索分析服务产品,场景应用非常广泛,最显著的特征之一是可提供实时分布式搜索日志分析,并且在原来开源版本基础上进行了大量性能优化。抱着试试看的心态,北大英华找到阿里云,开启了双方的合作。

 

据阿里云Elasticsearch产品工程师是溪回忆:企业需要的是集中更多技术资源解决业务问题,对于偏底层资源的运维工作希望有更成熟的解决方案。阿里云判断,北大英华需要的是全托管服务,无需在底层运维上花时间,其技术团队只需基于Elasticsearch,就能快速开发出新的搜索框架,需要的是基于Elasticsearch日志运维监管、加速数据检索、数据查询准确度等通用能力。针对法律这一特殊场景,阿里云还提供了增强服务:基于法律专业术语的强关联场景检索。

 

阿里云采用了达摩院NLP分词技术进行文本预处理,同时对分词库进行了法律领域的定向优化,如法律法规、司法案例、期刊学术等。使用阿里云Elasticsearch,基于分词技术进行深度优化后,对民法进行搜索时,其关键词的权重已经充分考虑了上下文语境。

 

这次合作尝试中,北大英华的新搜索框架,不仅性能上提升两倍以上,还降低了开发成本与运维成本。

 

从大数据到数据库,做好风险透视

 

近年来,北大英华组建人工智能研究院,诚聘各大知名高校及在国际大赛中获奖的学术专家,准备在法律智能化领域大干一场。

 

法宝透镜这款产品就是把北大英华各领域能力的一次打通,利用人工智能技术为企业提供涉诉风险预警及分析报告、合规体检与预警、行业智能分析等服务。

 

涉诉风险多适用于大型企业,这类企业对自身,尤其是子公司的诉讼情况并不完全了解。

 

法宝透镜透视下,企业既可以全盘掌握公司各类诉讼情况,明晰潜在涉诉风险,还能通过平台寻求法律援助,制定全流程的风险应对方案。如涉及知识产权方面的诉讼,能查出该领域哪些知识产权的律师比较权威,相应的判例和法律法规等。

 

企业的经营行为是否符合国家法规、经营是否涉及垄断、是否触碰到污染问题、存在哪些知识产权风险等,这些都属于合规隐患。杨增元表示,不管是合规还是涉诉,都能在法宝透镜里导出一个精准的法务画像,快速辅助企业判断。

 

新搜索框架快速上线后,法宝透镜也有了各种数据沉淀、分析、运营需求,于是北大英华又采用了阿里云的HBase技术,开启了数据库建设。云数据库HBase是面向大数据领域的一站式NoSQL服务,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力。

 

法宝透镜仍在持续迭代发展中,目前基于2亿企业、1.3亿公开全量司法诉讼案件等数据基础构建出了十亿级实体、千亿级关系的知识图谱体系。可对企业、当事人、律师律所、法官法院等主体通过多维度的数据关联及可视化,帮助企业更深入地洞察和更早地识别风险。

 

阿里云输出最强辅助

 

与阿里云合作的初步成效,让北大英华思考另外一个问题:其实好的技术服务商可以提供更好的IaaS能力,作为客户,无需关心底层技术,能腾出手来做更多PaaS层的应用。于是便有了全业务迁移到阿里云的决定

 

现在北大英华的技术团队共有120余人,只需要分出五位来对接阿里云的基础运维工作。运维团队的定位比较明确,一是保障网络服务、硬件服务,能够稳定顺畅安全地运行,二是有一定的风险预知和快速应对能力。杨增元解释,技术团队其他人则全身心投入法律科技这个业务方向上,我们提供的是法律知识服务,这个领域用户的要求很高,这使得我们必须增强PaaS层的大数据和人工智能研发能力。

 

此外,北大英华时常需要支撑一些司法项目、执法项目、重大课题等,安全性和稳定性被放在第一位。遭遇网络攻击,或者被恶意篡改信息等安全风险,都是不可接受的。因此,这类项目都要求做到符合国家要求的等级保护

 

等级保护的实质,是要向国家相关部门证明其具有相当能力的安全防护体系,北大英华与阿里云建立了合作。

 

阿里云在这方面有很多经验,除了法律领域,物流、医疗、在线教育等都会对等保有要求,相应地阿里云有了一套成熟的解决方案,把相应的产品列表给到客户,客户选配了这里面的产品,就可以使这套系统符合国家安全等级保护的要求。阿里云智能架构师王峰回忆。

 

后来北大英华与阿里云联手,陆续完成了一些立法、执法、司法类项目的定制化服务。我们总体的服务对象多集中在政府类,对安全性和稳定性的要求极高,和阿里云合作,对我们成本也是一种节省。杨增元透露。

 

与阿里云合作后,北大英华得以把更多精力放在法律科技业务上,并加速往大数据、人工智能方向发力,这不仅符合中央印发的《法治中国建设规划(2020--2025年)》的规定,充分运用大数据、云计算、人工智能等现代科技手段,全面建设智慧法治,推进法治中国建设的数据化、网络化、智能化,也是北大英华深耕法律科技领域多年,看到的行业趋势。

 

一方面,在同类的法律科技企业,还在以系统集成、用“OA管理流程研发开展业务时,北大英华已经在加速提升自己的数字化、智能化能力。另一方面北大英华服务的许多客户也处于数字化转型中,他们需要合同、诉讼、合规等服务的数字化和智能化。这也是北大英华智慧法务系列产品在大型央企、国企合规建设中取得竞争优势获得客户认可的原因所在。北大英华创始人赵晓海在接受采访时透露。

 

莱布尼茨定义Legal Tech领域已经过去四百多年,科技与法律融合还在路上。

 

本文摘自《云栖战略参考》2022第四期,订阅数字化转型双月刊《云栖战略参考》请扫码(或填写下方链接),工作人员会在审核后为您寄出

https://survey.aliyun.com/apps/zhiliao/xsTiZ4YaM

杂志订阅海报-定稿.png

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
目录
相关文章
|
人工智能 运维 自然语言处理
案例酷|“云”加持下,北大英华加速法律人工智能
案例酷|“云”加持下,北大英华加速法律人工智能
224 0
|
人工智能 安全 算法
人工智能加持 安检行业迈进智能化新时代
经过多年的发展,特别是随着各种国际活动在中国的召开,国内基础设施的建设和轨道交通的快速发展,中国对安检设备的应用需求不断增加,其销售增长率远远高于国际平均水平。
315 0
人工智能加持 安检行业迈进智能化新时代
|
机器学习/深度学习 传感器 人工智能
AI公开课:18.05.09 李英睿(碳云智能)—北大AI第十讲之《人工智能在生命科学中的应用》课堂笔记——带你了解生命科学
AI公开课:18.05.09 李英睿(碳云智能)—北大AI第十讲之《人工智能在生命科学中的应用》课堂笔记——带你了解生命科学
AI公开课:18.05.09 李英睿(碳云智能)—北大AI第十讲之《人工智能在生命科学中的应用》课堂笔记——带你了解生命科学
|
5天前
|
机器学习/深度学习 人工智能 物联网
通义灵码在人工智能与机器学习领域的应用
通义灵码不仅在物联网领域表现出色,还在人工智能、机器学习、金融、医疗和教育等领域展现出广泛应用前景。本文探讨了其在这些领域的具体应用,如模型训练、风险评估、医疗影像诊断等,并总结了其提高开发效率、降低门槛、促进合作和推动创新的优势。
通义灵码在人工智能与机器学习领域的应用
|
6天前
|
人工智能 算法 安全
人工智能在医疗诊断中的应用与前景####
本文旨在探讨人工智能(AI)技术在医疗诊断领域的应用现状、面临的挑战以及未来的发展趋势。随着科技的不断进步,AI技术正逐步渗透到医疗行业的各个环节,尤其在提高诊断准确性和效率方面展现出巨大潜力。通过分析当前AI在医学影像分析、疾病预测、个性化治疗方案制定等方面的实际应用案例,我们可以预见到一个更加智能化、精准化的医疗服务体系正在形成。然而,数据隐私保护、算法透明度及伦理问题仍是制约其进一步发展的关键因素。本文还将讨论这些挑战的可能解决方案,并对AI如何更好地服务于人类健康事业提出展望。 ####