案例酷|“云”加持下,北大英华加速法律人工智能

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 案例酷|“云”加持下,北大英华加速法律人工智能

本文摘自《云栖战略参考》,这本刊物由阿里云与钛媒体联合策划。目的是为了把各个行业先行者的技术探索、业务实践呈现出来,与思考同样问题的“数字先行者”共同探讨、碰撞,希望这些内容能让你有所启发。


前沿科技应用于专业性极强的法律行业,人工智能技术如何帮助检索浩瀚如烟的卷宗、起草基本的法律文书和商业合同、对诉讼案件风险进行预测等等,不但能将法律从业者从重复性的工作中解放出来,更能促进“类案同判”带来的法律适用统一性和稳定性,加快实现司法公正。
北大英华与阿里云从2019年开始合作,从在云上布置应用到人工智能、大数据等产品的使用,合作逐步深入,也见证着中国法律数字化建设的发展。

2021年麦田创投产业研究院发布了《Legal Tech人工智能的全球与中国市场2022--2028年:技术、参与者、趋势、市场规模及占有率研究报告》,针对Legal Tech主要应用领域——文件管理系统、实践与案例管理、合同管理、IP管理、法律研究、法律分析、网络安全、预测技术等——对比了中国与欧美、日本、东南亚的行业发展情况,分析了行业应用情况、现阶段供需关系和技术趋势。2019年Legal Tech的全球市场规模已经达到173.2亿美元,根据预测,2025年这个数字将达到251.7亿美元。


Legal Tech是什么?法律科技,它指“人类借助计算机技术和数学的应用,使法律更易于理解、易于管理、更可预测”,数学家、哲学家莱布尼茨是一位律师,他被认为是Legal Tech的开创人,也是最早研究如何用数学公式改进法律的人。


在AlphaGo战胜世界围棋冠军的2016年,全球首位人工智能律师Ross诞生,辅助律师实现更高效的案例检索。


实际上时至今日,自然语言理解技术在机器理解法律文本上还存在巨大困难,仍是待解难题。以法律科技试图攻克的“类案同判”为例,法官在处理案件时,除了参照法条,还会参照相似判例的处理方式,目的是维护法律适用的统一性和稳定性,保障司法公正。为了让“类案”更具参考价值,最高人民法院还会不定期发布“指导性案例”。但在司法实践中,类案同判还往往依赖于人力寻找“类案”的判例和法律法规,传统的搜索引擎无法实现基于通篇语义理解的精确查找。


这和法律条文、判例的特点有关,由于涉及的领域广、应用行业多、社会要求高,内容浩瀚且严谨、专业性强,其机器理解和关联检索的难度远远超过共享单车、远程医疗、无人驾驶、智慧城市等我们目前相对熟知的情况。


北大英华科技中心总监、人工智能研究院副院长杨增元指出:“如果能结合AI、大数据技术,通过知识图谱呈现出完整的案例画像,找到影响案件判决的所有因素和特征因子,给出判决推导,或者升级为一套成熟的技术体系生成判决参考,辅助法官更全面地考虑判案因素,兼顾司法公平并提高判案效率,这应该是司法机关比较需要的服务。”不过,这仍是一种理想状态。目前利用AI实现类案同判,虽然已取得阶段性成果,但仍面临一定难度。


这种“理想状态”正是北大英华和阿里云共同奔赴的方向。



一切从做好检索讲起


北大英华科技有限公司,成立于1999年,依托于北京大学优势资源,致力于法律知识工程、法律人工智能等领域的工作。成立之初便聚焦在“打造国内最大最先进的法律数据库,为法律专业机构和专业人士提供权威、全面、便利的法律信息检索服务”。


经过30多年不断地改进与完善,北大英华开发的智能型法律信息检索系统“北大法宝”,已包括法律法规、司法案例、法学期刊、律所实务、专题参考、英文译本、检察文书、行政处罚文书、企业信用等29类数据库,全面涵盖法律信息的各种类型。“北大法宝”的注册用户为100万,服务机构3万家。最新数据显示,“北大法宝”全站年访问数达1.2亿次,年活跃用户数达1300万人次。


可以说,北大英华自身对法律科技发展的认知和投入一直是行业领先的。“任何人工智能的应用,大数据都是根基”,秉承这样的理念,北大英华在数据基础领域“深耕”了多年。同时,把“科技+法律”双引擎驱动作为发展根基的北大英华,不断加大在前沿技术上的投入以更强有力地支撑业务发展,也顺理成章。


在成立初期,北大英华也有过光盘检索、搭建局域网、自建数据中心的经历。


在2020年左右,北大英华的智能型法律信息检索系统“北大法宝”业务量翻倍,然而网站的搜索速度却在变慢,搜索结果也没那么准确,杨增元回忆,“北大法宝”之前的“搜索架构特别简单,因为那时的业务量不大,能够应对”。业务需求激增下,团队萌生了要寻找一个更好的搜索框架的想法。


彼时,阿里云上有一款Elasticsearch检索分析服务产品,场景应用非常广泛,最显著的特征之一是可提供“实时分布式搜索”和“日志分析”,并且在原来开源版本基础上进行了大量性能优化。抱着试试看的心态,北大英华找到阿里云,开启了双方的合作。


据阿里云Elasticsearch产品工程师是溪回忆:“企业需要的是集中更多技术资源解决业务问题,对于偏底层资源的运维工作希望有更成熟的解决方案。”阿里云判断,北大英华需要的是全托管服务,“无需在底层运维上花时间,其技术团队只需基于Elasticsearch,就能快速开发出新的搜索框架,需要的是基于Elasticsearch日志运维监管、加速数据检索、数据查询准确度等通用能力”。针对法律这一特殊场景,阿里云还提供了增强服务:基于法律专业术语的强关联场景检索。


阿里云采用了达摩院NLP分词技术进行文本预处理,同时对分词库进行了法律领域的定向优化,如法律法规、司法案例、期刊学术等。使用阿里云Elasticsearch,基于分词技术进行深度优化后,对“民法”进行搜索时,其关键词的权重已经充分考虑了上下文语境。


这次合作尝试中,北大英华的新搜索框架,不仅性能上提升两倍以上,还降低了开发成本与运维成本。



从大数据到数据库,做好风险“透视”


近年来,北大英华组建“人工智能研究院”,诚聘各大知名高校及在国际大赛中获奖的学术专家,准备在法律智能化领域大干一场。


“法宝透镜”这款产品就是把北大英华各领域能力的一次打通,利用人工智能技术为企业提供涉诉风险预警及分析报告、合规体检与预警、行业智能分析等服务。


“涉诉风险”多适用于大型企业,这类企业对自身,尤其是子公司的诉讼情况并不完全了解。


在“法宝透镜”的“透视”下,企业既可以全盘掌握公司各类诉讼情况,明晰潜在涉诉风险,还能通过平台寻求法律援助,制定全流程的风险应对方案。如涉及知识产权方面的诉讼,能查出该领域哪些知识产权的律师比较权威,相应的判例和法律法规等。


“企业的经营行为是否符合国家法规、经营是否涉及垄断、是否触碰到污染问题、存在哪些知识产权风险等,这些都属于合规隐患。”杨增元表示,不管是合规还是涉诉,都能在“法宝透镜”里导出一个精准的法务画像,快速辅助企业判断。


新搜索框架快速上线后,“法宝透镜”也有了各种数据沉淀、分析、运营需求,于是北大英华又采用了阿里云的HBase技术,开启了数据库建设。云数据库HBase是面向大数据领域的一站式NoSQL服务,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力。


“法宝透镜”仍在持续迭代发展中,目前基于2亿企业、1.3亿公开全量司法诉讼案件等数据基础构建出了十亿级实体、千亿级关系的知识图谱体系。可对企业、当事人、律师律所、法官法院等主体通过多维度的数据关联及可视化,帮助企业更深入地洞察和更早地识别风险。



阿里云输出“最强辅助”


与阿里云合作的初步成效,让北大英华思考另外一个问题:其实好的技术服务商可以提供更好的IaaS能力,作为客户,无需关心底层技术,能腾出手来做更多PaaS层的应用。于是便有了全业务迁移到阿里云的决定。


现在北大英华的技术团队共有120余人,只需要分出五位来对接阿里云的基础运维工作。“运维团队的定位比较明确,一是保障网络服务、硬件服务,能够稳定顺畅安全地运行,二是有一定的风险预知和快速应对能力。”杨增元解释,技术团队其他人则全身心投入法律科技这个业务方向上,“我们提供的是法律知识服务,这个领域用户的要求很高,这使得我们必须增强PaaS层的大数据和人工智能研发能力。”


此外,北大英华时常需要支撑一些司法项目、执法项目、重大课题等,安全性和稳定性被放在第一位。遭遇网络攻击,或者被恶意篡改信息等安全风险,都是不可接受的。因此,这类项目都要求做到符合国家要求的“等级保护”。


等级保护的实质,是要向国家相关部门证明其具有相当能力的安全防护体系,北大英华与阿里云建立了合作。


“阿里云在这方面有很多经验,除了法律领域,物流、医疗、在线教育等都会对‘等保’有要求,相应地阿里云有了一套成熟的解决方案,把相应的产品列表给到客户,客户选配了这里面的产品,就可以使这套系统符合国家安全等级保护的要求。”阿里云智能架构师王峰回忆。


后来北大英华与阿里云联手,陆续完成了一些立法、执法、司法类项目的定制化服务。“我们总体的服务对象多集中在政府类,对安全性和稳定性的要求极高,和阿里云合作,对我们成本也是一种节省。”杨增元透露。


与阿里云合作后,北大英华得以把更多精力放在法律科技业务上,并加速往大数据、人工智能方向发力,这不仅符合中央印发的《法治中国建设规划(2020--2025年)》的规定,“充分运用大数据、云计算、人工智能等现代科技手段,全面建设‘智慧法治’,推进法治中国建设的数据化、网络化、智能化”,也是北大英华深耕法律科技领域多年,看到的行业趋势。


一方面,在同类的法律科技企业,还在以“系统集成”、用“OA管理流程研发”开展业务时,北大英华已经在加速提升自己的数字化、智能化能力。另一方面北大英华服务的许多客户也处于数字化转型中,他们需要合同、诉讼、合规等服务的数字化和智能化。“这也是北大英华智慧法务系列产品在大型央企、国企合规建设中取得竞争优势获得客户认可的原因所在。”北大英华创始人赵晓海在接受采访时透露。


莱布尼茨定义Legal Tech领域已经过去四百多年,科技与法律融合还在路上。


相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
Python在人工智能领域的应用案例分析
一、引言 随着人工智能技术的飞速发展,Python作为一种功能强大、易学易用的编程语言,在人工智能领域发挥着越来越重要的作用。本文将介绍Python在人工智能领域的应用案例,包括机器学习、深度学习、自然语言处理等方面,帮助读者了解Python在人工智能领域的实际应用和优势。
|
7月前
|
人工智能 监控 安全
如何制定法律来预防有人使用人工智能来犯罪?
如何制定法律来预防有人使用人工智能来犯罪?
59 1
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
案例酷|从大模型到AIGC:人工智能新范式
案例酷|从大模型到AIGC:人工智能新范式
192 0
|
10月前
|
机器学习/深度学习 人工智能 安全
英特尔oneAPI人工智能黑客松 - 机器视觉挑战案例
英特尔oneAPI人工智能黑客松 - 机器视觉挑战案例
157 0
|
11月前
|
人工智能 边缘计算 达摩院
让 AI 更简单 人工智能平台 SEAL 携手龙蜥落地达摩院算法能力 | 龙蜥案例
轻量、高效、易扩展,龙蜥操作系统可以满足 AI 业务私有化部署的高要求。
|
11月前
|
SQL 人工智能 自然语言处理
玖章算术NineData荣获信通院“生成式人工智能技术和应用优秀案例”奖
玖章算术的 NineData 智能 SQL 开发在技术能力和产品能力方面表现出色,凭借创新的产品设计和顶级的技术实力等优势,在主办评委和各方的认可下,最终脱颖而出,并荣获“2023可信AI案例生成式人工智能技术和应用优秀案例”殊荣。
802 0
玖章算术NineData荣获信通院“生成式人工智能技术和应用优秀案例”奖
|
12月前
|
机器学习/深度学习 人工智能 运维
《云原生架构容器&微服务优秀案例集》——01 互联网——任意门 基于云原生 AI 套件打造人工智能的社交网络平台
《云原生架构容器&微服务优秀案例集》——01 互联网——任意门 基于云原生 AI 套件打造人工智能的社交网络平台
301 0
|
12月前
|
机器学习/深度学习 人工智能 运维
《2023云原生实战案例集》——04 互联网——任意门 基于云原生AI套件打造人工智能的社交网络平台
《2023云原生实战案例集》——04 互联网——任意门 基于云原生AI套件打造人工智能的社交网络平台
|
人工智能 API 语音技术
人工智能:通过Python实现语音合成的案例
今天给大家介绍一下基于百度的AI语音技术SDK实现语音合成的案例,编程语言采用Python,希望对大家能有所帮助!
人工智能:通过Python实现语音合成的案例
|
人工智能 运维 自然语言处理
复盘|“云”加持下,北大英华加速法律人工智能
前沿科技应用于专业性极强的法律行业,人工智能技术如何帮助检索浩瀚如烟的卷宗、起草基本的法律文书和商业合同、对诉讼案件风险进行预测等等,不但能将法律从业者从重复性的工作中解放出来,更能促进“类案同判”带来的法律适用统一性和稳定性,加快实现司法公正。 北大英华与阿里云从2019年开始合作,从在云上布置应用到人工智能、大数据等产品的使用,合作逐步深入,也见证着中国法律数字化建设的发展。
290 0
复盘|“云”加持下,北大英华加速法律人工智能