案例酷|“云”加持下,北大英华加速法律人工智能

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 案例酷|“云”加持下,北大英华加速法律人工智能

本文摘自《云栖战略参考》,这本刊物由阿里云与钛媒体联合策划。目的是为了把各个行业先行者的技术探索、业务实践呈现出来,与思考同样问题的“数字先行者”共同探讨、碰撞,希望这些内容能让你有所启发。


前沿科技应用于专业性极强的法律行业,人工智能技术如何帮助检索浩瀚如烟的卷宗、起草基本的法律文书和商业合同、对诉讼案件风险进行预测等等,不但能将法律从业者从重复性的工作中解放出来,更能促进“类案同判”带来的法律适用统一性和稳定性,加快实现司法公正。
北大英华与阿里云从2019年开始合作,从在云上布置应用到人工智能、大数据等产品的使用,合作逐步深入,也见证着中国法律数字化建设的发展。

2021年麦田创投产业研究院发布了《Legal Tech人工智能的全球与中国市场2022--2028年:技术、参与者、趋势、市场规模及占有率研究报告》,针对Legal Tech主要应用领域——文件管理系统、实践与案例管理、合同管理、IP管理、法律研究、法律分析、网络安全、预测技术等——对比了中国与欧美、日本、东南亚的行业发展情况,分析了行业应用情况、现阶段供需关系和技术趋势。2019年Legal Tech的全球市场规模已经达到173.2亿美元,根据预测,2025年这个数字将达到251.7亿美元。


Legal Tech是什么?法律科技,它指“人类借助计算机技术和数学的应用,使法律更易于理解、易于管理、更可预测”,数学家、哲学家莱布尼茨是一位律师,他被认为是Legal Tech的开创人,也是最早研究如何用数学公式改进法律的人。


在AlphaGo战胜世界围棋冠军的2016年,全球首位人工智能律师Ross诞生,辅助律师实现更高效的案例检索。


实际上时至今日,自然语言理解技术在机器理解法律文本上还存在巨大困难,仍是待解难题。以法律科技试图攻克的“类案同判”为例,法官在处理案件时,除了参照法条,还会参照相似判例的处理方式,目的是维护法律适用的统一性和稳定性,保障司法公正。为了让“类案”更具参考价值,最高人民法院还会不定期发布“指导性案例”。但在司法实践中,类案同判还往往依赖于人力寻找“类案”的判例和法律法规,传统的搜索引擎无法实现基于通篇语义理解的精确查找。


这和法律条文、判例的特点有关,由于涉及的领域广、应用行业多、社会要求高,内容浩瀚且严谨、专业性强,其机器理解和关联检索的难度远远超过共享单车、远程医疗、无人驾驶、智慧城市等我们目前相对熟知的情况。


北大英华科技中心总监、人工智能研究院副院长杨增元指出:“如果能结合AI、大数据技术,通过知识图谱呈现出完整的案例画像,找到影响案件判决的所有因素和特征因子,给出判决推导,或者升级为一套成熟的技术体系生成判决参考,辅助法官更全面地考虑判案因素,兼顾司法公平并提高判案效率,这应该是司法机关比较需要的服务。”不过,这仍是一种理想状态。目前利用AI实现类案同判,虽然已取得阶段性成果,但仍面临一定难度。


这种“理想状态”正是北大英华和阿里云共同奔赴的方向。



一切从做好检索讲起


北大英华科技有限公司,成立于1999年,依托于北京大学优势资源,致力于法律知识工程、法律人工智能等领域的工作。成立之初便聚焦在“打造国内最大最先进的法律数据库,为法律专业机构和专业人士提供权威、全面、便利的法律信息检索服务”。


经过30多年不断地改进与完善,北大英华开发的智能型法律信息检索系统“北大法宝”,已包括法律法规、司法案例、法学期刊、律所实务、专题参考、英文译本、检察文书、行政处罚文书、企业信用等29类数据库,全面涵盖法律信息的各种类型。“北大法宝”的注册用户为100万,服务机构3万家。最新数据显示,“北大法宝”全站年访问数达1.2亿次,年活跃用户数达1300万人次。


可以说,北大英华自身对法律科技发展的认知和投入一直是行业领先的。“任何人工智能的应用,大数据都是根基”,秉承这样的理念,北大英华在数据基础领域“深耕”了多年。同时,把“科技+法律”双引擎驱动作为发展根基的北大英华,不断加大在前沿技术上的投入以更强有力地支撑业务发展,也顺理成章。


在成立初期,北大英华也有过光盘检索、搭建局域网、自建数据中心的经历。


在2020年左右,北大英华的智能型法律信息检索系统“北大法宝”业务量翻倍,然而网站的搜索速度却在变慢,搜索结果也没那么准确,杨增元回忆,“北大法宝”之前的“搜索架构特别简单,因为那时的业务量不大,能够应对”。业务需求激增下,团队萌生了要寻找一个更好的搜索框架的想法。


彼时,阿里云上有一款Elasticsearch检索分析服务产品,场景应用非常广泛,最显著的特征之一是可提供“实时分布式搜索”和“日志分析”,并且在原来开源版本基础上进行了大量性能优化。抱着试试看的心态,北大英华找到阿里云,开启了双方的合作。


据阿里云Elasticsearch产品工程师是溪回忆:“企业需要的是集中更多技术资源解决业务问题,对于偏底层资源的运维工作希望有更成熟的解决方案。”阿里云判断,北大英华需要的是全托管服务,“无需在底层运维上花时间,其技术团队只需基于Elasticsearch,就能快速开发出新的搜索框架,需要的是基于Elasticsearch日志运维监管、加速数据检索、数据查询准确度等通用能力”。针对法律这一特殊场景,阿里云还提供了增强服务:基于法律专业术语的强关联场景检索。


阿里云采用了达摩院NLP分词技术进行文本预处理,同时对分词库进行了法律领域的定向优化,如法律法规、司法案例、期刊学术等。使用阿里云Elasticsearch,基于分词技术进行深度优化后,对“民法”进行搜索时,其关键词的权重已经充分考虑了上下文语境。


这次合作尝试中,北大英华的新搜索框架,不仅性能上提升两倍以上,还降低了开发成本与运维成本。



从大数据到数据库,做好风险“透视”


近年来,北大英华组建“人工智能研究院”,诚聘各大知名高校及在国际大赛中获奖的学术专家,准备在法律智能化领域大干一场。


“法宝透镜”这款产品就是把北大英华各领域能力的一次打通,利用人工智能技术为企业提供涉诉风险预警及分析报告、合规体检与预警、行业智能分析等服务。


“涉诉风险”多适用于大型企业,这类企业对自身,尤其是子公司的诉讼情况并不完全了解。


在“法宝透镜”的“透视”下,企业既可以全盘掌握公司各类诉讼情况,明晰潜在涉诉风险,还能通过平台寻求法律援助,制定全流程的风险应对方案。如涉及知识产权方面的诉讼,能查出该领域哪些知识产权的律师比较权威,相应的判例和法律法规等。


“企业的经营行为是否符合国家法规、经营是否涉及垄断、是否触碰到污染问题、存在哪些知识产权风险等,这些都属于合规隐患。”杨增元表示,不管是合规还是涉诉,都能在“法宝透镜”里导出一个精准的法务画像,快速辅助企业判断。


新搜索框架快速上线后,“法宝透镜”也有了各种数据沉淀、分析、运营需求,于是北大英华又采用了阿里云的HBase技术,开启了数据库建设。云数据库HBase是面向大数据领域的一站式NoSQL服务,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力。


“法宝透镜”仍在持续迭代发展中,目前基于2亿企业、1.3亿公开全量司法诉讼案件等数据基础构建出了十亿级实体、千亿级关系的知识图谱体系。可对企业、当事人、律师律所、法官法院等主体通过多维度的数据关联及可视化,帮助企业更深入地洞察和更早地识别风险。



阿里云输出“最强辅助”


与阿里云合作的初步成效,让北大英华思考另外一个问题:其实好的技术服务商可以提供更好的IaaS能力,作为客户,无需关心底层技术,能腾出手来做更多PaaS层的应用。于是便有了全业务迁移到阿里云的决定。


现在北大英华的技术团队共有120余人,只需要分出五位来对接阿里云的基础运维工作。“运维团队的定位比较明确,一是保障网络服务、硬件服务,能够稳定顺畅安全地运行,二是有一定的风险预知和快速应对能力。”杨增元解释,技术团队其他人则全身心投入法律科技这个业务方向上,“我们提供的是法律知识服务,这个领域用户的要求很高,这使得我们必须增强PaaS层的大数据和人工智能研发能力。”


此外,北大英华时常需要支撑一些司法项目、执法项目、重大课题等,安全性和稳定性被放在第一位。遭遇网络攻击,或者被恶意篡改信息等安全风险,都是不可接受的。因此,这类项目都要求做到符合国家要求的“等级保护”。


等级保护的实质,是要向国家相关部门证明其具有相当能力的安全防护体系,北大英华与阿里云建立了合作。


“阿里云在这方面有很多经验,除了法律领域,物流、医疗、在线教育等都会对‘等保’有要求,相应地阿里云有了一套成熟的解决方案,把相应的产品列表给到客户,客户选配了这里面的产品,就可以使这套系统符合国家安全等级保护的要求。”阿里云智能架构师王峰回忆。


后来北大英华与阿里云联手,陆续完成了一些立法、执法、司法类项目的定制化服务。“我们总体的服务对象多集中在政府类,对安全性和稳定性的要求极高,和阿里云合作,对我们成本也是一种节省。”杨增元透露。


与阿里云合作后,北大英华得以把更多精力放在法律科技业务上,并加速往大数据、人工智能方向发力,这不仅符合中央印发的《法治中国建设规划(2020--2025年)》的规定,“充分运用大数据、云计算、人工智能等现代科技手段,全面建设‘智慧法治’,推进法治中国建设的数据化、网络化、智能化”,也是北大英华深耕法律科技领域多年,看到的行业趋势。


一方面,在同类的法律科技企业,还在以“系统集成”、用“OA管理流程研发”开展业务时,北大英华已经在加速提升自己的数字化、智能化能力。另一方面北大英华服务的许多客户也处于数字化转型中,他们需要合同、诉讼、合规等服务的数字化和智能化。“这也是北大英华智慧法务系列产品在大型央企、国企合规建设中取得竞争优势获得客户认可的原因所在。”北大英华创始人赵晓海在接受采访时透露。


莱布尼茨定义Legal Tech领域已经过去四百多年,科技与法律融合还在路上。


相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
2月前
|
人工智能 边缘计算 算法
CDGA|利用人工智能与边缘计算显著提升数据治理效率与效果的实践案例
​ 在当今数字化转型的浪潮中,数据已成为企业最宝贵的资产之一。然而,随着数据量的爆炸性增长,如何高效、安全地治理这些数据成为企业面临的重要挑战。人工智能(AI)与边缘计算技术的融合,为数据治理带来了前所未有的机遇。本文将通过实际案例,探讨如何利用AI与边缘计算显著提升数据治理的效率和效果。
|
4月前
|
人工智能 Java 定位技术
人工智能ChatGPT 体验案例:使用ChatGPT实现java扫雷小游戏
这篇文章通过一个使用ChatGPT实现的Java扫雷小游戏案例,展示了ChatGPT在编程领域的应用能力。文章中包含了扫雷游戏的Java代码实现,代码中初始化了雷区地图,随机放置雷,计算每个格子周围雷的数量,并提供了一个简单的文本界面与用户交互进行游戏。游戏通过控制台输入接受玩家的指令,并给出相应的反馈。
人工智能ChatGPT 体验案例:使用ChatGPT实现java扫雷小游戏
|
4月前
|
机器学习/深度学习 人工智能 数据处理
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
探测外太空中的系外行星是天文学和天体物理学的重要研究领域。随着望远镜观测技术的进步和大数据的积累,科学家们已经能够观测到大量恒星的光度变化,并尝试从中识别出由行星凌日(行星经过恒星前方时遮挡部分光线)引起的微小亮度变化。然而,由于数据量巨大且信号微弱,传统方法难以高效准确地识别所有行星信号。因此,本项目旨在利用机器学习技术,特别是深度学习,从海量的天文观测数据中自动识别和分类系外行星的信号。这要求设计一套高效的数据处理流程、构建适合的机器学习模型,并实现自动化的预测和验证系统。
85 1
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
|
4月前
|
机器学习/深度学习 人工智能 算法
【人工智能】传统语音识别算法概述,应用场景,项目实践及案例分析,附带代码示例
传统语音识别算法是将语音信号转化为文本形式的技术,它主要基于模式识别理论和数学统计学方法。以下是传统语音识别算法的基本概述
105 2
|
4月前
|
机器学习/深度学习 人工智能 搜索推荐
【人工智能】人工智能在医疗健康中的应用以及实际案例和进展概述
人工智能(Artificial Intelligence, AI)在医疗健康领域的应用日益广泛,为医疗服务的提升和健康管理带来了革命性的变化。以下是人工智能在医疗健康中的主要应用
1253 1
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】TensorFlow简介,应用场景,使用方法以及项目实践及案例分析,附带源代码
TensorFlow是由Google Brain团队开发的开源机器学习库,广泛用于各种复杂的数学计算,特别是涉及深度学习的计算。它提供了丰富的工具和资源,用于构建和训练机器学习模型。TensorFlow的核心是计算图(Computation Graph),这是一种用于表示计算流程的图结构,由节点(代表操作)和边(代表数据流)组成。
92 0
|
5月前
|
人工智能 数据挖掘 大数据
爆赞!GitHub首本标星120K的Python程序设计人工智能案例手册
为什么要学习Python? Python简单易学,且提供了丰富的第三方库,可以用较少的代码完成较多的工作,使开发者能够专注于如何解决问题而只花较少的时间去考虑如何编程。此外,Python还具有免费开源、跨平台、面向对象、胶水语言等优点,在系统编程、图形界面开发、科学计算、Web开发、数据分析、人工智能等方面有广泛应用。尤其是在数据分析和人工智能方面,Python已成为最受开发者欢迎的编程语言之一,不仅大量计算机专业人员选择使用Python进行快速开发,许多非计算机专业人员也纷纷选择Python语言来解决专业问题。 由于Python应用广泛,关于Python的参考书目前已经有很多,但将Pytho
|
6月前
|
人工智能 数据挖掘 大数据
538个代码示例!麻省理工教授的Python程序设计+人工智能案例实践
Python简单易学,且提供了丰富的第三方库,可以用较少的代码完成较多的工作,使开发者能够专注于如何解决问题而只花较少的时间去考虑如何编程。 此外,Python还具有免费开源、跨平台、面向对象、胶水语言等优点,在系统编程、图形界面开发、科学计算、Web开发、数据分析、人工智能等方面有广泛应用。 尤其是在数据分析和人工智能方面,Python已成为最受开发者欢迎的编程语言之一,不仅大量计算机专业人员选择使用Python进行快速开发,许多非计算机专业人员也纷纷选择Python语言来解决专业问题。 由于Python应用广泛,关于Python的参考书目前已经有很多,但将Python编程与数据分析、人工智
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】第五部分:ChatGPT的实际应用案例和未来发展方向
【人工智能】第五部分:ChatGPT的实际应用案例和未来发展方向
223 3
|
6月前
|
人工智能 数据挖掘 大数据
538个代码示例!麻省理工教授的Python程序设计+人工智能案例实践
Python简单易学,且提供了丰富的第三方库,可以用较少的代码完成较多的工作,使开发者能够专注于如何解决问题而只花较少的时间去考虑如何编程。 此外,Python还具有免费开源、跨平台、面向对象、胶水语言等优点,在系统编程、图形界面开发、科学计算、Web开发、数据分析、人工智能等方面有广泛应用。 尤其是在数据分析和人工智能方面,Python已成为最受开发者欢迎的编程语言之一,不仅大量计算机专业人员选择使用Python进行快速开发,许多非计算机专业人员也纷纷选择Python语言来解决专业问题。 由于Python应用广泛,关于Python的参考书目前已经有很多,但将Python编程与数据分析、人工智
下一篇
DataWorks