小律所,大数据:诉讼的数据化时代

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 【大数据文摘-律师交流群成立】如果您对大数据、法律都感兴趣,请在后台给我们留言,在群中您会找到志同道合者,而且您可以与本文的作者——天同律师事务所周蔚在群众深入交流,请留言“法律”,谢谢。 诉讼案件会产生大量文档,而这些文档蕴藏的数据对此后同类型案件的代理和审判具有很高的参考价值。


诉讼案件会产生大量文档,而这些文档蕴藏的数据对此后同类型案件的代理和审判具有很高的参考价值。法律业大数据的时代已悄然到来。天同律师事务所是一个专注于商事诉讼的小律所,却希望通过实施诉讼大数据的战略,从更广泛的角度来分析、评价案件,为更多诉讼律师提供有价值的信息。

当前,大数据的概念被各个行业广泛讨论,似乎我们一夜之间就进入了大数据时代,各种大数据的研讨会、讲座、营销方案蜂拥而至,让人眼花缭乱。在这样的语境下,中国的律师事务所也开始谈论大数据,一时间“大数据”概念风靡法律服务行业,见面要是不谈论大数据,就好像没有摸到时代的脉搏。

受IBM、麦肯锡和O’Reilly等公司的影响,关于大数据如何改善法律服务的文章也越来越多,但是很多文章是基于自身营销目的进行宣传,对大数据的核心思想(特别是法律行业如何使用大数据)并不了解,有些观点甚至有些偏颇。新一轮技术浪潮刚刚兴起,全世界的法律行业都期待使用新的工具和方法提升法律服务品质。法律业大数据的时代已悄然到来。

一、大数据是什么?

什么是“大数据”?目前并没有统一的定义。IBM 提供了一个充分的简单易懂的表述:大数据有以下三个特点:大批量(Volume)、高速度(Velocity)和多样化(Variety)。

大批量——大数据体积庞大。企业里到处充斥着数据,信息动不动就达到了TB级,甚至是PB级。

高速度——大数据通常对时间敏感。为了最大限度地发挥其业务价值,大数据必须及时使用起来。

多样化——大数据超越了结构化数据,它包括所有种类的非结构化数据,如文本、音频、视频、点击流、日志文件等等都可以是大数据的组成部分。

MSDN的Brian Smith在IBM的基础上增加了第四点:变异性——数据可以使用不同的定义方式来进行解释,不同的问题需要不同的阐释。法律大数据是大数据的子类,但由于外部环境的动态变化、定义方式的不同,对法律大数据的界定没有明确的内涵和外延,变异性的特点尤为突出。

二、大数据对律所有何用?

新技术观察作家Derrick Harris对律师事务所基于大数据如何进行流程优化提出了三方面的见解:

一是文档检索可能是大数据对法律工作影响最大的领域。律所通常存储海量的非结构化电子文档,包括电子邮件、Office文档、PDF文档等等,从数以TB计的数据中检索案件相关文档简直就是律师的噩梦,费时、费力而且准确性差。通过大数据智能分析软件,律所能够大大提高文档检索效率。例如大数据创业公司Recommind开发的大数据软件能通过机器学习算法进行“预测编码”,大大提高法律文档的检索效率。另外一家值得关注的企业——PureDiscovery的语义分析技术也有大幅提高文档检索效率的功用。

二是诉讼案件中会产生大量文档,而这些文档“蕴藏”的数据对后来的代理和审判具有很高的参考价值。大数据创业公司LexMachina的目标客户是知识产权律师,为他们提供决策支撑数据统计服务。LexMachina将很多过去的较为模糊的定性数据都给量化了,例如“这位法官对被告很不利”、“这种索赔的案件通常都能赢”或“这位律师对此类技术的经验值最高”等。LexMachina数据分析的数据源主要来自公开的PACER(联邦法庭数据库),PACER的数据一直存在,但是LexMachina是第一家通过机器学习和自然语言处理等技术从中“淘宝”的公司。值得注意的是Recommind也在不断开发新的产品Hypergraph(超级图谱),用来帮助律师发现人、话题、时间线、非结构化数据之间关联关系等。

三是律师们需要自己动手,创造性地利用各种现成的大数据工具和数据源。例如律师可以使用类似ScraperWiki这样的工具分析证人的Twitter联系人网络和活动记录。律师还可以使用类似etcML这样的免费工具(对应的付费服务如AlchemyAPI)分析各种文本,包括推文和电子邮件,来发现关键观念或进行倾向性判断。零用import.io这样的工具从网站抽取数据(例如房产价格历史数据),并制作成图表。

在美国,法律行业就大数据的工具和方法已经展开实质性探讨,创业型的IT公司纷纷将目光投向传统的法律服务行业,例如最近创业公司Judicata刚刚宣布获得了来自Khosla Ventures的580万美元融资,这家公司想做的事就是更好地帮助律师进行法律研究,其在线服务预计在今年夏季发布 beta 版。但由于法律体系、司法环境、互联网政策的差异和语言上的障碍,Derrick Harris提到了的这些工具很难在中国的律师事务所直接运用。因此,当中国还没有针对法律行业的大数据分析工具时,天同律师事务所提出大数据分析方法要与自身核心业务结合,向IT服务市场明确提出自身大数据运用需求,待时机成熟时在自身的核心业务中高效运用大数据工具。

三、天同律师事务所的大数据战略

天同诉讼大数据战略,其目的在于建构对法律大数据进行分析、提炼、加工、推荐的大数据分析体系,而非存储庞大数据信息仅仅用于信息检索。换言之,如果把诉讼大数据比作一种投资,那么这笔投资实现盈利的关键,在于提高对各类法律大数据的“加工能力”,通过“加工”实现信息的“增值”。对于天同的核心业务诉讼而言,“增值”服务的主要对象是天同律师,即天同的客户关系管理体系中的内部客户,大数据能够精准预测他们在案件代理过程中的需求,对于提高案件代理质量和服务效率是不言而喻的。

天同律师事务所专注中国高端民商事诉讼,精于二审及再审案件的代理,尤其擅长处理重大、疑难、复杂的商事诉讼,取得了极高的胜诉率。高胜诉率的背后,体现了天同对案件的精细化管理,每个案件通过33道工序整理,展现了天同律师精益求精的工作态度和卓越的知识储备。目前,天同对于高端民商事诉讼的法律信息处理,主要是通过人工来完成,案件卷宗的梳理、案情可视化展示、相关法律法规检索、指导性案例的查询,每一步都有大量的人工处理,效率的提升往往依靠辅庭律师的熟练掌握。通过实施诉讼大数据的战略,希望能从更多的角度来分析、评价案件,提高法律检索的效率和全面性,为出庭律师提供更多有价值信息,形成对案件的全面认知,以便构思最佳的代理策略。天同律师在诉讼过程中运用大数据分析,不仅在案件的办理阶段,而是覆盖整个业务流程,即便天同没有代理但进行过分析论证的案件,也将提供大数据分析的阶段性结论供客户参考。具体来讲,天同律师在业务流程中进行大数据分析的一般过程如下:

前期论证阶段,解决文档电子化和案件难度预判的问题,对案情宏观结构进行解构和初步标签化处理,为下阶段大数据分析进行准备工作。

磋商代理阶段,解决案件胜率判断和律师费用计算问题,案件的胜率取决于外部司法环境、管辖地、对方律师等,还取决于案件内部主要争议证据材料的掌握情况、法律适用、代理经验等因素。例如,将证据材料与待证事实之间的关联关系作为标签,对这种关联关系是否成立进行大数据分析,故我们能够基于大数据分析,对证据与案件事实间的关联关系进行评估(大数据思想:只问关联关系,而不问因果关系),进而结合其他因素对案件胜率进行评估。律师费用的计算,不妨也采用大数据分析,对同类案件的市场平均价格快速获取并统计,结合案件难度为天同的诉讼代理寻求合理报价。

案件办理阶段,随着案件信息的更新,事实争议和法律争议已经逐渐清楚,这一阶段的大数据分析集中在案外相关因素的分析上,为争议的本质提供新的洞见,或者新的证据,例如审理法官的相关观点、纠纷产生时所在行业的数据,最新商事审判的价值判断,以及相关的“天同码”。

结案归档阶段,评估大数据分析的使用效果,并对标签及其逻辑结构的知识进行归档,完善案件标签化体系(元数据方法);将前期的预判结果与最后的裁判结果进行比对,进而对此类案件的标签化方法进行调整。

天同诉讼大数据运行机制,在总体设计上,由一大流程、两大系统组成,即“标签判断流程、大数据检索系统、大数据统计分析系统”每个流程或系统都具备信息输入和输出的功能,是大数据分析中信息处理加工的中间环节,最后形成的成果形式是“为案件提供更多有价值的知识 ”。

最终目的:天同诉讼大数据战略,最终目的在于为高端诉讼提供更多的理解视角,为诉讼案件提供更多的洞见和理解,在天同的业务流程的每个阶段充分运用大数据分析的方法,使得天同“三大诉讼法宝”——诉讼可视化、模拟法庭、大数据与知识管理能够融会贯通、相互配合,确保“三大诉讼法宝”成为天同诉讼业务的核心竞争力。使得天同的诉讼大数据与知识管理工具被业界广泛知晓,更好地为我们的客户提供诉讼法律服务。


原文发布时间为:2014-04-19


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
348 7
|
1月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
53 2
|
1月前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
90 1
|
2月前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
56 3
|
29天前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
69 4
|
1月前
|
存储 大数据 数据管理
大数据分区简化数据维护
大数据分区简化数据维护
24 4
|
1月前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
58 3
|
1月前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
71 2
|
1月前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
115 2