大数据成为证据的新标准:完整性 复合性 科学性

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

大数据并非严格意义上的证据,因为被万维网络记录下来的大数据是杂乱的,分散的,尚不具备作为证明案件事实的证据资格,只有在将相关数据进行客观完整采集的基础上,运用科学的数据处理技术进行连接、运算和分析,它们才能为证明案件事实提供有价值的分析结论,成为证据。大数据成为证据除了要求具有传统的证据三性之外,还要具备新的标准。笔者以2012年—2014年奇虎诉腾讯滥用市场支配地位案(以下简称奇虎诉腾讯案)为例,对大数据成为证据所应具备的新标准进行阐释。

一、数据内容的完整性

大数据转变为证据要求所依赖和利用的数据必须具有完整性,即应采集获取与所证明事项或目标相关的完整数据,唯有如此,所作出的分析结果才具有充分的证明力。在奇虎诉腾讯案中,奇虎证明相关商品市场范围时所提供的艾瑞咨询《中国即时通信年度检测报告》(2010-2011年),其所依据的数据就缺乏完整性,艾瑞咨询监测了个人电脑端即时通信软件的数据,但未监测统计手机和平板电脑等移动端即时通信软件的数据,也未将即时通信产品作为核心产品一部分的微博和SNS社交网站产品纳入到相关市场商品集合中进行数据监测统计,因此不能用来有效地划定本案相关市场的范围。

二、数据来源的复合性

大数据不是从单一来源中形成证据的,大数据到证据的转变需要针对具体事项和目标的需要,通过对多个不同来源的数据库或信息相互关联,从中多维分析挖掘才能够实现,这是一个复杂的分析挖掘复合形成的过程。奇虎诉腾讯一案中法院多次使用了CNNIC第24次《中国互联网络发展状况统计报告》和艾瑞咨询《中国即时通信年度检测报告》(2010-2011年),其中CNNIC拥有高效、安全、稳定的互联网基础资源服务平台,从1997年成立至今已发布了38次《中国互联网络发展状况统计报告》,其统计报告的调查数据和分析结论就具有典型的复合性。艾瑞咨询是拥有国内数据累积时间最长、规模最大、最为稳定的各类数据库,并通过多种指标研究帮助行业建立评估和衡量的标准,至今发布了大量互联网行业的数据统计分析报告,同样具有典型的复合性。在奇虎诉腾讯案中,法院就是根据这两个机构提供的统计数据对既使用移动端即时通信服务又使用个人电脑端即时通信服务的网民数量进行推算,结果是1.7亿人,约占个人电脑端即时通信服务用户总数的48.6%;而且法院根据艾瑞咨询报告的预测,作出合理预见:用户用移动端即时通信服务替代个人电脑端即时通信服务的可能性和比例将进一步增大,这对个人电脑端即时通信服务的经营者形成了有效的竞争约束。据此法院将移动端即时通信服务纳入了本案相关商品市场范围。

三、数据处理技术的科学性

大数据是海量的,分散的、无形的,必须借助科学有效的大数据处理技术才能从中获取有价值的大数据证据。所谓数据处理技术的科学性是指必须采用相关技术领域普遍认同的技术方法,或者可以进行相应验证的技术方法。唯有采用科学的数据处理方法,才能保证通过该方法形成的数据处理结论具有可靠性、具有证明力。在奇虎诉腾讯一案中,法院在认定腾讯是否可以控制商品价格时,使用了CNNIC《中国即时通信用户调研报告》(2009年度)、艾瑞咨询《中国即时通信用户行为研究报告》(2010-2011年)和eNet的调查结果。其中CNNIC《中国即时通信用户调研报告》(2009年度)指出,不愿意为使用即时通信服务付费的用户高达60.6%。艾瑞咨询《中国即时通信用户行为研究报告》(2010-2011年)则表明,2010年51.2%的中国即时通信用户从未支付任何费用。eNet调查结果也显示,如果腾讯QQ即时通信服务收费,只有6.69%的用户表示将付费并继续使用,81.71%的用户将转而使用其他即时通信软件。上述报告或结果很明显使用的是数据处理技术中的统计与分析技术,其主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行常规的分析和分类汇总等,其方法已得到业界的普遍认同,具有科学性。据此法院认为,在免费的互联网基础即时通信服务已经长期存在并成为通行商业模式的情况下,用户对即时通信服务价格的改变会有极高的敏感度,如果从免费模式改为收费模式,哪怕是收费较低都会产生客户大量流失的风险,故法院认定腾讯控制商品价格的能力较弱。

2015年8月国务院印发的《促进大数据发展行动纲要》明确指出大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。为此,我们应将大数据的思维和方法运用到我国司法领域,将完整的数据作为证据基础,复合的数据库作为证据来源,科学的数据处理技术作为证明方法,从中发现和获取新的知识、创造新的价值,通过大数据分析结果为认定疑难事实提供可靠有效的依据。


本文作者:李慧

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
12天前
|
人工智能 分布式计算 大数据
超级计算与大数据:推动科学研究的发展
【9月更文挑战第30天】在信息时代,超级计算和大数据技术正成为推动科学研究的关键力量。超级计算凭借强大的计算能力,在尖端科研、国防军工等领域发挥重要作用;大数据技术则提供高效的数据处理工具,促进跨学科合作与创新。两者融合不仅提升了数据处理效率,还推动了人工智能、生物科学等领域的快速发展。未来,随着技术进步和跨学科合作的加深,超级计算与大数据将在科学研究中扮演更加重要的角色。
|
4月前
|
数据采集 分布式计算 DataWorks
MaxCompute产品使用问题之如何确保数据完整性验证有效
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
4月前
|
存储 数据采集 NoSQL
DTS在迁移大数据量的MongoDB数据库时如何保证数据的准确性和完整性?
【6月更文挑战第4天】DTS在迁移大数据量的MongoDB数据库时如何保证数据的准确性和完整性?
131 1
|
存储 数据采集 机器学习/深度学习
什么是科学问题,大数据考试题
什么是科学问题,大数据考试题
96 2
什么是科学问题,大数据考试题
|
数据采集 SQL 存储
数据引力,数据倾斜,数据距离,大数据科学
本文主要内容是介绍教育大数据的定义与作用,在了解教育大数据前我们首先要了解什么是大数据。大数据技术是21世纪最具时代标志的技术之一。国务院发布的《促进大数据发展行动纲要》中提出“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合”。简单的说,大数据就是将海量碎片化的信息数据能够及时地进行筛选、分析,并最终归纳、整理出我们需要的资讯。
193 2
数据引力,数据倾斜,数据距离,大数据科学
|
数据可视化 大数据 索引
|
存储 数据采集 算法
区块链+大数据=数据完整性新纪元?
每当提到区块链一词时,许多人都会将其与比特币等加密货币联系起来。这项技术通过加快交易速度、提供隐私和透明以及其他更多功能,确实改变了虚拟货币的世界。
|
人工智能 物联网 大数据
云栖科技评论第60期:云、大数据与AI:大科学时代的“三剑客”
简单一句话:数据是介质,云是协作平台,AI是知识发现的助力。有趣的是,随着支持大科学时代的大尺度问题的解决,不断面对大规模数据计算与存储、大范围协作平台以及深层次知识发现等问题的云与AI,也将得到“反哺”,得以实现“高维”学习,持续提高其功能与能力。
3576 0
|
大数据 量子技术 vr&ar

热门文章

最新文章