“大数据”模式的法律风险

简介:

继今年6月《广州日报》起诉“今日头条”并达成和解协议之后,近日又传出“今日头条”被围剿的消息。6月24日搜狐高调起诉“今日头条”侵犯著作权和不正当竞争。同时,国家版权局宣布对“今日头条”立案调查。至此,作为新闻数据的聚集者与加工者的“今日头条”,命运堪忧!然而,该事件对笔者的思考不仅于此,“大数据”模式的法律风险才是更值得关注的问题!

“大数据”模式

所谓“大数据”模式,其实是将巨量的数据资料通过撷取、分析,从而提取有价值的规律性信息,以供政府、企业、个人等决策使用。换句话说,“大数据”模式本质上是巨量数据的“二次加工”。这种“二次加工”不仅存在于信息空间,也存在于传统世界。

在信息空间,“大数据”模式的加工对象是各种各样的“电子数据”。笔者认为,“今日头条”就是一种典型的“大数据”模式。“今日头条”并不生产新闻数据,而是将各个新闻媒体发布的巨量新闻数据进行撷取、分析,进而根据新闻数据的重要性和关注程度推送给用户阅读。这其实是“大数据”模式在新闻行业的应用。

传统领域也有“大数据”模式。曾经有人与笔者讨论一个商业案例,某零售企业对商业圈内的社区垃圾进行收集和数据分析,并以此判断社区居民的消费需求。这种“大数据”商业模式无疑是成功的。然而,笔者更关心这种“大数据”模式是否侵犯社区居民的隐私权。

实际上,近日的“今日头条”事件,已经凸显了“大数据”模式的法律风险。

  

“大数据”模式的法律问题

“大数据”模式的首要法律问题是数据本身的法律属性。比如说,“今日头条”所撷取的新闻数据可能是不受著作权保护的时事新闻,也可能是享受著作权保护的文字作品。那么文字作品的著作权或者传播者权如何保护?如果“今日头条”以商业目的对文字作品进行使用,恐怕需要取得著作权人或传播者权人的“使用许可”。具体取得方式可以是“征求著作权人或传播者权人的同意”或者“支付著作权或传播者权的对价”。再如,前述商业案例中,社区垃圾的数据信息是否属于公民的个人信息,是否属于隐私权的保护范畴?这也是值得讨论的。

大数据的取得方式也关系到“大数据”模式的合法性问题。就互联网数据而言,目前主要的取得方式是利用“蜘蛛程序”(也叫“网络爬虫”)自动搜索并抓取数据。这种技术有一个专门的协议,即“robots协议”(也叫“爬虫协议”、“ 机器人协议”)。该协议要求所有网站在其站点的根目录下放置一个“robots.txt”文件。该文件告诉搜索者本站点哪些数据可以被“抓取”。如果站点根目录下没有这个文件,则被视为“本站点内所有没有口令保护的数据都可以被抓取”。这就意味着如果有人突破“robots协议”范围抓取网站数据就要承担“侵犯数据”的法律责任。同理,丢弃的社区垃圾是否意味着公民放弃社区垃圾的数据信息呢?

当然,“大数据”模式的使用目的不同,法律规制的要求也自然不同。企业以商业目的利用“大数据”模式进行生产、经营的,应当严格保护数据权利人的合法利益,不得随意侵犯数据所附有的著作权、隐私权等权利。而对于非商业目的利用“大数据”的行为,则应区别对待。比如,个人或科研部门以学习、研究为目的对“大数据”进行撷取、分析的,政府或司法机关以行政决策或打击犯罪为目的对“大数据”进行撷取、分析的,则需要对数据权利进行必要的限制。当然,这种限制是相对的,绝不是说相关部门和人员可以随意侵犯数据权利人的合法权益。

此外,像大数据的处理、分析这些“加工行为”如何定性,也是一个值得思考的法律问题。在“今日头条”事件中,“今日头条”只是对文字作品进行撷取、分析并重新整理,这像是文字作品的“汇编”行为。而前述商业案件中,零售企业在社区垃圾的数据信息基础上,提取出消费需求信息及用户消费规律,这更像是“大数据”的“创作”行为。

笔者寄语:作为一种新生事物,“大数据”模式所带来的法律问题是值得思考的。从目前看来,“大数据”模式的法律风险主要来自于大数据的来源和取得方式上。然而,如何从法律上看待“大数据”的“加工行为”,以及如何保护“大数据”模式的“加工成果”,则是一个更加长远的法律议题。

作者简介:谢君泽,男,出生于1983年,本科毕业于通信工程专业,硕士毕业于法律硕士专业,具有信息技术与法律专业的交叉背景。现为中国人民大学法学院证据学研究所研究人员,中国人民大学物证技术鉴定中心副主任、国家司法鉴定人,中国电子学会计算机取证专家委员会专委,长期致力于计算机网络取证、电子证据司法鉴定、职务犯罪侦查等研究,多次参加最高人民检察院、中华全国律协等部门电子证据规则的起草与论证。



原文发布时间为:2014-07-02

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7月前
|
分布式计算 资源调度 Hadoop
Hadoop学习指南:探索大数据时代的重要组成——Hadoop运行模式(下)
Hadoop学习指南:探索大数据时代的重要组成——Hadoop运行模式(下)
|
7月前
|
分布式计算 资源调度 Hadoop
Hadoop学习指南:探索大数据时代的重要组成——Hadoop运行模式(上)
Hadoop学习指南:探索大数据时代的重要组成——Hadoop运行模式(上)
|
4月前
|
分布式计算 大数据 调度
大数据计算MaxCompute怎么将一个Quota的资源优先供给给标准模式的生产库调度使用?
大数据计算MaxCompute怎么将一个Quota的资源优先供给给标准模式的生产库调度使用?
33 2
|
6月前
|
分布式计算 资源调度 Kubernetes
大数据问题排查系列 - SPARK STANDALONE HA 模式的一个缺陷点与应对方案
大数据问题排查系列 - SPARK STANDALONE HA 模式的一个缺陷点与应对方案
|
7月前
|
分布式计算 资源调度 Java
大数据Spark部署模式DeployMode
大数据Spark部署模式DeployMode
89 0
|
10月前
|
数据采集 缓存 大数据
大数据数据采集的数据采集(收集/聚合)的Flume之数据采集流程的Selector的多路复用模式
在大数据处理和管理中,数据采集是非常重要的一环。为了更加高效地进行数据采集,Flume作为一种流式数据采集工具得到了广泛的应用。其中,Flume的Sink Processor模块是实现数据输出和处理的核心模块之一。本文将介绍Flume中的Selector多路复用模式,讲解其数据采集流程。
110 0
|
10月前
|
数据采集 缓存 大数据
大数据数据采集的数据采集(收集/聚合)的Flume之数据采集流程的Selector的复制模式
在大数据处理和管理中,数据采集是非常重要的一环。为了更加高效地进行数据采集,Flume作为一种流式数据采集工具得到了广泛的应用。其中,Flume的Sink Processor模块是实现数据输出和处理的核心模块之一。本文将介绍Flume中的Selector复制模式,讲解其数据采集流程。
81 0
|
12月前
|
Java 大数据 Scala
大数据开发基础的编程语言的Scala的模式匹配和正则
Scala是一种支持模式匹配和正则表达式的编程语言,它提供了强大的字符串处理和数据解析功能。本文将介绍Scala中模式匹配和正则表达式的概念和用法,帮助开发者更好地理解和应用这门语言。
57 0
|
存储 数据采集 传感器
谈谈大数据环境下的数据集成新模式
信息技术发展迅速。但这并不总是导致现有技术灭绝。想想信息传播的渠道,比如广播、电视和互联网。
谈谈大数据环境下的数据集成新模式
|
存储 分布式计算 DataWorks
持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护 | 学习笔记(三)
快速学习持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护
233 0
持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护 | 学习笔记(三)

热门文章

最新文章