“大数据”模式的法律风险

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

继今年6月《广州日报》起诉“今日头条”并达成和解协议之后,近日又传出“今日头条”被围剿的消息。6月24日搜狐高调起诉“今日头条”侵犯著作权和不正当竞争。同时,国家版权局宣布对“今日头条”立案调查。至此,作为新闻数据的聚集者与加工者的“今日头条”,命运堪忧!然而,该事件对笔者的思考不仅于此,“大数据”模式的法律风险才是更值得关注的问题!

“大数据”模式

所谓“大数据”模式,其实是将巨量的数据资料通过撷取、分析,从而提取有价值的规律性信息,以供政府、企业、个人等决策使用。换句话说,“大数据”模式本质上是巨量数据的“二次加工”。这种“二次加工”不仅存在于信息空间,也存在于传统世界。

在信息空间,“大数据”模式的加工对象是各种各样的“电子数据”。笔者认为,“今日头条”就是一种典型的“大数据”模式。“今日头条”并不生产新闻数据,而是将各个新闻媒体发布的巨量新闻数据进行撷取、分析,进而根据新闻数据的重要性和关注程度推送给用户阅读。这其实是“大数据”模式在新闻行业的应用。

传统领域也有“大数据”模式。曾经有人与笔者讨论一个商业案例,某零售企业对商业圈内的社区垃圾进行收集和数据分析,并以此判断社区居民的消费需求。这种“大数据”商业模式无疑是成功的。然而,笔者更关心这种“大数据”模式是否侵犯社区居民的隐私权。

实际上,近日的“今日头条”事件,已经凸显了“大数据”模式的法律风险。

  

“大数据”模式的法律问题

“大数据”模式的首要法律问题是数据本身的法律属性。比如说,“今日头条”所撷取的新闻数据可能是不受著作权保护的时事新闻,也可能是享受著作权保护的文字作品。那么文字作品的著作权或者传播者权如何保护?如果“今日头条”以商业目的对文字作品进行使用,恐怕需要取得著作权人或传播者权人的“使用许可”。具体取得方式可以是“征求著作权人或传播者权人的同意”或者“支付著作权或传播者权的对价”。再如,前述商业案例中,社区垃圾的数据信息是否属于公民的个人信息,是否属于隐私权的保护范畴?这也是值得讨论的。

大数据的取得方式也关系到“大数据”模式的合法性问题。就互联网数据而言,目前主要的取得方式是利用“蜘蛛程序”(也叫“网络爬虫”)自动搜索并抓取数据。这种技术有一个专门的协议,即“robots协议”(也叫“爬虫协议”、“ 机器人协议”)。该协议要求所有网站在其站点的根目录下放置一个“robots.txt”文件。该文件告诉搜索者本站点哪些数据可以被“抓取”。如果站点根目录下没有这个文件,则被视为“本站点内所有没有口令保护的数据都可以被抓取”。这就意味着如果有人突破“robots协议”范围抓取网站数据就要承担“侵犯数据”的法律责任。同理,丢弃的社区垃圾是否意味着公民放弃社区垃圾的数据信息呢?

当然,“大数据”模式的使用目的不同,法律规制的要求也自然不同。企业以商业目的利用“大数据”模式进行生产、经营的,应当严格保护数据权利人的合法利益,不得随意侵犯数据所附有的著作权、隐私权等权利。而对于非商业目的利用“大数据”的行为,则应区别对待。比如,个人或科研部门以学习、研究为目的对“大数据”进行撷取、分析的,政府或司法机关以行政决策或打击犯罪为目的对“大数据”进行撷取、分析的,则需要对数据权利进行必要的限制。当然,这种限制是相对的,绝不是说相关部门和人员可以随意侵犯数据权利人的合法权益。

此外,像大数据的处理、分析这些“加工行为”如何定性,也是一个值得思考的法律问题。在“今日头条”事件中,“今日头条”只是对文字作品进行撷取、分析并重新整理,这像是文字作品的“汇编”行为。而前述商业案件中,零售企业在社区垃圾的数据信息基础上,提取出消费需求信息及用户消费规律,这更像是“大数据”的“创作”行为。

笔者寄语:作为一种新生事物,“大数据”模式所带来的法律问题是值得思考的。从目前看来,“大数据”模式的法律风险主要来自于大数据的来源和取得方式上。然而,如何从法律上看待“大数据”的“加工行为”,以及如何保护“大数据”模式的“加工成果”,则是一个更加长远的法律议题。

作者简介:谢君泽,男,出生于1983年,本科毕业于通信工程专业,硕士毕业于法律硕士专业,具有信息技术与法律专业的交叉背景。现为中国人民大学法学院证据学研究所研究人员,中国人民大学物证技术鉴定中心副主任、国家司法鉴定人,中国电子学会计算机取证专家委员会专委,长期致力于计算机网络取证、电子证据司法鉴定、职务犯罪侦查等研究,多次参加最高人民检察院、中华全国律协等部门电子证据规则的起草与论证。



原文发布时间为:2014-07-02

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
215 6
|
3月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
99 2
|
3月前
|
消息中间件 监控 数据可视化
大数据-79 Kafka 集群模式 集群监控方案 JavaAPI获取集群指标 可视化监控集群方案: jconsole、Kafka Eagle
大数据-79 Kafka 集群模式 集群监控方案 JavaAPI获取集群指标 可视化监控集群方案: jconsole、Kafka Eagle
166 2
|
3月前
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
118 0
|
3月前
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
107 0
|
5月前
|
分布式计算 资源调度 大数据
【决战大数据之巅】:Spark Standalone VS YARN —— 揭秘两大部署模式的恩怨情仇与终极对决!
【8月更文挑战第7天】随着大数据需求的增长,Apache Spark 成为关键框架。本文对比了常见的 Spark Standalone 与 YARN 部署模式。Standalone 作为自带的轻量级集群管理服务,易于设置,适用于小规模或独立部署;而 YARN 作为 Hadoop 的资源管理系统,支持资源的统一管理和调度,更适合大规模生产环境及多框架集成。我们将通过示例代码展示如何在这两种模式下运行 Spark 应用程序。
301 3
|
2月前
|
SQL 存储 算法
基于对象 - 事件模式的数据计算问题
基于对象-事件模式的数据计算是商业中最常见的数据分析任务之一。对象如用户、账号、商品等,通过唯一ID记录其相关事件,如操作日志、交易记录等。这种模式下的统计任务包括无序计算(如交易次数、通话时长)和有序计算(如漏斗分析、连续交易检测)。尽管SQL在处理无序计算时表现尚可,但在有序计算中却显得力不从心,主要原因是其对跨行记录运算的支持较弱,且大表JOIN和大结果集GROUP BY的性能较差。相比之下,SPL语言通过强化离散性和有序集合的支持,能够高效地处理这类计算任务,避免了大表JOIN和复杂的GROUP BY操作,从而显著提升了计算效率。
|
3月前
|
存储 分布式计算 druid
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
60 1
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
|
3月前
|
SQL 存储 算法
基于对象 - 事件模式的数据计算问题
基于对象-事件模式的数据计算是商业中最常见的数据分析任务之一。这种模式涉及对象(如用户、账户、商品等)及其相关的事件记录,通过这些事件数据可以进行各种统计分析,如漏斗分析、交易次数统计等。然而,SQL 在处理这类任务时表现不佳,特别是在有序计算方面。SPL 作为一种强化离散性和有序集合的语言,能够高效地处理这类计算,避免了大表 JOIN 和大结果集 GROUP BY 的性能瓶颈。通过按 ID 排序和分步计算,SPL 能够显著提高计算效率,并支持实时数据处理。
|
3月前
|
分布式计算 大数据 分布式数据库
大数据-158 Apache Kylin 安装配置详解 集群模式启动(一)
大数据-158 Apache Kylin 安装配置详解 集群模式启动(一)
74 5