带你读《数据自治》前言第一章绪论1.4数据自治概述(一)

简介: 带你读《数据自治》前言第一章绪论1.4数据自治概述(一)

1.4      数据自治概述

 

推动数据开放共享是国家大数据战略的核心内容。但在实施过程中,数据开放共享面临数据拥有者不愿、不敢、不会开放共的问题。这里面有政策的原因,也有技术的问题。现行的数据管理技术是面向封闭式的数据自治的,不适合数据开放共享,急需开发面向数据开放共享的技术。数据自治开放技术就是这样的一种技术。

 

1.4.1         数据流通

 

随着数据资源的价值被广泛认识,数据的价值逐渐被商业化,数据开放共享呈现出越来越困难的趋势。在数据权属清晰的情况下,人们可以通过买卖进行数据交换,而不是免费共享数据(当然,数据拥有者愿意共享数据的情况除外)。但是,目前数据权属还有待于法律来界定,同时还需要政府来界定数据的类型(哪些是国家秘密、哪些是公民隐私)。这样数据的流通就有法可依。而作为个人,我们要认识到:只要有行动,就可能产生数因此当有些行为涉及隐私时,需要格外谨慎。

数据流通的主要方式是数据开放、数据共享和数据交易。

数据开放是指将数据免费开放给每一个希望使用数据的人,没有版权、专利和控制机制等的限制[14]。当前,数据开放主要是指政府和公共数据资源应该开放给公众,使公共品数据能被任何人、在任何时间和任何地点进行自由利用、再利用和分发。

数据共享早期指科学数据共享,即科学研究机构使数据供其他研究者开展学术研究使用的过程[15]。现在,数据共享也适用于非科学数据。与数据开放不同,数据共享主要对数据使用对象、使用时间和使用地点加以限制,其中,对数据的使用对象进行限制是核心,即将数据开放给特定的数据使用对象;数据共享可以理解为数据开放的限制版。例如,中国人民银行的个人信用数据只能给本人、银行等特定对象使用。

数据交易目前还没有专门的定义。将数据作为一种交易标的,目前在全球都还缺少法律依据。从现实情况来看,可以对数据交易进行如下描述:数据交易主要是指数据拥有者和数据使用者依据法律在市场交易规则下进行自由交易。

1-4展示了数据开放、数据共享和数据交易分别对应的数据资源情况[11]

 

                       image.png

1-4数据资源类型及其对应的流通性

 

数据开放起源于 2009年的政府开放数据行动,典型代表是美国政府的数据开放。在数据开放之前主要是政府信息公开,政府向公众公开各种报告、决策结果;数据公开是信息公开的进一步发展,即将形成报告和决策的原始数据也公开。20158月,我国国务院印发的《促进大数据发展行动纲要》明确提出要进行数据开放共享。

数据开放共享的技术主要是对开放数据中可能存在的安全风险和隐私泄露进行处理。数据使用者可以下载整个数据集,对于数据拥有者来说,这意味着数据权益的丧失,因此数据拥有者不愿意共享数据。

现行的数据资源管理技术是面向数据封闭的,并没有充分考虑数据权益的丧失。需要发展面向数据开放的数据建模、数据组织和数据管理的理论和技术,并从技术上解决数据开放时数据权益丧失的问题。随着数据资源的战略性和商业价值越来越显现,数据权益不丧失的开放共享才是可持续的开放共享。数据自治开放模式是指数据拥有者自行存储、管理数据,外部用户能够使用数据,但不能复制或下载数据,即数据拥有者可在不丧失数据权益的情况下开放数据。数据自治开放模式能有效地解决数据权益丧失的问题,同时也能减少资源浪费,是未来的发展趋势。

从更大的范围来讲,公共网络中的公开数据应该属于全人类,任何人都有权获取、使用、加工、销售,从而获得利益。这样才能更大程度地发挥数据资源的作用。

 

1.4.2         数据权属

 

推进数据资源建设首先要解决数据的权属问题,即数据属于谁。关于数据的权属,目前在法律上还是空白的,可以参照的只有知识产权法和物权法。由于数据资源的独特性质,这些法律显然不适用于数据权属。在此我们讨论一下数据权益归属的合理性。因为数据不是天然存在的,所以数据应该属于数据的生产者这种说法比较合理[6,11]但是这种说法面临的问题主要有以下两个:

当数据由多个主体生产时,如何界定数据权属;

当生产的数据涉及国家秘密或公民隐私时,如何界定数据权属。

(1)数据有多个生产主体

这是最常见的数据生产形式。例如,电子商务网站的购物行为数据是由购物者、电商平台、第三方支付等共同生产的,每个生产主体都应该享有数据的所有权,但目前只有电商平台享有了这个数据资产;银行数据是由客户、银行、可能还有商家等共同生产的,电信数据是由通信用户和电信公司等共同生产的,因为银行、电信公司等大多为国有企业,所以还没有开始运营这些数据资产,各数据生产主体也没有主张权利的诉求;医院的数据是由病人、医生和医院等共同生产的,目前病人对这些数据的诉求主要集中在数据的隐私保护方面。上述数据的权属应该属于所有的数据生产者,在法律空白的情况下,各数据生产者可以协商解决数据资源所有权转移或者数据资源开发形成的利益分配问题。值得注意的是个人微博数据,这类数据

现在几乎已经作为个人资产来看待了,微博运营商不能随意占有和使用。

2)数据涉及国家秘密或公民隐私

这是数据资源建设面临的重大问题。在前面的例子中,电子病历的数据是由病人、医生及医院,可能还有软件平台共同生产的,情理上属于各个数据生产主体。但是显然医院并不能像电商平台那样开发使用这些数据。医院使用病历数据通常不是对数据权益的主张问题,而是涉及病人隐私的问题;又如,照片的权益属于摄影师,但摄影师拍摄人物时会涉及肖像权问题,如果拍到国家机密(如军事设施),则问题更严重。在现实生活中,隐私和秘密是受到法律保护的,但是病历数据的生产并不是违法的。而有一些数据,在数据量达到了一定量级后才成为国家秘密,例如,某些机构采集的个人身份证数据,单个数据或者少量数据没有问题,因此日常生活中被要求复印身份证大家可以接受。但是,全国人民的个人身份证数据就是一个重要的数据资源,这个数据资源是国家秘密。

因此,一般来讲,数据应该属于数据生产者,但涉及秘密和隐私时除外。一旦数据权属问题得以解决,数据共享和使用、数据资源管理与存放的问题就会迎刃而解。特别需要注意的是,作为一种资源,数据应该有相应的权益。数据权益是指数据的所有权和获益权,需要建立相应的法律来保护数据所有者的权益。从国家层面来讲,这种权益就是国家的数据主权,需要由军队来保护和维护。鉴于数据资源是国家的基础性资源,并且在广大民众参与生产的数据资源中,民众个体很难主张数据的权益,因此,数据资源的国有化可能是解决这一问题的途径之一,这也是未来建立数据财政的一个重要措施。

 

相关文章
|
SQL BI Apache
Apache Doris 行列转换可以这样玩
Apache Doris 行列转换可以这样玩
1253 0
|
7月前
|
运维 算法 机器人
阿里云AnalyticDB具身智能方案:破解机器人仿真数据、算力与运维之困
本文将介绍阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL推出的全托管云上仿真解决方案,方案采用云原生架构,为开发者提供从开发环境、仿真计算到数据管理的全链路支持。
|
设计模式 网络协议 Java
02.单一职责原则详解
单一职责原则(SRP)是面向对象设计的重要原则,强调一个类或模块应仅负责完成一个特定的职责或功能。通过将复杂的功能分解为多个粒度小、功能单一的类,可以提高系统的灵活性、可维护性和可扩展性。本文详细介绍了如何理解单一职责原则,包括方法、接口和类层面的应用,并通过具体例子解释了其优势和判断标准。此外,还探讨了在实际开发中如何平衡类的设计,避免过度拆分导致的复杂性增加。
474 5
|
关系型数据库 MySQL
MySql插入唯一键冲突的三种可选方式
MySql插入一条记录,结果提示主键冲突,怎么办? 批量插入数据时,发现插入的这批数据中,有某些记录存在唯一键冲突,一个一个跳出来就比较麻烦了,有什么好的办法直接忽略掉冲突的记录么? 下面简单记录三种处理方式
975 0
MySql插入唯一键冲突的三种可选方式
|
分布式计算 负载均衡 API
微服务架构设计原则与模式
【8月更文第29天】随着云计算和分布式计算的发展,微服务架构已成为构建大型复杂应用的一种流行方式。这种架构模式将单个应用程序分解成一组小型、独立的服务,每个服务运行在其自己的进程中,并通过轻量级机制(通常是HTTP资源API)进行通信。本文将探讨微服务架构的基本设计原则、常用模式以及如何有效地划分服务边界。
994 3
|
消息中间件 存储 运维
NBF事件中心架构设计与实现
本文介绍了事件驱动架构在供应链执行链路的应用背景和实践过程,并介绍了NBF事件中心产品的设计和部分实现。目前事件中心每日事件发送量峰值在千万级别,平稳度过了双11、双12、年货节等流量高峰。
1175 2
NBF事件中心架构设计与实现
|
存储 分布式计算 Hadoop
ClickHouse(01)什么是ClickHouse,ClickHouse适用于什么场景
ClickHouse是一款高性能的列式存储OLAP数据库,由俄罗斯的Yandex公司开发,用于在线分析处理(OLAP)。它提供秒级大数据查询,适用于商业智能、广告流量等领域。ClickHouse速度快的原因包括列式存储、数据压缩、向量化执行和多线程分布式处理。然而,它不支持事务,不适合OLTP操作。相比Hadoop生态中的查询引擎,ClickHouse在大量数据查询上表现出色。一系列的文章详细介绍了ClickHouse的各个方面,包括安装、表引擎和使用场景。
2549 2
ClickHouse(01)什么是ClickHouse,ClickHouse适用于什么场景
|
安全 Java 程序员
阿里开发手册 嵩山版-编程规约 (四)OOP规约-Java程序员必看知识点!!!
《阿里开发手册 嵩山版》的OOP规约部分强调了面向对象编程的最佳实践,包括正确使用静态方法、覆写方法的注解、可变参数的使用、接口的稳定性、equals和compareTo方法的使用、BigDecimal的正确比较、包装类与基本数据类型选择、POJO类的属性和方法设计等,以提升代码的质量和维护性。
|
监控 数据处理 调度
使用Apache Airflow进行工作流编排:技术详解与实践
【6月更文挑战第5天】Apache Airflow是开源的工作流编排平台,用Python定义复杂数据处理管道,提供直观DAGs、强大调度、丰富插件、易扩展性和实时监控。本文深入介绍Airflow基本概念、特性,阐述安装配置、工作流定义、调度监控的步骤,并通过实践案例展示如何构建数据获取、处理到存储的工作流。Airflow简化了复杂数据任务管理,适应不断发展的数据技术需求。
2725 3
|
弹性计算 负载均衡 前端开发
高可用之弹性伸缩
【2月更文挑战第30天】弹性伸缩旨在实现服务容量按需线性扩展,依赖于敏捷基础设施和资源池共享。它包括弹性扩容、缩容和自愈三个层面。