1.4 数据自治概述
推动数据开放共享是国家大数据战略的核心内容。但在实施过程中,数据开放共享面临着“数据拥有者不愿、不敢、不会开放共享”的问题。这里面有政策的原因,也有技术的问题。现行的数据管理技术是面向封闭式的数据自治的,不适合数据开放共享,急需开发面向数据开放共享的技术。数据自治开放技术就是这样的一种技术。
1.4.1 数据流通
随着数据资源的价值被广泛认识,数据的价值逐渐被商业化,数据开放共享呈现出越来越困难的趋势。在数据权属清晰的情况下,人们可以通过买卖进行数据交换,而不是免费共享数据(当然,数据拥有者愿意共享数据的情况除外)。但是,目前数据权属还有待于法律来界定,同时还需要政府来界定数据的类型(哪些是国家秘密、哪些是公民隐私)。这样数据的流通就有法可依。而作为个人,我们要认识到:“只要有行动,就可能产生数据”,因此当有些行为涉及隐私时,需要格外谨慎。
数据流通的主要方式是数据开放、数据共享和数据交易。
数据开放是指将数据免费开放给每一个希望使用数据的人,没有版权、专利和控制机制等的限制[14]。当前,数据开放主要是指政府和公共数据资源应该开放给公众,使公共品数据能被任何人、在任何时间和任何地点进行自由利用、再利用和分发。
数据共享早期指科学数据共享,即科学研究机构使数据供其他研究者开展学术研究使用的过程[15]。现在,数据共享也适用于非科学数据。与数据开放不同,数据共享主要对数据使用对象、使用时间和使用地点加以限制,其中,对数据的使用对象进行限制是核心,即将数据开放给特定的数据使用对象;数据共享可以理解为数据开放的限制版。例如,中国人民银行的个人信用数据只能给本人、银行等特定对象使用。
数据交易目前还没有专门的定义。将数据作为一种交易标的,目前在全球都还缺少法律依据。从现实情况来看,可以对数据交易进行如下描述:数据交易主要是指数据拥有者和数据使用者依据法律在市场交易规则下进行自由交易。
图1-4展示了数据开放、数据共享和数据交易分别对应的数据资源情况[11]。
图 1-4数据资源类型及其对应的流通性
数据开放起源于 2009年的政府开放数据行动,典型代表是美国政府的数据开放。在数据开放之前主要是政府信息公开,政府向公众公开各种报告、决策结果;数据公开是信息公开的进一步发展,即将形成报告和决策的原始数据也公开。2015年 8月,我国国务院印发的《促进大数据发展行动纲要》明确提出要进行数据开放共享。
数据开放共享的技术主要是对开放数据中可能存在的安全风险和隐私泄露进行处理。数据使用者可以下载整个数据集,对于数据拥有者来说,这意味着数据权益的丧失,因此数据拥有者不愿意共享数据。
现行的数据资源管理技术是面向“数据封闭”的,并没有充分考虑数据权益的丧失。需要发展面向“数据开放”的数据建模、数据组织和数据管理的理论和技术,并从技术上解决数据开放时数据权益丧失的问题。随着数据资源的战略性和商业价值越来越显现,数据权益不丧失的开放共享才是可持续的开放共享。数据自治开放模式是指数据拥有者自行存储、管理数据,外部用户能够使用数据,但不能复制或下载数据,即数据拥有者可在不丧失数据权益的情况下开放数据。数据自治开放模式能有效地解决数据权益丧失的问题,同时也能减少资源浪费,是未来的发展趋势。
从更大的范围来讲,公共网络中的公开数据应该属于全人类,任何人都有权获取、使用、加工、销售,从而获得利益。这样才能更大程度地发挥数据资源的作用。
1.4.2 数据权属
推进数据资源建设首先要解决数据的权属问题,即数据属于谁。关于数据的权属,目前在法律上还是空白的,可以参照的只有知识产权法和物权法。由于数据资源的独特性质,这些法律显然不适用于数据权属。在此我们讨论一下数据权益归属的合理性。因为数据不是天然存在的,所以“数据应该属于数据的生产者”这种说法比较合理[6,11]。但是这种说法面临的问题主要有以下两个:
• 当数据由多个主体生产时,如何界定数据权属;
• 当生产的数据涉及国家秘密或公民隐私时,如何界定数据权属。
(1)数据有多个生产主体
这是最常见的数据生产形式。例如,电子商务网站的购物行为数据是由购物者、电商平台、第三方支付等共同生产的,每个生产主体都应该享有数据的所有权,但目前只有电商平台享有了这个数据资产;银行数据是由客户、银行、可能还有商家等共同生产的,电信数据是由通信用户和电信公司等共同生产的,因为银行、电信公司等大多为国有企业,所以还没有开始运营这些数据资产,各数据生产主体也没有主张权利的诉求;医院的数据是由病人、医生和医院等共同生产的,目前病人对这些数据的诉求主要集中在数据的隐私保护方面。上述数据的权属应该属于所有的数据生产者,在法律空白的情况下,各数据生产者可以协商解决数据资源所有权转移或者数据资源开发形成的利益分配问题。值得注意的是个人微博数据,这类数据
现在几乎已经作为个人资产来看待了,微博运营商不能随意占有和使用。
(2)数据涉及国家秘密或公民隐私
这是数据资源建设面临的重大问题。在前面的例子中,电子病历的数据是由病人、医生及医院,可能还有软件平台共同生产的,情理上属于各个数据生产主体。但是显然医院并不能像电商平台那样开发使用这些数据。医院使用病历数据通常不是对数据权益的主张问题,而是涉及病人隐私的问题;又如,照片的权益属于摄影师,但摄影师拍摄人物时会涉及肖像权问题,如果拍到国家机密(如军事设施),则问题更严重。在现实生活中,隐私和秘密是受到法律保护的,但是病历数据的生产并不是违法的。而有一些数据,在数据量达到了一定量级后才成为国家秘密,例如,某些机构采集的个人身份证数据,单个数据或者少量数据没有问题,因此日常生活中被要求复印身份证大家可以接受。但是,全国人民的个人身份证数据就是一个重要的数据资源,这个数据资源是国家秘密。
因此,一般来讲,数据应该属于数据生产者,但涉及秘密和隐私时除外。一旦数据权属问题得以解决,数据共享和使用、数据资源管理与存放的问题就会迎刃而解。特别需要注意的是,作为一种资源,数据应该有相应的权益。数据权益是指数据的所有权和获益权,需要建立相应的法律来保护数据所有者的权益。从国家层面来讲,这种权益就是国家的数据主权,需要由军队来保护和维护。鉴于数据资源是国家的基础性资源,并且在广大民众参与生产的数据资源中,民众个体很难主张数据的权益,因此,数据资源的国有化可能是解决这一问题的途径之一,这也是未来建立数据财政的一个重要措施。