随着国家大数据战略的实施,“数据是数字经济的关键要素”已经形成共识,数据资源、数据资产、数据要素等正在持续创新和有序推进。推动数据开放共享是国家大数据战略的核心内容。但在实施过程中,数据开放共享面临着“数据拥有者不愿、不敢、不会开放共享”的问题。这里面有政策的原因,更有技术的问题。从技术方面看,现行的数据管理技术是面向封闭式的数据自治的,不适合数据开放共享,急需开发面向数据开放共享的技术。
与数据开放共享相关的概念有开放数据、数据共享和数据交易。三者都是数据拥有者将数据开放给数据使用者,只是在范围、对象、是否收费等方面有所不同;三者所面临的核心问题是“如何控制数据使用者肆意传播或滥用数据”(为了叙述方便,在没有特别说明的情况下,本书将开放数据、数据共享和数据交易统称为数据开放)。对应的关键技术问题包括:如何做到数据自治和开放,如何保护数据稀缺性不丧失,如何确保数据安全和隐私。
数据自治开放是指数据拥有者在法律框架下自行对数据进行确权和管理、自行制定开放规则(即数据自治),然后将数据开放给数据使用者,包括允许数据使用者上传数据应用软件来使用数据或将数据下载到设备中随时使用(数据使用者没有数据治理权)两种方式。2016年,上海市科学技术委员会注意到了数据开放共享面临的实际问题,前瞻性地布局“数据开放共享的理论与方法”的研究,探索数据开放共享的新理论、新方法,课题组在研究过程中遇到了许多政策法规、关键技术挑战,颇为不易。课题组提出了数据盒模型,将其作为数据自治开放的基础单元,在数据盒的基础上,设计了数据权益保护、防泄露、防拼图等安全技术,提出了数据使用标准、数据访问行为管控和数据使用审计等技术,开发了数据盒设计技术,实现了数据自治开放中对数据的全生命周期的管理。
第 1章“绪论”是本书的导引,介绍数据的概念和边界、数据的属性及其与物质的差异、与数据相关的基本概念(包括大数据、数据界、数据资源、数据资产、数据要素等)、数据产业、数据权属、数据流通、数据自治等内容。
第 2章“数据治理”系统地介绍数据治理的概念。从国家数据治理、政府数据
治理、企业数据治理 3个层面介绍数据治理的框架、方法和措施及国内外数据治理的现状。
第 3章“数据权”介绍数据权属和权利。从产业和经济活动的视角分析讨论数据生产再生产、数据出版、数据使用和服务、数据交易、数据科学研究等关于数据的活动,针对这些数据活动,分析讨论了所需要的数据的权利。在个人数据权方面, 简单介绍欧盟《通用数据保护条例》(GDPR)关于个人数据权内容,重点讨论肖像数据权、隐私数据权、被遗忘权等内容;在国家数据主权方面,介绍国家数据安全、数据跨界和数据本地化等方面的内容。
第 4章“数据开放与共享”介绍开放数据运动、各国及国际组织的数据开放状况、科学数据共享、数据共享联盟等内容。
第 5章“数据自治体系”分析讨论现有的封闭式的数据资源管理模式存在的问题,提出数据自治开放体系,包括数据自治开放的现实背景、基本概念、基本模式、关键技术等。数据自治开放模式有望成为数据开放的基本模式,是政府数据开放共享、企业及个人数据交易、国家数据主权实现的一种可行方法。
第 6章“数据自治开放技术”介绍数据自治开放环境下的基本数据模型——数据盒模型,包括数据盒的基本要素、数据权益保护机制以及数据盒的计量与定价技术等;介绍数据权属及确权技术;阐述支持软件行为管控的数据自治开放应用开发全过程,包括数据使用软件标准、数据访问行为管控和数据使用审计等技术,实现数据自治开放中数据的全生命周期管理。
第 7章“数据站系统”介绍数据站系统的基本架构和应用方法。数据站是数据资源存储、管理和使用的基础设施平台。基于数据自治开放技术体系,数据的拥有者或者其授权的数据管理者能实现受控的数据自治开放,并开展丰富的大数据应用。
第 8章“数据盒流通”介绍数据盒流通的一种方式——基于区块链记账的数据盒流通,包括数据盒用户绑定、区块链交易记录、数据盒使用密钥、数据盒自毁装置等。
第 9章“数据盒设计技术”介绍如何针对一个给定的数据自治开放应用环境,构造优化的数据盒逻辑组织模型,建立将业务数据向数据盒灌装的流程,从而实现数据盒的业务数据划分与存储,支持数据盒的安全规则创建与查询校验,满足各种用户的应用需求。
本书由朱扬勇负责策划、内容选定和章节安排。第 1章、第 3章由朱扬勇撰写,第 2章由杨琳、闭珊珊、司萌萌、高洪美撰写,第 4章由叶雅珍撰写,第 5章由朱扬勇、熊贇撰写,第 6章由熊贇、吴毅坚撰写,第 7章由吴毅坚撰写,第 8章由常
兴、赵运磊撰写,第 9章由陈德华、王梅撰写。
建设可用的数据资源,形成数据产品和商品,发展数据要素市场,是未来数字经济健康、快速、持续发展的基础。数据资源的丰富程度将代表一个国家、一个机构的财产拥有程度。数据的开放共享、交易流通不仅对现有的法律法规构成了挑战,对数据管理和使用技术也构成挑战。加快数据资源的开发利用,促进数据产业的健康快速发展,对于经济社会意义重大。数据自治开放模式的提出只是在数据开放共享技术创新方面迈出了一小步,后续工作依旧艰巨。
本书的出版得到了上海市科学技术委员会科技发展基金项目(No.16JC1400801)的支持。本书涉及的研究工作得到了国家自然科学基金资助项目(No. 91546105,No.U1636207)、上海市科技发展基金资助项目(No. 16JC1400801)的支持。欢迎读者批评指正,不胜感激。
朱扬勇
2020年 7月