带你读《数据自治》前言

简介: 带你读《数据自治》前言

随着国家大数据战略的实施,数据是数字经济的关键要素已经形成共识,数据资源、数据资产、数据要素等正在持续创新和有序推进。推动数据开放共享是国家大数据战略的核心内容。但在实施过程中,数据开放共享面临着数据拥有者不愿、不敢、不会开放共享的问题。这里面有政策的原因,更有技术的问题。从技术方面看,现行的数据管理技术是面向封闭式的数据自治的,不适合数据开放共享,急需开发面向数据开放共享的技术。


与数据开放共享相关的概念有开放数据、数据共享和数据交易。三者都是数据拥有者将数据开放给数据使用者,只是在范围、对象、是否收费等方面有所不同;三者所面临的核心问题是如何控制数据使用者肆意传播或滥用数据(为了叙述方便,在没有特别说明的情况下,本书将开放数据、数据共享和数据交易统称为数据开放)。对应的关键技术问题包括:如何做到数据自治和开放,如何保护数据稀缺性不丧失,如何确保数据安全和隐私。


数据自治开放是指数据拥有者在法律框架下自行对数据进行确权和管理、自行制定开放规则(即数据自治),然后将数据开放给数据使用者,包括允许数据使用者上传数据应用软件来使用数据或将数据下载到设备中随时使用(数据使用者没有数据治理权)两种方式。2016年,上海市科学技术委员会注意到了数据开放共享面临的实际问题,前瞻性地布局数据开放共享的理论与方法的研究,探索数据开放共享的新理论、新方法,课题组在研究过程中遇到了许多政策法规、关键技术挑战,颇为不易。课题组提出了数据盒模型,将其作为数据自治开放的基础单元,在数据盒的基础上,设计了数据权益保护、防泄露、防拼图等安全技术,提出了数据使用标准、数据访问行为管控和数据使用审计等技术,开发了数据盒设计技术,实现了数据自治开放中对数据的全生命周期的管理。


1绪论是本书的导引,介绍数据的概念和边界、数据的属性及其与物质的差异、与数据相关的基本概念(包括大数据、数据界、数据资源、数据资产、数据要素等)、数据产业、数据权属、数据流通、数据自治等内容。

2数据治理系统地介绍数据治理的概念。从国家数据治理、政府数据

治理、企业数据治理 3个层面介绍数据治理的框架、方法和措施及国内外数据治理的现状。

3数据权介绍数据权属和权利。从产业和经济活动的视角分析讨论数据生产再生产、数据出版、数据使用和服务、数据交易、数据科学研究等关于数据的活动,针对这些数据活动,分析讨论了所需要的数据的权利。在个人数据权方面, 简单介绍欧盟《通用数据保护条例》(GDPR)关于个人数据权内容,重点讨论肖像数据权、隐私数据权、被遗忘权等内容;在国家数据主权方面,介绍国家数据安全、数据跨界和数据本地化等方面的内容。

4数据开放与共享介绍开放数据运动、各国及国际组织的数据开放状况、科学数据共享、数据共享联盟等内容。

5数据自治体系分析讨论现有的封闭式的数据资源管理模式存在的问题,提出数据自治开放体系,包括数据自治开放的现实背景、基本概念、基本模式、关键技术等。数据自治开放模式有望成为数据开放的基本模式,是政府数据开放共享、企业及个人数据交易、国家数据主权实现的一种可行方法。

6数据自治开放技术介绍数据自治开放环境下的基本数据模型——数据盒模型,包括数据盒的基本要素、数据权益保护机制以及数据盒的计量与定价技术等;介绍数据权属及确权技术;阐述支持软件行为管控的数据自治开放应用开发全过程,包括数据使用软件标准、数据访问行为管控和数据使用审计等技术,实现数据自治开放中数据的全生命周期管理。

7数据站系统介绍数据站系统的基本架构和应用方法。数据站是数据资源存储、管理和使用的基础设施平台。基于数据自治开放技术体系,数据的拥有者或者其授权的数据管理者能实现受控的数据自治开放,并开展丰富的大数据应用。

8章数据盒流通介绍数据盒流通的一种方式——基于区块链记账的数据盒流通,包括数据盒用户绑定、区块链交易记录、数据盒使用密钥、数据盒自毁装置等。 

9数据盒设计技术介绍如何针对一个给定的数据自治开放应用环境,构造优化的数据盒逻辑组织模型,建立将业务数据向数据盒灌装的流程,从而实现数据盒的业务数据划分与存储,支持数据盒的安全规则创建与查询校验,满足各种用户的应用需求。


    本书由朱扬勇负责策划、内容选定和章节安排。第 1章、第 3章由朱扬勇撰写,第 2章由杨琳、闭珊珊、司萌萌、高洪美撰写,第 4章由叶雅珍撰写,第 5章由朱扬勇、熊贇撰写,第 6章由熊贇、吴毅坚撰写,第 7章由吴毅坚撰写,第 8章由常

兴、赵运磊撰写,第 9章由陈德华、王梅撰写。

建设可用的数据资源,形成数据产品和商品,发展数据要素市场,是未来数字经济健康、快速、持续发展的基础。数据资源的丰富程度将代表一个国家、一个机构的财产拥有程度。数据的开放共享、交易流通不仅对现有的法律法规构成了挑战,对数据管理和使用技术也构成挑战。加快数据资源的开发利用,促进数据产业的健康快速发展,对于经济社会意义重大。数据自治开放模式的提出只是在数据开放共享技术创新方面迈出了一小步,后续工作依旧艰巨。

本书的出版得到了上海市科学技术委员会科技发展基金项目No.16JC1400801的支持。本书涉及的研究工作得到了国家自然科学基金资助项目(No. 91546105,No.U1636207)、上海市科技发展基金资助项目(No. 16JC1400801)的支持。欢迎读者批评指正,不胜感激。

 

 

朱扬勇

20207

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
SQL 存储 关系型数据库
轻松入门MySQL:数据库关联与多表查询,构建高效的业务决策引擎(6)
轻松入门MySQL:数据库关联与多表查询,构建高效的业务决策引擎(6)
388 0
|
算法 知识图谱
ACL 2024 Oral:我们离真正的多模态思维链推理还有多远?
【9月更文挑战第5天】近年来,多模态思维链推理(MCoT)受到广泛关注,但现有基准仍面临诸多挑战。为此,研究人员提出了M$^3$CoT基准,旨在推动多领域、多步骤、多模态的推理能力发展。M$^3$CoT涵盖科学、数学等多个领域,要求模型进行多步骤推理,并结合文本和视觉信息。尽管当前视觉大语言模型(VLLMs)在M$^3$CoT上的表现不佳,但该基准为MCoT的发展提供了新机遇,未来可从模型改进、数据增强及知识融合等方面进行探索。论文详情见:https://arxiv.org/abs/2405.16473。
279 1
|
缓存 边缘计算 前端开发
关于前端性能优化问题,认识网页加载过程和防抖节流
该文章详细探讨了前端性能优化的方法,包括理解网页加载过程、实施防抖和节流技术来提升用户体验和性能。
|
存储 缓存 网络协议
场景应用:常见的HTTP协议请求头有哪些?
场景应用:常见的HTTP协议请求头有哪些?
566 0
|
数据采集 人工智能 边缘计算
阿里云创新手册-天猫精灵专场-天猫精灵智能座舱AI能力开放合作交流(下)
阿里云创新手册-天猫精灵专场-天猫精灵智能座舱AI能力开放合作交流
488 1
|
JavaScript
Vue(Vue2+Vue3)——42.组件的自定义事件总结、43.TodoList案例-自定义事件
Vue(Vue2+Vue3)——42.组件的自定义事件总结、43.TodoList案例-自定义事件
|
监控 Devops 测试技术
数字化转型中的DevOps-数字运营
数字化运营需要IT组织的精益运营,IT组织精益运营的核心是数字运营。何为IT组织精益运营,在DevOps“价值交付”的过程中,明确了软件交付的服务载体,通过软件交付的全生命周期管理达到“提升效率、降低成本”的目的,将DevOps的数字价值延伸至企业全面数字化经营,形成“数字化商业”生态。
482 0
|
人工智能 运维 算法
后5G时代,路在何方?
关于5G新阶段的思考。