在大数据浪潮的推动下,从数据资源到数据资产再到数据要素,数据的重要性持续提高,“数据是数字经济的关键要素”这一论断已经形成共识。持续的信息化使得网络空间形成了庞大的数据资源。对数据资源进行开发利用而形成的数据产业是巨大的。本章界定了数据的内涵,介绍了数据的属性及其与物质的差异、与数据相关的基本概念(包括大数据、数据界、数据资源、数据资产、数据要素等),还介绍了数据产业、数据权属、数据流通、数据自治等内容。本章是本书的导引。
本章由朱扬勇撰写。
1.1 数据是什么
以前常用的一组名词是信息、信息科学、信息技术和信息产业等,现在常用的一组名词是数据、数据科学、数据技术和数据产业。为什么现在叫“大数据”而不是“大信息”?为解决该问题,首先要理清数据是什么,有什么特性。
1.1.1 数据界
1.1.1.1 数据是什么
传统上,数据是指 96、1011、8084这样一些数值型数据,其实,数据还包括“dataology”“上海市数据科学重点实验室”“2013/09/06”等符号、字符、日期形式的数据,也包括文本、声音、图像、照片和视频等类型的数据,购物记录、住宿记录、旅行记录、银行消费记录、微博、微信、政府文件等也都是数据。
一般认为数据是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。
本书对数据的定义如下:数据是指被输入网络空间中的任何东西,是网络空间中的唯一存在。
之所以这样定义数据,是因为大数据、数据科学、数据技术、数据资源、数据资产、数据要素等概念所指的数据都是网络空间的数据。网络空间中的数据和网络空间外面的数据有很大差异,网络空间中的数据是通过计算机处理的,而网络空间外面的数据是人们手工或利用脑力直接处理的。
1.1.1.2 数据界是什么[1-2]
数据界被定义为网络空间中的所有数据。而网络空间是数据的载体,不是数据界的组成部分。
随着信息化进程的不断发展,数据被持续、大规模地生产,并存储在网络空间中,形成数据界。虽然是人生产了数据,并且人还在不断生产数据,但数据界中的数据已经表现出不为人所控制、未知性、多样性和复杂性等自然界特征。
(1)数据不为人所控制
名词“数据爆炸”“信息爆炸”已经出现 30 多年了,自进入大数据时代以来,人们普遍认为数据每2~3年就会翻一番,且人们无法控制数据的增长,甚至也不了解数据的增长速度。人们无法控制的还有计算机病毒的大量出现和传播、垃圾邮件泛滥、网络的数据攻击增多、数据滥用等。人们使用各种电子设备生产数据,例如拍照、拍X光片、做 CT检查、做各种检验等;人们的出行、工作、购物消费、网络会议、娱乐、在线经济等也都在快速、大规模地生产数据;计算机病毒还能自动、快速、大规模地传播数据。这种大规模的随时随地生产数据的情形是任何政府和组织都不能控制的。虽然从个体上来看,其生产数据是有目的的、可以控制的,但是从总体上来看,数据的生产是不以人的意志为转移的,是以一种类似自然的方式增长的。因此,我们说数据的增长和流动不为人所控制。
(2)数据的未知性
在网络空间中出现了大量未知的数据、未知的数据现象和规律,这是数据科学出现的原因。
数据的未知性主要体现在以下几个方面。
• 数据表示了未知的现实事物:早期人们将已知的事情交给计算机完成,将已知的数据存储到计算机中,将已知的算法写成计算机程序。数据、程序和程序执行的结果都是已知的或可预期的。事实上,这期间计算机的主要作用是帮助人们工作,提高工作效率。因此,计算机所做的事情和生产的数据都是清楚的。随着设备和仪器的数字化进程不断发展,各种设备都在生产数据,于是大量人们并不了解的数据被生产出来并存入网络空间。例如,自从人类基因组计划(HumanGenomeProject,HGP)开始后,巨量的 DNA数据被存储到网络空间中,这些数据是通过 DNA测序仪器检测出来的,是各种生命的 DNA序列数据。虽然人们将 DNA序列存入了网络空间,但在将其存入网络空间时,人们并不了解 DNA序列数据表达了什么,有什么规律,是什么基因片段使得人之间相同或不同,物种进化的基因如何变化,是否有进化或突变,等等。
• 网络空间自有的未知数据:网络空间自有的非现实数据更是未知的。例如,电子游戏创造了一个全新的活动区域,这个区域的所有场景、角色都是虚拟的,还有虚拟货币。这些虚拟区域的事物通过游戏玩家与现实世界联系在一起。因此,游戏世界表现出的和内在的东西在现实世界中是不存在的,是未知的。
• 不能看到数据反映的现实:也许网络空间中某些数据早就显示人类将面临一场能源危机,人们却无法从数据中得到这样的知识。虽然每个人都是将个人已知的事物和事情存储到网络空间中,但是,当一个组织、一个城市或一个国家的公民都将其个人工作、生活中的事物存储到网络空间中时,数据将反映这个组织、城市或国家的整体状况,包括国民经济和社会发展的各种规律和问题。这些由各种数据综合反映的社会经济规律是人们事先不知道的,也就是说,信息化工作将社会经济规律这些未知的东西也存储到了网络空间中。
• 无法判别数据的真实性:人们不知道从互联网上获得的数据是否是正确的和真实的,当人们在两个不同的网站上对相同的目标进行搜索访问时,得到的结果可能是不一样的,人们无法判断哪个结果是正确的。
• 如何认识数据界:人们不知道数据界有多大,数据界以怎样的速度在增长,数据界的数据是否会阻塞整个网络,等等。
(3)数据的多样性和复杂性
随着技术的进步,存储到网络空间中的数据的类别和形式越来越多。早期的数据主要通过键盘录入,大部分是字符数据;从 20世纪 90年代开始,多媒体设备、数字化设备的大量出现(例如音频、视频设备等)使数据的生产方式变得多样、生产数据的速度飞速加快,远远超出了信息技术进步的速度,这也为现在的大数据埋下伏笔。数据的多样性是指数据类别多样,如不同语言的数据、不同行业的数据、空间数据、海洋数据、DNA数据等,还包括互联网中/不在互联网中的数据、公开/非公开的数据、企业/政府的数据等。数据的复杂性体现在两个方面:一是数据具有各种各样的格式,包括各种专用格式和通用格式;二是数据之间存在着复杂的关联性。
数据界已经形成。由于网络空间的数据已经表现出不为人所控制、未知性、多样性和复杂性等自然界特征,没有哪个人、哪个组织、哪个国家能够控制网络空间中数据的增长、流动。很多数据表达的是现实中的事物,还有很多(甚至是更多)数据是与现实无关的,这些数据只在网络空间中存在,不表示任何现实的事物,因此这是另外一个世界——数据界。