数据是数字经济的关键要素,已成为国家重要的战略性资源,正逐步成为一种极其重要的新类型资产,驱动经济社会发展。本章从技术角度界定了数据的内涵,并在此基础上介绍了数据资源、数据资产、数据要素等基本概念。
1.1 界定数据
数据通常可以被分为电子数据和非电子数据两大类。电子数据是指计算机中存储的数据;非电子数据主要是纸质媒介中的数据,例如传统图书馆中的数据。由于以纸质形式和电子形式存储的数据无论在规模上还是在流通方式上都存在本质区别,加之“大数据”的含义只是指电子数据,因此,本书在研究、讨论数据资产时,将数据资源界定在电子数据的范畴,而不考虑非电子数据。
1.1.1 数据的含义
“数据”一词最早出现在拉丁语中,含义是“给予的事物”,后来其随着数学和神学进入英语[1]。随着经济社会的发展和技术的进步,出现了很多关于数据的不同认识和定义。
· 联合国欧洲经济委员会(theUnitedNationsEconomicCommissionforEurope,UNECE)将数据定义为信息的实体表现形式,这一表现形式适用于人工或自动化手段交流、转译或处理[2]。
Systems,CCSDS)给出的数据定义是以适合于交流、解释或加工的形式化方式进行的可重新解释的信息表示形式。比特序列、数值表、页面中的字符、讲话录音、月球岩石标本等都是数据[3]。
· 国际数据管理协会(DAMAInternational)认为数据是以文本、数字、图形、图像、声音和视频等格式对事实进行表现的形式,是信息的原始材料[4]。
· 曾任国际科学理事会(InternationalScienceCouncil,ISC)信息和数据战略协调委员会(StrategicCoordinatingCommitteeonInformationandData,SCCID)成员的彼得·福克斯(PeterFox)和瑞·海瑞斯(RayHarris)认为数据至少包括数字观测、科学监控、传感器数据、元数据、模型输出和场景、定性或观察的行为数据、可视化数据、出于行政或商业目的而收集的统计数据;数据通常被视为研究过程的输入[5]。
· 2019年美国《开放的、公开的、电子化的及必要的政府数据法案》(TheOpen, Public, Electronic, andNecessaryGovernmentDataAct,简称《开放政府数据法案(TheOPENGovernmentDataAct)》)将数据定义为以任何形式或介质记录下来的信息;开放政府数据时特别指明数据需要满足机器可读的条件。
传统意义上的数据是指数值,例如温度为 26.6℃、长度为100m等,但 IT领域将数据概念扩大了,数据还包括“Asset”“数据资产”“2020/07/31”等符号、字 符、日期形式的数据,以及文本、声音、图形、图像和视频等类型的数据,而且政府文件、出行记录、住宿记录、软件聊天记录、网上购物记录、银行消费记录等也都是数据。
数据存储形式主要有纸质(现实世界实物型)和电子媒介(网络空间(CyberSpace)数字型)两种。一方面,这两种形式无论在规模还是在流通方式上都存在本质区别,例如 1PB的电子数据相当于 30个中国国家图书馆 2017年的藏书规模,而
1PB规模是大数据领域的一个基础度量。网络空间里面的数据和网络空间外面的数据是有很大差异的,网络空间里面的数据是通过计算机处理的,而网络空间外面的数据是人通过手工或脑力直接处理的。显然,我们很难靠人力去读完 30个中国国家
数据资产,图书馆里面的图书,并进行知识整理,但 1PB的数据是大数据技术经常要处理的。另一方面,30个中国国家图书馆的图书资产和 1PB数据的资产无论在度量方面还是计价方面也都是完全不同的。
因此,本书将数据界定如下。
数据:是指网络空间里的所有东西,是网络空间的唯一存在,即电子数据。网络空间:是指计算机网络、广电网络、通信网络、物联网、卫星网等所有人
造网络和设备构成的空间,这个空间真实存在。电脑、手机、移动硬盘等都是网络空间的组成部分。现在,空调、冰箱、自动窗帘、电子门锁等也已经成为网络空间的组成部分。
如果把网络空间比喻成碗,那么网络空间这个碗里装的是“数据”。网络空间里的任何东西都是数据。
1.1.2 数据的属性
网络空间的数据具备一些特有的属性[6]。
· 物理属性:是指数据在存储介质中以二进制串的形式存在。数据的物理存在占据了存储介质的物理空间,是数据真实存在的表现,并且是可度量、可处理的。数据的物理存在使数据可以直接被用于制作数据副本、进行数据传输,也可以通过特殊的方法直接从物理存在勘探数据、破解数据。
· 存在属性:是指数据以人类可感知(通常为可见、可听)的形式存在。在网络空间中,物理存在的数据可以通过 I/O设备以某种形式(如显示、声音)展现出来,被人所感知、所认识。人们通过 I/O设备感知到的数据才能被认为是存在的数据,否则只能猜测其存在或不存在。
· 信息属性:一个数据是否有含义,含义是什么,这是数据的信息属性。通常,数据通过解释之后就会具有含义(即解释清楚数据表示什么),数据的含义就是信息;也有一些数据是没有含义的,例如,一个随意输入的字符串“20xsaff产 7s9f9dsf7w2”就没有含义,但它是数据。
· 时间属性:时间是自然界中的一个基本要素,其使自然界万物朝着一个不可逆的方向发展前进,让人类能够区分过去和未来。数据界没有时间的概念,数据的存在没有过去和未来。将一个数据项item在 t1、t2、t33个时刻分别赋予值 100、200、100,则 t1和 t3时刻 item的值是相同的,于是可以说在 t3时刻,item回到 t1时刻的样子。这是数据界与自然界的最大区别。在自然界,任何事物在任何两个时刻都是不同的。如果数据要被用来表示自然界一个随时间变化的事物,对应于自然界的时间概念,那么需要给数据加盖时间戳,例如时间戳“2009年9月1日9时17分38秒”。事实上,在数据界,数据没有寿命的概念。虽然数据的载体会老化,但数据不会老化,可以通过更换存放数据的载体来保证数据一直被存储在网络空间中。
图 1-1中 4个列分别代表 4个数据集,它们以(0,1)二进制代码的形式存放在存储设备中,占用物理存储空间,体现了数据的物理属性。这 4个数据集通过 I/O设备分别以表格、文字、图等形式被看见,使人们知道在存储空间存在着 4个数据集,
体现了数据的存在属性。通过对这 4个数据集进行读取和解析来获取信息,但信息的获取受知识体系、技术水平等因素影响,读取和解析出来的信息会不尽相同,这体现了数据的信息属性。
· 第一个数据集(第一列)。可以看到存在属性和信息属性是相同的,信息较容易获取。
· 第二个数据集(第二列)。看到的存在属性是“铷惈佺ぜ届嘟轲鉯 bú偠孒,卧只楆誐亻门啲暧,讠上藦騩漴拝,让兲驶发槑~”,其信息属性是“如果全世界都可以不要了,我只要我们的爱,让魔鬼崇拜,让天使发呆~”,这类数据集信息的获取需要具备相应的知识体系。
· 第三个数据集(第三列)。存在属性是一个图,看不出是什么内容,需要通过技术进行处理,经过处理后读取出的信息属性是一头大象,这类数据集信息的获取需要通过技术手段,技术手段越高,获取的信息可能就越多。
· 第四个数据集(第四列)。看到的存在属性是一堆无序的字符,无论通过知识体系还是技术手段都读取不了任何内容,因为它是一堆乱码,不具有任何数据资产
图 1-14个数据集的属性