从经济活动视角看,数据的活动主要有数据生产再生产、数据出版、数据使用和数据服务、数据交易、数据科学研究 5个方面。下面分别进行介绍。
3.1.1 数据生产再生产
一般地,数据生产得到的是数据资源或者数据的初级产品,可以直接供最终用户使用,也可以作为原材料(初级产品)进行再生产,形成高级别的数据产品或数据服务。
(1)数据生产
数据生产一般是指将现实事务信息化,从而在网络空间形成数据,也包括直接将数据输入网络空间。例如,证券交易行情数据是证券交易所信息化系统生产的数据,统计局的人口数据则是人口普查员直接录入的数据,街头摄像头则直接采集了图像数据。
信息化是数据的主要来源。信息化将人们过去手工做的事情转换成由计算机来做,计算机在处理业务时会产生数据;信息化还通过摄像头、录音笔、电子仪器设备、传感器等直接将现实的事物采集到网络空间中变成数据。本质上,所有信息化的结果都是在网络空间中形成数据。因此,从信息化的视角来看,数据是信息化的副产品;但从网络空间的视角来看,信息化的本质是生产数据的过程。
除了信息化外,人们还直接在网络空间中创造数据,例如,直接在键盘上输入现实中没有的数据或者编写程序代码。
(2)数据再生产
数据再生产是指根据已有的数据,运用数据技术生产出新的数据的过程。数据再生产包括数据汇集、数据清洗、数据可视化、数据分析等。例如,搜索引擎将各个Web网页的数据组织起来形成新的数据,这是一个数据再生产过程,然后搜索引擎利用再生产形成的数据向用户提供数据服务;又如,证券信息服务商将证券交易所的证券行情数据再生产成 K线图、移动平均线、KDJ图、布林线(BOLL)图等新的数据;又如,企查查将全国工商登记数据进行了再生产。大部分数据处理、数据分析技术可以用于数据再生产。
从数据的生产者来看,数据可以分为私有数据、公共网络数据、多方生产的数据(如图3-1所示)[1-3]。
• 私有数据是指由个人、单个法人自己生产的数据,这些数据由生产者自己保管、供内部使用、不对外公开、不涉及第三方利益。
• 公共网络数据是指公开网络上的数据。这些数据来源多样、生产方式多样,包括自由上传的数据、公开数据、公开传感数据等。
• 多方生产的数据是最常见的数据生产形式。例如,电子商务、银行证券、电信运营、社交网络、娱乐游戏、网络教育、医疗健康、共享经济、在线经济等网络平台的数据几乎都是由用户、支付平台等多方生产的。
图 3-1从数据生产者看数据
(3)数据存储
数据需要存储在网络空间。一般来讲,数据生产者可以妥善存放自己生产的数据,也可以将数据存储在云服务商的云存储设备中。多方生产的数据通常存放在平台服务商的存储设备中。
3.1.2 数据出版
数据出版早期是指科学数据出版,出版机构 PensoftPublisher认为:数据出版是指将数据上传到互联网进行公开,并支持除数据提供者以外的组织机构或个人下载、分析、复用以及引用数据[4]。维基百科的定义是:数据出版是以出版的形式公开科研数据以便他人使用的行为,这是为了公众随意使用科研数据而提供某些数据或数据集的实践,这种实践是开放科学运动的一个有机组成部分。这一实践带来的益处在多学科领域中获得了广泛共识。后来一些学者把政府数据公开也纳入数据出版[5],其目的是将数据在公共数据库或网站上公开,以实现数据开放共享,这是政府开放数据运动的重要内容。
数据出版主要有两个目的,一个是使生产的数据达到一定的规范,以方便使用和流通,另一个是宣示数据的所有权。
(1)使数据达到一定的规范
由于数据类型和来源的多样性,简单地将数据公开并不适合公众使用。简单地公开数据对于公众来说无异于看天书,甚至会出现无法读取数据的情况,因此有必要像图书出版一样建立一个相对统一的规范,使得公众易于使用公开的数据,数据出版就是这样一种实践。数据出版可以被看作将已有的数据进行整理后出版的一种活动。严格意义上来说,数据出版属于数据生产再生产的一个环节,使生产的数据达到一定的规范要求、形成一定的规模,以便公众使用,包括下载、分析使用、再生产等。
(2)宣示数据的所有权
尽管科学数据出版已经有 30多年历史了,但是科学数据出版和引用只是科学家的自律行为,尚没有法律约束,数据出版的权益宣示作用并没有表现出来。数据资产、数据要素等概念的快速发展和实践要求从方法上解决数据确权的问题,数据出版的更大作用应该是数据所有权的宣示[6]。在数据确权比较困难的大背景下,数据出版是一种可行的数据确权方式,也是数据资产化的一项工作[7-8]。数据的生产比较困难,相比于数据生产,数据复制的成本极低,数据在网络空间中的传播比较容易,这导致人们在使用数据时往往并不知道这些数据从哪里来、是谁生产的、归谁所有、质量如何。这对数据生产者和拥有者的权益造成了极大伤害,同样也会对数据使用人的权益造成伤害。数据出版能从法律方面较好地解决这些问题。数据出版通过一系列保障措施、环节步骤和技术支持,较好地实现了对数据权益的保护,从而实现了对数据生产者和拥有者的信誉及合法权益的保障,提高了数据重用的价值[9]。
并不是所有的数据都是可以出版的。吴娜达等人[6]讨论了可以出版的数据应满足的条件:数据权属能够确定、数据内容无害、数据标准规范、数据质量优良、数据具有可读性。
• 数据权属能够确定:数据出版是为了宣示数据的著作权、所有权。因此首要前提是数据是合法生产的。关于数据权属,一个直观的观点是:数据非天然,情理上属于数据生产者[2-3]。如果数据是由单个主体独自生产的,这个权属比较容易界定;当数据有多个生产主体时,则需要各个主体签订协议,协商共同拥有数据权属或者由某个主体拥有数据权属。
• 数据内容无害:出版数据就是将数据向社会公开,任何人都可以访问这些数据。因此,可能危害社会和个人(例如涉及个人隐私)的数据不可以出版。比如病人的电子病历数据涉及病人的个人隐私,是不能被出版的;再比如公民的身份证信息不仅涉及个人隐私,而且如果样本足够大,会对社会和国家安全造成危害,也是不能被出版的,等等。
• 数据标准规范:数据要符合数据出版行业的标准规范要求。一个可出版的数据集应该满足统一规模、格式、完整内容、版权标识、访问唯一标识的条件。出版的数据一般规模比较大、类型比较多,为了便于数据使用者使用出版的数据,还需要对出版的数据集进行描述和说明。
• 数据质量优良:数据必须质量优良,才能保证是可用的。只有当数据的可信度、准确性、完整性、可理解性、可利用性、安全性等方面都达到一定的标准和要求,才能进行出版。
• 数据具有可读性:数据出版是对数据所有权的宣示,必须要让公众看到出版的数据是什么。因此,数据可读也是数据出版的一个必要条件。不论何种格式的数据,都要有相应的通用型或专用型阅读器使得数据可被人读或机读。
另外,只有可读的数据,才能被人或机查询、阅读、编译、利用和二次开发,从而实现数据的价值。