1.1.4 数据分类
从直观上,可以对数据进行如下分类[2-3]。
(1)依据数据表示的含义来划分
从数据表示的含义方面,数据可以分为两类:一类是表示现实事物的数据,称为现实数据;另一类则不表示现实事物,只在网络空间中存在,称为非现实数据[1]。
现实数据主要包括以下两种。
• 感知数据:是指通过感知设备(如温度传感器、天文望远镜)获得的数据。这类数据是现实世界的直接反映。
• 行为数据:是指人类进行科学研究、劳动生产、生活行为等产生的数据。这类数据是人类行为的直接反映。
非现实数据种类繁多,目前还不能很好地对其进行分类,举例如下。
• 计算机病毒:是指能够进行自我复制和传播的计算机程序,只在数据界中存在,在现实世界中没有映射。
• 网络游戏:有些网络游戏(或者网络游戏中的有些部分)的内容是将现实世界的游戏场景映射到数据界中,还有一些网络游戏(或者网络游戏中的另一些内容)则与现实世界完全无关,其游戏场景只在数据界中出现。
• 垃圾数据:没有任何含义的数据。
(2)依据数据的权属来划分
数据权属目前还没有法律界定,从情理上看,数据非天然,数据理应属于数据生产者。但实际情况往往比较复杂,从目前数据的生产和被占有的情况来看,数据可以被分成如下类别。
• 私有数据:指个人或组织自己生产、自己保管、非公开的数据,这类数据权属清晰。
• 多方生产的数据:大部分数据是由多方共同生产的,如电商平台、银行、电信、医院等的数据是由多方生产的。电商平台的数据是由购物者、网店卖家、支付系统、物流系统、平台等共同生产的,这些数据的权属没有界定。目前大部分电商数据被电商平台占有,购物者和卖家没有主张权利。但是,如果医院的数据被医院占有,且医院从中获取利益,民众就会强烈反对。因此,这类数据的权属有待进行法律界定,以避免数据的灰色地带和数据黑产的产生。
• 政府数据:主要指政务数据、政府财政投资产生的数据以及国有的企业数据。这部分数据属于政府。
• 公网数据:主要指发布在公共网站上的数据,这些数据能够通过搜索引擎进行访问。按照目前的物权法和知识产权法的规定,这类数据属于数据的原创者,不能随便下载使用。但是,人们在公共网站上下载数据是普遍的行为。因此,这类数据的权属也同样有待进行法律界定。
(3)依据数据的组织形式来划分
从数据的组织形式来看,数据主要有以下形式。
• 专用格式数据:有相当多的数据是由专用数字化设备产生的,如医学影像数据(X光片、CT等)、遥感数据、GIS数据、多媒体数据等。对这些数据的处理需要专门的设备或专门的软件。
• 通用格式数据:在信息化早期,大多数数据是存储在通用数据库中的,由通用的数据库管理系统进行管理。这些数据库结构清楚,处理方便。
• 互联网数据:互联网上的数据的种类和格式繁多,还有很多是垃圾数据、病毒数据,人们的目的是从中找到有用的数据。互联网数据的形成使得网络空间中的数据更加显现出自然界的一些特征。