带你读《数据自治》第一章绪论1.1数据是什么(二)

简介: 带你读《数据自治》第一章绪论1.1数据是什么

1.1.2         数据的属性

 

网络空间的数据具有如下属性[2]

•  物理属性:是指数据在存储介质中以二进制串的形式存在。数据的物理存在占据了存储介质的物理空间,这是数据真实存在的表现,并且数据可以被度量。数据的物理存在可以直接用于制作数据复本、进行数据传输,也可以通过特殊的方法直接从物理存在勘探数据、破解数据。

•  存在属性:是指数据以人类可感知(通常为可见、可听)的形式存在。在网络空间中,物理存在的数据需要通过 I/O设备以某种形式(如显示、声音)展现出来,才可以被人所感知、所认识。人们通过 I/O设备能感知到的数据才能被认为是存在的数据,否则只能猜测数据存在或不存在。

•  信息属性:一个数据是否有含义、含义是什么,这是数据的信息属性。通常,数据通过解释之后就会具有含义(即解释清楚数据表示什么),数据的含义就是信息;也有一些数据是没有含义的,例如,一个随意打入的字符串20xsaff7s9f9dsf7w2就没有含义,但它是数据。

•  时间属性:时间是自然界中的一个基本要素,使自然界万物朝着一个不可逆的方向发展前进,让人类能够区分过去和未来。数据界中没有时间的概念,数据的存在没有过去和未来。将一个数据项itemt1t2t33个时刻分别赋予值 100200100,则 t1t3时刻 item的值是相同的,于是可以说在t3刻,item回到 t1时刻的样子。这是数据界与自然界的最大区别。在自然界,任何事物在任何两个时刻都是不同的。如果要用数据来表示自然界中一个随

时间变化的事物,对应于自然界的时间概念,那么需要给数据加盖时间戳,例如:时间戳20099191738。事实上,在数据界中,数据没有寿命的概念。虽然数据的载体会折旧,但数据不会折旧。因此,可以通过更换数据存放载体的方式来将数据一直存储在网络空间中。

物理属性、存在属性、信息属性之间的关系如下。

•  数据的物理属性和存在属性是一一对应的。例如:data是一个数据,是数据界中存在的数据,其物理存在表现为01100100    01100001    01110100 01100001,而DATA是另一个数据,其物理存在表现01000100010000010101010001000001

•  一个信息属性可以对应多个存在属性(当然也对应多个物理属性)。数据的存在属性和信息属性之间的联系因人而异、因事而异,没有固定的规则和形式。例如:DATAdata是两个数据,就信息属性而言,两者表示同一个信息或同一个信息对象;又如Y.Y.ZHUYangyongZhu也是两个数据,但也可能是同一个信息或表示自然界的同一个人名。

 

1.1.3         数据与物质

 

根据数据的属性,数据和物质都是物理存在的,但数据的存在和物质的存在是非常不同的。主要的不同点表现在可标识性、可共享性和生命周期性 3个方面[2]

(1)可标识性

自然界中的物质都是可标识的,所谓相同的两个东西指的是同质化的两个东西,例如,对于两杯水,我们可以说一样的两杯水,但这两杯水仍然可以被区分开来;而对于数据,一个数据的存在和两个相同数据的存在是一样的,两个相同的数据的说法意义不大,两个相同的数据表示的其实是同一个事物,即一个数据,一般采用一个数据的两个复本的说法。对于数据,通常讨论数据的相似性,而不讨论数据的相同性,相似性由相似性函数定义,可以说两个相似的数据

数据的这种特性说明数据是面向值的,即如果有两个数据对象有相同的值,则认为它们是一个对象的两个复本。

(2)可共享性

共享就是指共同分享,在物理世界中主要指某样东西被多个人分享。例如

享午餐是指共享者一起吃午餐,其实每个共享者吃的东西并不一样,同样的东西是不可能被吃进两个人的肚子里的。

数据共享是指同样的数据被多个共享者使用,并且每个共享者拥有完全一样的数据量、数据形式和数据内容,即拥有数据的复本。获得一个数据的任意多个复本是轻而易举的事情,因此,数据是可共享的,并且数据拥有者通常愿意将其拥有的数据拿出来共享。

数据的可共享性意味着数据的边际成本很低,能够创造更多的价值。但是,数据的可共享性也可能带来负面效果,例如,因为数据复本的制作非常容易,所以对数据所有权的保护就非常困难。

(3)生命周期性

自然界中的物质会老化,有生命周期,但数据不会老化,没有生命周期。数据从其被生产出来到被删除的过程看起来像是有生命周期的,其实不是。根据数据的时间属性,一个数据本身是不会随时间的推移而变老、变旧的。例如,将一张照片数据存放多年以后,只要载体还存在或者不断替换新载体,这个数据对象本身是不会发生变化的,数据不会减少,数据质量也不会下降。

数据被生产、存储、修改、删除的过程通常是一个应用系统执行的结果,也可能是现实中对应该数据的事物的生命周期发生变化的数据反应,而不是计算机系统中数据的生命周期。这一点对于数据科学研究者而言非常重要。

相关文章
|
6月前
|
5G 网络架构
带你读《5G 系统技术原理与实现》精品文章合集
带你读《5G 系统技术原理与实现》精品文章合集
|
SQL 消息中间件 存储
分布式事物:第一章:分布式事物简介
分布式事物:第一章:分布式事物简介
181 0
|
Python
数据库系统概论第六章(关系数据理论)知识点总结(2)—— 码的概念总结
语义:一个演奏者可以演奏多个作品,某一作品可被多个演奏者演奏,听众可以欣赏不同演奏者的不同作品
372 0
|
存储 安全 数据管理
带你读《数据自治》前言第一章绪论1.4数据自治概述(一)
带你读《数据自治》前言第一章绪论1.4数据自治概述(一)
带你读《数据自治》前言第一章绪论1.4数据自治概述(一)
|
算法 搜索推荐 大数据
带你读《数据自治》第一章绪论1.3大数据(二)
带你读《数据自治》第一章绪论1.3大数据
带你读《数据自治》第一章绪论1.3大数据(二)
|
存储 数据可视化 自动驾驶
|
5G 测试技术 调度
广覆盖需求的实现 | 带你读《5G 空口设计与实践进阶 》之三
覆盖是 NR 实现高速率、低时延、大连接等其他性能指标的基础。为满足连续广覆盖的需求,NR 在覆盖方面进行了全方位的增强设计。
广覆盖需求的实现 | 带你读《5G 空口设计与实践进阶 》之三
|
存储 传感器 安全
带你读《数据自治》第一章绪论1.1数据是什么(三)
带你读《数据自治》第一章绪论1.1数据是什么
|
存储 算法 大数据
|
安全 大数据 数据安全/隐私保护
带你读《数据自治》前言第一章绪论1.4数据自治概述(二)
《数据自治》前言第一章绪论1.4数据自治概述(二)