1.1.3 数据与物质
数据和物质都是物理存在的,但数据的存在和物质的存在是不同的,主要表现在可标识性、可共享性和生命周期性 3个方面[6]。
(1)可标识性
自然界的物质都是可标识的,所谓“相同的两个东西”指的是同质化的两个东西,例如,面对两杯水,可以说“一样的两杯水”;而对于数据,一个数据的存在和两个相同数据的存在是一样的,“两个相同的数据”的说法意义不大,“两个相同的数据”表示自然界的一个事物,即一个数据,一般采用“一个数据的两个副本”的说法。对于数据,通常讨论数据的相似性,而不讨论数据的相同性,相似性由相似性函数定义,可以说“两个相似的数据”。
数据的这种特性说明数据是面向值的,即如果有两个数据对象有相同的值,则认为它们是一个对象的两个副本。
(2)可共享性
共享就是指共同分享,在物理世界中主要指某样东西被多个人分。例如“共享午餐”是指共享者一起吃午餐,其实每个共享者吃的东西并不一样,同样的东西是不可能被吃进两个人的肚子里的。
而数据共享的概念有本质上的不同,数据共享是指同样的数据被多个共享者使用,并且每个共享者拥有完全一样的数据量、数据形式和数据内容,即拥有数据的副本。相对于数据生产来说,将一个数据复制随意多个副本是轻而易举的事情,因此,数据是可共享的,并且数据拥有者通常愿意将其拥有的数据拿出来共享。
数据的可共享性意味着数据的边际成本很低,能够创造更多的价值。但是,数据的可共享性也可能带来负面效果,例如,因为数据副本的制作相对于数据生产来说非常容易,所以对数据所有权的保护就非常困难,数据的稀缺性也极易受到挑战。
(3)生命周期性
自然界中的物质会老化,有生命周期;而数据不会老化,没有生命周期。数据从其被生产出来到被删除这个过程看起来像是有生命周期的,但其实不是。根据数据的时间属性,一个数据本身是不会随时间的推移而变老、变旧的,例如,将一张照片数据存放多年以后,只要载体还存在或者不断替换新载体,这个数据对象本身是不会发生变化的,数据不会减少,质量也不会下降。
数据被生产、存储、修改、删除的过程通常是一个应用系统执行的结果,也可能是现实中对应该数据的事物的生命周期发生变化的数据反应,而不是计算机系统中数据的生命周期。这一点对于数据科学研究者而言非常重要。
1.1.4 大数据
关于大数据,不同的人群有不同的理解。当前,大数据人群可以被分为 3类:有大数据的人群、做大数据的人群和用大数据的人群。很多时候大家在谈论大数据时,实际上是在谈论不同的东西,即有大数据的人谈论数据资源及其规模,做大数据的人谈论大数据带来的技术挑战,用大数据的人则谈论大数据带来的决策 变革。
那么,大数据是数据、技术还是应用呢?事实上,数据的价值和挖掘这些价值的时效是大数据的核心内涵。
· 关于价值:首先,如果一个数据集没有价值,就不需要被关注;其次,如果一个数据集的价值密度高,即大部分数据是有价值的,那么直接读取数据集就能获得价值,没有技术难度。因此,真正的大数据是价值密度低的数据集,从数据集中获取价值像大海捞针一样。大数据是高难的技术挑战。
· 关于时效:首先,所有的大数据处理和分析都应该在希望的时间内完成,如果过了希望的时间,就没有意义了,这是一个技术难题;其次,在竞争中,要比竞争对手更快地完成大数据处理和分析。
这样来看,给定一个大数据,如果没有技术能够在希望的时间内挖掘其价值,那么大数据是一个技术挑战,否则就是一个大数据应用。需要注意的是,一个大数据应用可能会转化成大数据的技术挑战。例如,无人驾驶汽车在道路上行驶时,会获取汽车自身的工作数据(行驶速度、油量、引擎工作状态等)、实时路况数据(前车车速、车距、行人等)、道路管理数据(红绿灯、限速等),并及时分析这些数据、及时做出驾驶判断。当汽车速度小于 50km/h时,发现 50m外车道上有行人后,经过 2s的数据分析得出需要刹车的结论是可以接受的;但当车速提高到 100km/h时,数据分析的时间就需要小于 1s。这时,大数据应用变成了大数据技术挑战。
事实上,数据、技术和应用是大数据的 3个要素,数据隐含价值,技术发现价值,应用实现价值。大数据是为决策问题提供服务的大数据集、大数据技术和大数据应用的总称。其中,大数据集是指一个决策问题用到的所有可能的数据,通常数据量巨大、来源多样、类型多样;大数据技术是指大数据资源获取、存储管理、挖掘分析、可视展现等技术;大数据应用是指用大数据集和大数据技术来支持决策活动,是新的决策方法[7]。
一个大数据能否为一个决策问题提供服务的关键是:能否在决策希望的时间内有效完成所有的任务。但是数据增长的速度远远大于技术进步的速度,因此,出现了大数据问题。大数据问题是指不能用当前技术在决策希望的时间内处理分析数据的数据资源开发利用问题。大数据问题的关键技术挑战在于:找到隐含在低价值密度数据