为什么叫大数据而不叫大信息?朴素地做一些解释,“CPI为6.9”是一条数据,如果你读懂了,你就可以获得信息“经济处在高通胀状态”,如果没有读懂,就没有获得信息。也就是说,对于读懂的人来说,数据就是信息,对于没有读懂的人来说,它只是数据,不是信息。又如,随意键入的一串字符“8上的飞机 spew2”就没有信息,但它是数据。另外,信息的大小难以衡量,但数据的大小可以衡量。现在讲大数据而不是大信息,是指数据规模确实很大,但并不意味着数据里面的信息很多(或很大),有些非常大的数据集可能没有什么有价值的信息,即大数据里可能没有大信息。本节关于大数据的讨论主要来自文献[10]。
1.3.1 信息化与大数据
信息化的本质是生产数据的过程,数据被大量生产处理,进而形成了数据资源。数据资源的开发利用逐渐成为人类的新需求,从早期的数据仓库和数据挖掘技术的提出,到决策支持系统和商业智能的应用,都是在进行数据资源的开发利用工作。直到大数据的出现,数据资源的开发利用工作从量变发展到了质变:数据开发成为一个新的领域,信息技术发展出新的技术分支——大数据技术,并迅速壮大,对数据界的探索发展为一个新的科学——数据科学。图 1-1展示了信息化和大数据的差异[11]。
我们需要把握住大数据和信息化二者之间的关系:不混淆、不冲突。
• 不混淆是指信息化和大数据是不同的,不能混为一谈,信息化是生产数据的,大数据是开发数据的,更重要的是:信息化是技术进步促进数据增长,大数据是数据增长促进技术进步。不能用信息化的做法和思路来发展大数据,也不能用发展大数据的方式来建设信息化。
• 不冲突是指大数据不取代信息化,信息化不包含大数据,信息化仍将快速发展,但大数据已经从信息化工作中独立出来了,如果说信息化对应的技术叫 IT
(InformationTechnology),那么大数据对应的技术可以叫 DT(DataTechnology)。
图 1-1大数据与信息化的差异
1.3.2 大数据定义
大数据已经是一个普遍使用的名词了。但是,技术领域和非技术领域对大数据有不同的理解,这两个领域谈论的对象其实是不同的,技术领域说的大数据是指大数据技术,而应用领域说的大数据是指大数据应用。事实上,经过长期的信息化建设,几乎所有的行业和单位都积累了庞大的数据资源,因此,数据和基于数据的应用几乎涉及所有的人。可以将大数据人群分成 3类:有大数据的人群、做大数据的人群和用大数据的人群,很多时候大家在谈论大数据时,实际上是在谈论不同的东西,即有大数据的人谈论数据资源及其规模,做大数据的人谈论大数据带来的技术挑战,用大数据的人则谈论大数据带来的决策变革。3类人群谈论的是不同的大数据概念。
那么,大数据是数据、技术、还是应用呢?这就需要一个清晰的大数据定义。先来看一下关于大数据的一些定义。
1997年 Michael Cox和 DavidEllsworth[12]最早提出“大数据”术语时指出:当数据量大到内存、本地磁盘,甚至远程磁盘都不能处理时,这类数据可视化的问题称为大数据。
维基百科的定义:大数据是一个复杂而庞大的数据集,以至于很难用现有的数据库管理系统和其他数据处理技术进行采集、存储、查找、共享、传送、分析和可视化。
4V定义:大数据是具有 4V特征的数据集。4V特征是指:价值(Value),数据价值巨大但价值密度低;时效(Velocity),数据处理分析要在希望的时间内完成;多样(Variety),数据来源和形式都是多样的;大量(Volume),就目前技术而言,数据量要达到PB级别以上。
香山科学会议定义:2013年 5月召开的第 462次香山科学会议给出了技术型和非技术型两个定义。
• 技术型定义:大数据是来源多样、类型多样、大而复杂、具有潜在价值,但难以在期望的时间内处理和分析的数据集。
• 非技术型定义:大数据是数字化生存时代的新型战略资源,是驱动创新的重要因素,正在改变人类的生产和生活方式。
上述这些定义的核心问题是:一个数据集有没有价值(值不值得去挖掘)?能不能挖掘出价值?能不能在希望的时间内挖掘出价值?
事实上,数据的价值和挖掘这些价值的时效是大数据的核心内涵。
• 关于价值:首先,如果一个数据集没有价值,就不需要关注;其次,如果一个数据集的价值密度高,即大部分数据是有价值的,直接读取数据集就能获得价值,没有技术难度。因此,真正的大数据是低价值密度的数据集。大数据是高难的技术挑战。
• 关于时效:首先,所有的大数据处理和分析都应该在希望的时间做完,如果过了希望的时间,就没有意义了,这是一个技术难题;其次,在竞争中,要比竞争对手更快地完成大数据处理和分析。
这样来看,大数据的核心只有两个 V:价值(Value)和时效(Velocity)。给定一个大数据,如果没有技术能够在决策希望的时间内挖掘其价值,那么大数据是一个技术挑战,否则这就是一个大数据应用。需要注意的是,一个大数据应用可能会转化成大数据的技术挑战。例如,无人驾驶汽车在道路上行驶时,会获取汽车自身的工作数据(行驶速度、油量、引擎工作状态等)、实时路况数据(前车车速、车距、行人等)、道路管理数据(红绿灯、限速等),并及时分析这些数据,及时做出驾驶判断。当车速小于 50km/h时,汽车发现 50m外车道上有行人后,花费 2s的时间得出需要刹车的结论是可以接受的;但当车速提高到 100km/h时,数据分析
的时间就需要小于1s。这时,大数据应用变成了大数据技术挑战。
这些定义最大的问题是“当前技术难以(所不能)处理的”。那么当技术改进了,能够处理了,还是不是大数据?于是,一个典型的矛盾现象出现了:技术领域说大数据是当前技术所不能解决的数据集,而应用领域却给出了大量关于大数据成功应用的案例。这是对大数据的谬误。
大数据谬误:大数据是当前技术难以(所不能)处理的数据集,那么,所有能够被处理的数据集都不是大数据,因此,没有成功的大数据应用。也就是说,“大数据都不能被处理,能够处理的都不是大数据”,或者“大数据都不能用,能用的都不是大数据”[10]。
从上述定义可以看出:首先,所有的定义都谈到了数据,一个庞大的数据集;其次,技术方面强调了大数据是当前技术所不能处理的,这里的“不能”是指“不能在决策希望的时间内”做到;最后,大数据是用来解决决策应用问题的,是一个基于数据集和数据技术的决策应用,改变着生产和生活中的决策方式。因此,数据、技术和应用是大数据的 3个要素,数据隐含价值,技术发现价值,应用实现价值。
那么,应该如何定义大数据呢?
首先,不能把一个技术挑战定义为大数据,否则,一旦技术挑战解决了,就不是大数据了,另外,挑战本身不是一个事物,不能被命名;其次,也不能把一个数据集定义为大数据,数据集本身只是隐含价值,不能直接发挥作用;最后,更不能将一个数据应用定义为大数据,那样会导致所有基于数据的系统都被认为是大数据。我们可以对大数据做如下定义。
大数据是为决策问题提供服务的大数据集、大数据技术和大数据应用的总称。其中,大数据集是指一个决策问题用到的所有可能的数据,通常数据量巨大、来源多样、类型多样;大数据技术是指大数据资源获取、存储管理、挖掘分析、可视展现等技术;大数据应用是指使用大数据集和大数据技术来支持决策活动,是新的决策方法[10]。
一个大数据是否能为一个决策问题提供服务的关键是:能否在决策希望的时间内有效完成所有的任务。但是数据增长的速度远快于技术进步的速度,因此,出现了大数据问题。
大数据问题是指不能用当前技术在决策希望的时间内处理分析的数据资源开发利用问题。大数据问题的关键技术挑战在于:找到隐含在低价值密度数据资源中的
价值;在决策希望的时间内完成所有的任务[10]。