0.1 大数据的定义
大数据可以用三个“V”来定义:
- Volume―数据体量大。
- Variety―数据的来源多种多样,包括传统数据库、图像、文件和其他复杂的记录。
- Velocity―通过吸收来自补充数据集的数据,引入已存档的数据或遗留的数据集,以及来自多种数据源的流数据,数据一直在变。
大数据(big data)不是很多数据(lotsa data),也不是海量数据(massive data),理解这一点很重要。在大数据资源中,上述三个“V”必须都适用。大数据资源独有的数据量大、复杂程度高和数据无穷无尽的特点决定了其数据设计、操作和数据分析方法也具有特定性。
“lotsa data”常用来表示大量格式简单的记录数据的集合,例如:每颗可观测到的星星的大小和位置;每个在美国的人和他们的电话号码;每个现存物种及其谱系;等等。这些数据量较大的数据集往往美其名曰“列表”,其中有一些是目录,其目的是存储和检索信息;还有一些lotsa data数据集是电子表格(行列二维表),数学上等价于一个巨大的矩阵。出于科学研究的目的,有时同时分析一个矩阵中的所有数据是非常必要的。矩阵分析强调计算,也许需要一台超级计算机的协助。这种对于大型矩阵的全局分析不是本书的主题。
大数据资源并不等价于一个大型的电子表格,也不意味着从总体上进行分析。大数据分析是一个多步骤的过程,在此过程中数据经过提取、过滤和转换,然后进行逐个分析或递归分析。在你读这本书时,会发现“lotsa data”与大数据之间的区别非常之大,这两者几乎不能在同一场所被有效地讨论。