本节书摘来自华章出版社《大数据管理概论》一书中的第1章,第1.1节,作者 孟小峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看
‖第1章
概 述
1.1 大数据的基本概念
已故的图灵奖得主Jim Gray在其《事务处理》一书中提到:6000年以前,苏美尔人(Sumerians)就使用了数据记录的方法,已知最早的数据是写在土块上,上面记录着皇家税收、土地、谷物、牲畜、奴隶和黄金等情况。随着社会的进步和生产力的提高,类似土块的处理系统演变了数千年,经历了殷墟甲骨文、古埃及纸莎草纸、羊皮纸等。19世纪后期打孔卡片出现,用于1890年美国人口普查,用卡片取代土块,使得系统可以每秒查找或更新一个“土块”(卡片)。可见,用数据记录社会由来已久,而数据的多少和系统的能力是与当时社会结构的复杂程度和生产力水平密切相关的。
随着人类进入21世纪,尤其是互联网和移动互联网技术的发展,使得人与人之间的联系日益密切,社会结构日趋复杂,生产力水平得到极大提升,人类创造性活力得到充分释放,与之相应的数据规模和处理系统发生了巨大改变,从而催生了当下众人热议的大数据局面。
从历史观的角度看,数据(D)和社会(S)形成了一定的对应关系,即:D1~f (SSumerians),…,Dbig~f (Spresent),…,Dn~f (Sfuture)。从量的关系上,D1,…,Dbig,…,Dn可能存在大小关系,还可形成包含关系,但它们只是与当时的社会发展状况相对应:Dbig不可能反映代表未来的Dn,因为我们不知道未来会有什么新的社会结构(诸如当下社交网络一类的事物)出现,也不知道会有什么新的生产活动(诸如电商一类的事物)产生;同样D1也不需要具有Dbig的规模,因为当时人们并没有如此频繁的联系。近期,美国加州大学伯克利分校Michael I. Jordan教授提出“大数据的冬天即将到来”,如果我们能历史地认识Dbig的地位,没有把Dbig当Dn,就不存在“冬天”与“春天”的问题。这是历史客观发展的事实。
基于以上分析,当下大数据的产生主要与人类社会生活网络结构的复杂化、生产活动的数字化、科学研究的信息化相关,其意义和价值在于可帮助人们解释复杂的社会行为和结构,以及提高生产力,进而丰富人们发现自然规律的手段。本质上,大数据具有以下三方面的内涵,即大数据的“深度”、大数据的“广度”以及大数据的“密度”。所谓“深度”是指单一领域数据汇聚的规模,可以进一步理解为数据内容的“维度”;“广度”则是指多领域数据汇聚的规模,侧重体现在数据的关联、交叉和融合等方面;“密度”是指时空维上数据汇聚的规模,即数据积累的“厚度”以及数据产生的“速度”。
面对不断涌现的大数据应用,数据库乃至数据管理技术面临新的挑战。传统的数据库技术侧重考虑数据的“深度”问题,主要解决数据的组织、存储、查询和简单分析等问题。其后,数据管理技术在一定程度上考虑了数据的“广度”和“密度”问题,主要解决数据的集成、流处理、图结构等问题。这里提出的大数据管理是要综合考虑数据的“广度”“深度”“密度”等问题,主要解决数据的获取、抽取、集成、复杂分析、解释等技术难点。因此,与传统数据管理技术相比,大数据管理技术难度更高,处理数据的“战线”更长。