《大数据管理概论》一第1章概  述1.1 大数据的基本概念

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

本节书摘来自华章出版社《大数据管理概论》一书中的第1章,第1.1节,作者 孟小峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看

‖第1章

概  述

1.1 大数据的基本概念

已故的图灵奖得主Jim Gray在其《事务处理》一书中提到:6000年以前,苏美尔人(Sumerians)就使用了数据记录的方法,已知最早的数据是写在土块上,上面记录着皇家税收、土地、谷物、牲畜、奴隶和黄金等情况。随着社会的进步和生产力的提高,类似土块的处理系统演变了数千年,经历了殷墟甲骨文、古埃及纸莎草纸、羊皮纸等。19世纪后期打孔卡片出现,用于1890年美国人口普查,用卡片取代土块,使得系统可以每秒查找或更新一个“土块”(卡片)。可见,用数据记录社会由来已久,而数据的多少和系统的能力是与当时社会结构的复杂程度和生产力水平密切相关的。
随着人类进入21世纪,尤其是互联网和移动互联网技术的发展,使得人与人之间的联系日益密切,社会结构日趋复杂,生产力水平得到极大提升,人类创造性活力得到充分释放,与之相应的数据规模和处理系统发生了巨大改变,从而催生了当下众人热议的大数据局面。
从历史观的角度看,数据(D)和社会(S)形成了一定的对应关系,即:D1~f (SSumerians),…,Dbig~f (Spresent),…,Dn~f (Sfuture)。从量的关系上,D1,…,Dbig,…,Dn可能存在大小关系,还可形成包含关系,但它们只是与当时的社会发展状况相对应:Dbig不可能反映代表未来的Dn,因为我们不知道未来会有什么新的社会结构(诸如当下社交网络一类的事物)出现,也不知道会有什么新的生产活动(诸如电商一类的事物)产生;同样D1也不需要具有Dbig的规模,因为当时人们并没有如此频繁的联系。近期,美国加州大学伯克利分校Michael I. Jordan教授提出“大数据的冬天即将到来”,如果我们能历史地认识Dbig的地位,没有把Dbig当Dn,就不存在“冬天”与“春天”的问题。这是历史客观发展的事实。
基于以上分析,当下大数据的产生主要与人类社会生活网络结构的复杂化、生产活动的数字化、科学研究的信息化相关,其意义和价值在于可帮助人们解释复杂的社会行为和结构,以及提高生产力,进而丰富人们发现自然规律的手段。本质上,大数据具有以下三方面的内涵,即大数据的“深度”、大数据的“广度”以及大数据的“密度”。所谓“深度”是指单一领域数据汇聚的规模,可以进一步理解为数据内容的“维度”;“广度”则是指多领域数据汇聚的规模,侧重体现在数据的关联、交叉和融合等方面;“密度”是指时空维上数据汇聚的规模,即数据积累的“厚度”以及数据产生的“速度”。
面对不断涌现的大数据应用,数据库乃至数据管理技术面临新的挑战。传统的数据库技术侧重考虑数据的“深度”问题,主要解决数据的组织、存储、查询和简单分析等问题。其后,数据管理技术在一定程度上考虑了数据的“广度”和“密度”问题,主要解决数据的集成、流处理、图结构等问题。这里提出的大数据管理是要综合考虑数据的“广度”“深度”“密度”等问题,主要解决数据的获取、抽取、集成、复杂分析、解释等技术难点。因此,与传统数据管理技术相比,大数据管理技术难度更高,处理数据的“战线”更长。

相关实践学习
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
相关文章
|
1月前
|
存储 分布式计算 大数据
大数据-169 Elasticsearch 索引使用 与 架构概念 增删改查
大数据-169 Elasticsearch 索引使用 与 架构概念 增删改查
54 3
|
1月前
|
消息中间件 分布式计算 大数据
大数据-123 - Flink 并行度 相关概念 全局、作业、算子、Slot并行度 Flink并行度设置与测试
大数据-123 - Flink 并行度 相关概念 全局、作业、算子、Slot并行度 Flink并行度设置与测试
97 0
|
28天前
|
数据采集 数据可视化 大数据
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
这篇文章介绍了如何使用Python中的matplotlib和numpy库来创建箱线图,以检测和处理数据集中的异常值。
37 1
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
|
18天前
|
机器学习/深度学习 XML 分布式计算
大数据的概念
【10月更文挑战第16天】
39 4
|
1月前
|
消息中间件 存储 分布式计算
大数据-72 Kafka 高级特性 稳定性-事务 (概念多枯燥) 定义、概览、组、协调器、流程、中止、失败
大数据-72 Kafka 高级特性 稳定性-事务 (概念多枯燥) 定义、概览、组、协调器、流程、中止、失败
31 4
|
1月前
|
消息中间件 大数据 Kafka
大数据-77 Kafka 高级特性-稳定性-延时队列、重试队列 概念学习 JavaAPI实现(二)
大数据-77 Kafka 高级特性-稳定性-延时队列、重试队列 概念学习 JavaAPI实现(二)
26 2
|
1月前
|
消息中间件 NoSQL 大数据
大数据-77 Kafka 高级特性-稳定性-延时队列、重试队列 概念学习 JavaAPI实现(一)
大数据-77 Kafka 高级特性-稳定性-延时队列、重试队列 概念学习 JavaAPI实现(一)
32 1
|
1月前
|
消息中间件 NoSQL Kafka
大数据-116 - Flink DataStream Sink 原理、概念、常见Sink类型 配置与使用 附带案例1:消费Kafka写到Redis
大数据-116 - Flink DataStream Sink 原理、概念、常见Sink类型 配置与使用 附带案例1:消费Kafka写到Redis
113 0
|
1月前
|
存储 分布式计算 算法
大数据-105 Spark GraphX 基本概述 与 架构基础 概念详解 核心数据结构
大数据-105 Spark GraphX 基本概述 与 架构基础 概念详解 核心数据结构
38 0
|
1月前
|
消息中间件 分布式计算 Kafka
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
37 0

热门文章

最新文章

下一篇
无影云桌面