《大数据管理概论》一导读

简介: 陈寅恪先生说:“一时代之学术,必有其新材料与新问题。取用此材料,以研求问题,则为此时代学术之新潮流。治学之士,得预于此潮流者,谓之预流(借用佛教初果之名)。其未得预者,谓之未入流。”对今天的信息技术而言,“新材料”即为大数据,而“新问题”则是产生于“新材料”之上的新的应用需求。


bee4dd8e198adea414fde0a8f011c981e50f0bf1

‖前 言

陈寅恪先生说:“一时代之学术,必有其新材料与新问题。取用此材料,以研求问题,则为此时代学术之新潮流。治学之士,得预于此潮流者,谓之预流(借用佛教初果之名)。其未得预者,谓之未入流。”对今天的信息技术而言,“新材料”即为大数据,而“新问题”则是产生于“新材料”之上的新的应用需求。
对数据库领域而言,真正的“预流”是Jim Gray和Michael Stone-braker等大师们。十三年前面对“数据库领域还能再活跃30年吗”这一问题,Jim Gray给出的回答是:“不可能。在数据库领域里,我们已经非常狭隘。”但他转而回答到:“SIGMOD这个词中的MOD表示‘数据管理’。对我来说,数据管理包含很多工作,如收集数据、存储数据、组织数据、分析数据和表示数据,特别是数据表示部分。针对数据查询已经做了相当多的工作,但这些工作仅仅围绕查询画了个‘艾普西龙球面’,而没有真正超越它。所以,如果我们还像以前一样把研究与现实脱离开来,还继续保持狭隘的眼光审视自己所做的研究,数据库领域将要消失,因为那些研究越来越偏离实际。现在人们已经拥有太多数据,而我对许多人说我们仅仅希望拥有更多的时间。所以,整个数据收集、数据分析和数据简单化的工作就是能准确地给予人们所要的数据,而不是把所有的数据都提供给他们。这个问题不会消失,而是会变得越来越重要。如果你用一种大而广的眼光看,数据库是一个蓬勃发展的领域;如果采用审视的眼光看,现在做的很多研究对30年后的人们不会产生任何影响”(见《数据库大师访谈录》)。
最近人们提出了“数据湖”,以区别传统的“数据库”技术。两者的差别到底何在呢?偶读了费孝通先生所著的《乡土中国》后,笔者略有所悟。费老分析总结了中国乡土社会结构,指出中国社会呈现出所谓的“差序格局”,而西方社会呈现的是“团体格局”。传统数据库结构关系单一,呈现状态犹如“团体格局”,即以单个实体为本位,实体之间的关系好比一捆柴,几根成一把,几把成一扎,条理清楚,有共同的模式可循。而当下大数据来源广泛,关系复杂,远近亲疏各不同,这种关系就好比“差序格局”,以语义主题为本位,每类实体都以自我为中心按照与其他实体的语义关系为主线结成网络,这个网络按照语义关系的紧密亲疏呈现“差序”状态,就如同湖面丢下的石子形成的水波纹依中心扩散开去的样子。这种状态随着实体间关系的变化而动态演化,并且每个网络的大小不同,体现的语义关系也不同,蕴含的价值也不同。
数据库的“团体格局”本质上是先有模式后有数据,因此数据集成可以采用中介模式(GAV和LAV)以自顶向下的方式实现集成。数据湖的“差序格局”是先有数据后有模式,因此需要按照自底向上的方式以一种大数据融合的方法实现集成。大数据融合即建立数据间、信息间、知识片段间多维度、多粒度的关联关系,实现更多层面的知识交互,从而聚敛出数据湖中一个个维系我们社会的“水波纹”(即语义关联的紧密程度)。
本书集成了大数据融合、存储、分析、隐私和系统等方面的工作,其组织结构如下:第1章描述大数据的概念、演变过程和处理模式;第2章提出大数据融合的概念,分析大数据融合的独特性和任务,给出大数据融合的方法论;第3章介绍大数据存储与管理方法;第4章描述大数据分析技术,包括实时分析、交互分析、智能分析等;第5章讲述大数据涉及的隐私问题,主要介绍不同领域中的隐私保护问题及其隐私保护技术;第6章介绍大数据管理系统,并分析其体系结构;第7章是基于大数据的交叉学科研究,介绍在线用户行为演化的相关研究。
本书中涉及的研究工作得到众多科研项目的支持,其中包括:国家自然基金重点项目——“大规模关联数据管理的关键技术研究”(编号:61532010);国家自然基金重点项目——“面向大数据内存计算的计算机体系结构”(编号:61532016);国家重点研发项目——“科学大数据管理系统”(编号:2016YFB1000600);中国人民大学重点科学研究基金重大基础研究项目——“社会计算若干关键问题研究”(编号:11XNL010);高等学校博士学科点专项科研基金优先领域课题——“云计算环境下的在线聚集技术研究”(编号:20130004130001);国家自然基金重大研究计划重点项目——“大数据开放与治理中的隐私保护关键技术研究”(编号:91646203)。
本书架构的安排以及统稿、审校工作由孟小峰组织完成,这里要特别感谢王春凯、杜治娟、郭崎、杨晨、王硕、叶青青和李勇,在本书的编写过程中他们给予了极大的帮助。

‖目 录

丛书前言
前言
作者简介
第1章 概述
1.1 大数据的基本概念
1.2 大数据的演变过程
1.3 大数据应用
1.4 大数据的处理模式
1.4.1 批处理
1.4.2 流处理
1.5 大数据管理的关键技术
1.5.1 大数据融合
1.5.2 大数据分析
1.5.3 大数据隐私
1.5.4 大数据能耗
1.5.5 大数据处理与硬件的协同
1.6 小结
第2章 大数据融合
2.1 引言
2.2 大数据融合的概念
2.2.1 大数据融合需求的独特性
2.2.2 大数据融合对象的独特性
2.3 大数据融合的方法论
2.3.1 数据库视角下的融合
2.3.2 认知计算和人工智能视角下的融合
2.3.3 两种融合方式的对比分析
2.3.4 大数据融合范式
2.4 数据融合技术
2.4.1 模式/本体对齐
2.4.2 实体链接
2.4.3 冲突解决
2.4.4 知识库自适应发展
2.5 知识融合技术
2.5.1 知识抽象与建模
2.5.2 关系推演
2.5.3 深度知识发现
2.5.4 普适机理的剖析和归纳
2.6 大数据融合的驱动枢纽
2.6.1 智能晶格
2.6.2 迁移学习
2.6.3 数据溯源
2.6.4 D&2V处理
2.7 小结
第3章 大数据存储
3.1 引言
3.2 大数据存储与管理方法
3.2.1 基于PCM的主存架构
3.2.2 基于闪存的主存扩展架构
3.2.3 基于多存储介质的分层存储架构
3.2.4 分布式存储与缓存架构
3.3 基于新型存储的大数据管理
3.3.1 存储管理
3.3.2 索引管理
3.3.3 查询处理
3.3.4 事务处理
3.3.5 大数据分析
3.4 大数据处理与存储一体化技术
3.4.1 一体化架构中的大数据存储
3.4.2 一体化架构中的大数据处理
3.4.3 一体化架构面临的挑战
3.5 小结
第4章 大数据分析
4.1 引言
4.1.1 传统的数据分析技术
4.1.2 大数据的分析技术
4.2 大数据的实时分析
4.2.1 实时分析的背景和概念
4.2.2 实时分析技术
4.3 大数据的交互式分析
4.3.1 交互式分析的背景和概念
4.3.2 交互式分析技术
4.4 云在线聚集
4.4.1 云在线聚集技术的背景和概念
4.4.2 云在线聚集的关键技术
4.5 大数据的智能分析
4.5.1 大数据分析中的计算智能
4.5.2 智能分析的主要技术
4.6 小结
第5章 大数据隐私
5.1 引言
5.1.1 大数据的类型
5.1.2 隐私特征与类别
5.1.3 大数据的隐私风险
5.2 隐私保护技术
5.2.1 匿名化技术
5.2.2 数据加密技术
5.2.3 差分隐私技术
5.2.4 隐私信息检索技术
5.3 隐私保护技术的应用
5.3.1 位置大数据中的隐私保护
5.3.2 数据发布和分析中的隐私保护
5.3.3 互联网搜索中的隐私保护
5.3.4 云计算中的隐私保护
5.4 大数据隐私管理
5.4.1 隐私管理的目标
5.4.2 主动式隐私管理框架
5.5 小结
第6章 大数据管理系统
6.1 引言
6.2 云计算:大数据的基础平台与支撑技术
6.3 批数据与流数据管理系统
6.3.1 批数据管理系统
6.3.2 流数据管理系统
6.3.3 混合处理系统
6.4 SQL、NoSQL与NewSQL系统
6.4.1 SQL类数据库
6.4.2 NoSQL类数据库
6.4.3 NewSQL类数据库
6.5 小结
第7章 基于大数据的交叉学科研究
7.1 引言
7.2 在线用户行为演化研究
7.2.1 在线用户行为大数据
7.2.2 在线用户行为演化
7.3 在线用户兴趣长程演化
7.3.1 理论与方法
7.3.2 在线用户兴趣演化分析
7.4 在线用户集体注意力流
7.4.1 注意力流网络
7.4.2 注意力流网络中的异速标度律
7.4.3 注意力流的应用:Web站点排名
7.5 在线用户集体注意力流的普适模式
7.5.1 异速标度律
7.5.2 耗散律
7.5.3 引力律
7.5.4 Heaps律
7.6 小结
附录 大数据思考
附录A 大数据与小数据
附录B 数据的起源
附录C 大数据时代的信息系统
附录D 数据库(DB)与大数据(BD)
附录E 大数据多学科交叉研究
附录F 创新数据管理研究2.0
附录G 面向移动计算与云计算的数据管理
附录H 大数据时代的到来:数据空间与闪存数据库研究
附录I 隐私保护研究
附录J 网络与移动数据管理研究
附录K 大数据管理基石:Web数据管理
附录L 大数据管理基石:数据集成
附录M 从数据库大师看数据库发展
参考文献

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
相关文章
|
云安全 人工智能 安全
阿里云欧阳欣:AI时代下的安全新范式
2024 云栖大会技术主论坛重磅发布
1776 4
阿里云欧阳欣:AI时代下的安全新范式
|
4月前
|
人工智能 安全 网络安全
阿里云亮相2025国家网安周 | 首次提出AI全栈安全
了解阿里云最新的AI安全产品技术
1473 1
|
SQL 关系型数据库 分布式数据库
夺冠在即 | PolarDB数据库创新设计赛(天池杯)决赛答辩通知
2024年全国大学生计算机系统能力大赛PolarDB数据库创新设计赛(天池杯)于8月21日启动,吸引了200多所高校近千支队伍参赛。经过激烈角逐,60支队伍晋级决赛第一阶段,36支队伍脱颖而出进入现场答辩,将于12月29日在武汉大学争夺最终奖项。决赛要求选手基于PolarDB-PG开源代码部署集群并优化TPCH查询性能。完赛率超90%,成绩表现出明显梯度,前20名均在500秒内完成。评委来自学术界和工业界,确保评选公正。预祝选手们取得优异成绩!
|
人工智能 自然语言处理 前端开发
关于ToB垂直领域大模型的一点探索和尝试
本文分享了物流技术团队在垂直领域大模型开发和部署过程中的技术细节、挑战解决策略以及实际应用案例。
|
机器学习/深度学习 存储 编解码
微帧Per-Title编码技术:自适应码率-画质-分辨率
Per-Title编码技术由Netflix提出,旨在为每部电影量身定制合适的码率阶梯,以节省带宽和存储成本。传统固定码率阶梯在某些视频类型上存在浪费,Per-Title通过分析视频内容的复杂度,生成最优的码率-质量曲线,确保在有限带宽下提供最佳视频质量。微帧的Per-Title技术进一步优化了这一过程,通过智能算法和深度学习,为每个视频选择最合适的分辨率和码率组合,实现高效传输和优质观看体验。
|
机器学习/深度学习 传感器 物联网
使用Python实现深度学习模型:智能物联网与智能家居
【8月更文挑战第13天】 使用Python实现深度学习模型:智能物联网与智能家居
484 2
|
人工智能 大数据 程序员
一文看懂开源图化框架中的循环设计逻辑!
相信大家在日常工作中,已经精通各种循环逻辑的实现。就拿我来说吧,多年的工作经验,已经让我可以熟练的使用 C++,Python,英语等多种语言,循环多次输出“hello word”。不过大家有没有想过一个这样的问题:如何在一个有向无环图(Directed Acyclic Graph,简称dag)中实现循环呢?
1115 0
一文看懂开源图化框架中的循环设计逻辑!

热门文章

最新文章