《大数据管理概论》一导读-阿里云开发者社区

开发者社区> 华章出版社> 正文

《大数据管理概论》一导读

简介: 陈寅恪先生说:“一时代之学术,必有其新材料与新问题。取用此材料,以研求问题,则为此时代学术之新潮流。治学之士,得预于此潮流者,谓之预流(借用佛教初果之名)。其未得预者,谓之未入流。”对今天的信息技术而言,“新材料”即为大数据,而“新问题”则是产生于“新材料”之上的新的应用需求。


bee4dd8e198adea414fde0a8f011c981e50f0bf1

‖前 言

陈寅恪先生说:“一时代之学术,必有其新材料与新问题。取用此材料,以研求问题,则为此时代学术之新潮流。治学之士,得预于此潮流者,谓之预流(借用佛教初果之名)。其未得预者,谓之未入流。”对今天的信息技术而言,“新材料”即为大数据,而“新问题”则是产生于“新材料”之上的新的应用需求。
对数据库领域而言,真正的“预流”是Jim Gray和Michael Stone-braker等大师们。十三年前面对“数据库领域还能再活跃30年吗”这一问题,Jim Gray给出的回答是:“不可能。在数据库领域里,我们已经非常狭隘。”但他转而回答到:“SIGMOD这个词中的MOD表示‘数据管理’。对我来说,数据管理包含很多工作,如收集数据、存储数据、组织数据、分析数据和表示数据,特别是数据表示部分。针对数据查询已经做了相当多的工作,但这些工作仅仅围绕查询画了个‘艾普西龙球面’,而没有真正超越它。所以,如果我们还像以前一样把研究与现实脱离开来,还继续保持狭隘的眼光审视自己所做的研究,数据库领域将要消失,因为那些研究越来越偏离实际。现在人们已经拥有太多数据,而我对许多人说我们仅仅希望拥有更多的时间。所以,整个数据收集、数据分析和数据简单化的工作就是能准确地给予人们所要的数据,而不是把所有的数据都提供给他们。这个问题不会消失,而是会变得越来越重要。如果你用一种大而广的眼光看,数据库是一个蓬勃发展的领域;如果采用审视的眼光看,现在做的很多研究对30年后的人们不会产生任何影响”(见《数据库大师访谈录》)。
最近人们提出了“数据湖”,以区别传统的“数据库”技术。两者的差别到底何在呢?偶读了费孝通先生所著的《乡土中国》后,笔者略有所悟。费老分析总结了中国乡土社会结构,指出中国社会呈现出所谓的“差序格局”,而西方社会呈现的是“团体格局”。传统数据库结构关系单一,呈现状态犹如“团体格局”,即以单个实体为本位,实体之间的关系好比一捆柴,几根成一把,几把成一扎,条理清楚,有共同的模式可循。而当下大数据来源广泛,关系复杂,远近亲疏各不同,这种关系就好比“差序格局”,以语义主题为本位,每类实体都以自我为中心按照与其他实体的语义关系为主线结成网络,这个网络按照语义关系的紧密亲疏呈现“差序”状态,就如同湖面丢下的石子形成的水波纹依中心扩散开去的样子。这种状态随着实体间关系的变化而动态演化,并且每个网络的大小不同,体现的语义关系也不同,蕴含的价值也不同。
数据库的“团体格局”本质上是先有模式后有数据,因此数据集成可以采用中介模式(GAV和LAV)以自顶向下的方式实现集成。数据湖的“差序格局”是先有数据后有模式,因此需要按照自底向上的方式以一种大数据融合的方法实现集成。大数据融合即建立数据间、信息间、知识片段间多维度、多粒度的关联关系,实现更多层面的知识交互,从而聚敛出数据湖中一个个维系我们社会的“水波纹”(即语义关联的紧密程度)。
本书集成了大数据融合、存储、分析、隐私和系统等方面的工作,其组织结构如下:第1章描述大数据的概念、演变过程和处理模式;第2章提出大数据融合的概念,分析大数据融合的独特性和任务,给出大数据融合的方法论;第3章介绍大数据存储与管理方法;第4章描述大数据分析技术,包括实时分析、交互分析、智能分析等;第5章讲述大数据涉及的隐私问题,主要介绍不同领域中的隐私保护问题及其隐私保护技术;第6章介绍大数据管理系统,并分析其体系结构;第7章是基于大数据的交叉学科研究,介绍在线用户行为演化的相关研究。
本书中涉及的研究工作得到众多科研项目的支持,其中包括:国家自然基金重点项目——“大规模关联数据管理的关键技术研究”(编号:61532010);国家自然基金重点项目——“面向大数据内存计算的计算机体系结构”(编号:61532016);国家重点研发项目——“科学大数据管理系统”(编号:2016YFB1000600);中国人民大学重点科学研究基金重大基础研究项目——“社会计算若干关键问题研究”(编号:11XNL010);高等学校博士学科点专项科研基金优先领域课题——“云计算环境下的在线聚集技术研究”(编号:20130004130001);国家自然基金重大研究计划重点项目——“大数据开放与治理中的隐私保护关键技术研究”(编号:91646203)。
本书架构的安排以及统稿、审校工作由孟小峰组织完成,这里要特别感谢王春凯、杜治娟、郭崎、杨晨、王硕、叶青青和李勇,在本书的编写过程中他们给予了极大的帮助。

‖目 录

丛书前言
前言
作者简介
第1章 概述
1.1 大数据的基本概念
1.2 大数据的演变过程
1.3 大数据应用
1.4 大数据的处理模式
1.4.1 批处理
1.4.2 流处理
1.5 大数据管理的关键技术
1.5.1 大数据融合
1.5.2 大数据分析
1.5.3 大数据隐私
1.5.4 大数据能耗
1.5.5 大数据处理与硬件的协同
1.6 小结
第2章 大数据融合
2.1 引言
2.2 大数据融合的概念
2.2.1 大数据融合需求的独特性
2.2.2 大数据融合对象的独特性
2.3 大数据融合的方法论
2.3.1 数据库视角下的融合
2.3.2 认知计算和人工智能视角下的融合
2.3.3 两种融合方式的对比分析
2.3.4 大数据融合范式
2.4 数据融合技术
2.4.1 模式/本体对齐
2.4.2 实体链接
2.4.3 冲突解决
2.4.4 知识库自适应发展
2.5 知识融合技术
2.5.1 知识抽象与建模
2.5.2 关系推演
2.5.3 深度知识发现
2.5.4 普适机理的剖析和归纳
2.6 大数据融合的驱动枢纽
2.6.1 智能晶格
2.6.2 迁移学习
2.6.3 数据溯源
2.6.4 D&2V处理
2.7 小结
第3章 大数据存储
3.1 引言
3.2 大数据存储与管理方法
3.2.1 基于PCM的主存架构
3.2.2 基于闪存的主存扩展架构
3.2.3 基于多存储介质的分层存储架构
3.2.4 分布式存储与缓存架构
3.3 基于新型存储的大数据管理
3.3.1 存储管理
3.3.2 索引管理
3.3.3 查询处理
3.3.4 事务处理
3.3.5 大数据分析
3.4 大数据处理与存储一体化技术
3.4.1 一体化架构中的大数据存储
3.4.2 一体化架构中的大数据处理
3.4.3 一体化架构面临的挑战
3.5 小结
第4章 大数据分析
4.1 引言
4.1.1 传统的数据分析技术
4.1.2 大数据的分析技术
4.2 大数据的实时分析
4.2.1 实时分析的背景和概念
4.2.2 实时分析技术
4.3 大数据的交互式分析
4.3.1 交互式分析的背景和概念
4.3.2 交互式分析技术
4.4 云在线聚集
4.4.1 云在线聚集技术的背景和概念
4.4.2 云在线聚集的关键技术
4.5 大数据的智能分析
4.5.1 大数据分析中的计算智能
4.5.2 智能分析的主要技术
4.6 小结
第5章 大数据隐私
5.1 引言
5.1.1 大数据的类型
5.1.2 隐私特征与类别
5.1.3 大数据的隐私风险
5.2 隐私保护技术
5.2.1 匿名化技术
5.2.2 数据加密技术
5.2.3 差分隐私技术
5.2.4 隐私信息检索技术
5.3 隐私保护技术的应用
5.3.1 位置大数据中的隐私保护
5.3.2 数据发布和分析中的隐私保护
5.3.3 互联网搜索中的隐私保护
5.3.4 云计算中的隐私保护
5.4 大数据隐私管理
5.4.1 隐私管理的目标
5.4.2 主动式隐私管理框架
5.5 小结
第6章 大数据管理系统
6.1 引言
6.2 云计算:大数据的基础平台与支撑技术
6.3 批数据与流数据管理系统
6.3.1 批数据管理系统
6.3.2 流数据管理系统
6.3.3 混合处理系统
6.4 SQL、NoSQL与NewSQL系统
6.4.1 SQL类数据库
6.4.2 NoSQL类数据库
6.4.3 NewSQL类数据库
6.5 小结
第7章 基于大数据的交叉学科研究
7.1 引言
7.2 在线用户行为演化研究
7.2.1 在线用户行为大数据
7.2.2 在线用户行为演化
7.3 在线用户兴趣长程演化
7.3.1 理论与方法
7.3.2 在线用户兴趣演化分析
7.4 在线用户集体注意力流
7.4.1 注意力流网络
7.4.2 注意力流网络中的异速标度律
7.4.3 注意力流的应用:Web站点排名
7.5 在线用户集体注意力流的普适模式
7.5.1 异速标度律
7.5.2 耗散律
7.5.3 引力律
7.5.4 Heaps律
7.6 小结
附录 大数据思考
附录A 大数据与小数据
附录B 数据的起源
附录C 大数据时代的信息系统
附录D 数据库(DB)与大数据(BD)
附录E 大数据多学科交叉研究
附录F 创新数据管理研究2.0
附录G 面向移动计算与云计算的数据管理
附录H 大数据时代的到来:数据空间与闪存数据库研究
附录I 隐私保护研究
附录J 网络与移动数据管理研究
附录K 大数据管理基石:Web数据管理
附录L 大数据管理基石:数据集成
附录M 从数据库大师看数据库发展
参考文献

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:

华章出版社

官方博客
官网链接