《大数据分析原理与实践》——1.5 全书概览-阿里云开发者社区

开发者社区> 华章出版社> 正文

《大数据分析原理与实践》——1.5 全书概览

简介: 本节书摘来自华章计算机《大数据分析原理与实践》一书中的第1章,第1.5节,作者 王宏志,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.5 全书概览

本书将较为全面地描述大数据分析的模型、技术、实现与应用。其中第2~7章介绍大数据分析模型,包括关联分析模型、分类分析模型、聚类分析模型、结构分析模型和文本分析模型;第8~11章介绍大数据分析相关的技术,包括大数据预处理、特征选择和降维方法、面向大数据的数据仓库和大数据分析算法。第12~14章介绍三种用于实现大数据分析算法的平台,分别是大数据计算平台、流式计算平台和大图计算平台;第15~16章介绍两类大数据分析的具体应用,分别讲述社会网络和推荐系统。

第2章是大数据分析建模的基础,介绍了大数据模型建立方法、支持大数据分析的基本统计量以及推断统计和假设检验方法,为后面的大数据分析奠定理论基础。

第3~5章介绍了多维数据分析模型。

第3章介绍关联分析模型,用于分析变量之间的关联关系。根据变量的类型(离散或者连续)可以用回归或者关联规则来描述关联关系,因而这一章描述了这两方面的模型。

第4章介绍分类分析模型,用于对数据进行分类。根据分类的策略介绍了基于统计的判别分析方法和基于人类学习行为模拟的机器学习方法。

第5章介绍聚类分析模型,与分类分析模型的有监督分析不同的是,聚类模型是无监督分析,在没有训练样例的情况下进行分析。这一章中介绍了聚类分析的定义、类别、评价方法、计算方法概述以及应用。

第6章介绍半结构化数据(即图数据)的分析模型,包括了几类重要的图分析模型,即最短路径、链接排名、结构计数、结构聚类和社团发现。

第7章介绍非结构化数据(即文本)的分析模型,包括了几类常用的文本分析模型,即TF-ID模型、词频统计、PLDA、Word2Vec和分词。

第8章和第9章从两个不同角度介绍为大数据分析进行数据准备的技术。如果把输入的数据看成一张表,第8章介绍从“行”的角度进行数据准备,即进行数据的抽样、过滤、标准化、归一化以及数据的清洗;第9章介绍从“列”的角度进行数据准备,即从大数据中选择恰当的属性进行分析。

第10章介绍面向大数据的数据仓库系统,概述数据仓库技术并介绍多种针对不同场景的数据仓库系统。

第11章介绍大数据分析算法。在概述大数据分析算法的同时,介绍基于MapReduce编程模型的回归算法、关联规则挖掘算法、分类算法和聚类算法,分别和第3~5章中的模型相对应。

第12章介绍5种大数据计算平台,这些计算平台用于计算通用的计算任务,针对大数据Volume特性提出,侧重于面向大数据的高可扩展计算和高效率计算。大数据分析任务可以用这些平台实现。

第13章介绍4种流式计算平台,用于处理流式计算这类大数据分析计算任务,针对大数据Velocity特性提出,侧重处理源源不断更新的大数据。增量大数据分析任务可以用这些平台实现。

第14章介绍5种大图计算平台,用于处理大图计算任务,面向大数据Volume特性在大图上实现高效计算,可用于实现大部分第6章中提出的大图分析模型。

第15章介绍社交网络分析技术,这是目前大数据分析领域的热点应用之一,除了介绍基本概念外,还介绍几种不同角度提出的社交网络分析技术。

第16章介绍推荐系统,这是目前大数据分析创造价值的重要途径,在介绍推荐系统基本概念的同时,介绍不同思路、不同对象的推荐系统,还结合第15章介绍社交网络中的推荐技术。

本书各章节的关系如图1-1所示。

image

数据分析常用工具包括R语言、SPSS等,一些传统数据分析的教材中介绍了这些工具,本书不再赘述。本书将以阿里云——?一种针对“大”数据分析的工具为平台进行介绍,该平台提供了支持大数据分析中数据管理的分析型数据库、支持大数据分析中数据密集型计算的大数据计算服务以及一系列大数据分析所需要的算法,例如特征选择算法、机器学习算法以及大数据可视化功能。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:

华章出版社

官方博客
官网链接