前 言
数据科学与大数据分析——数据的发现 分析 可视化与表示
大数据可以帮助企业从他们最宝贵的信息资产中挖掘到新的商机,从而创造出新的价值并形成竞争优势。对于企业用户而言,大数据可以帮助提高生产效率、提升产品质量和提供个性化的产品和服务,从而帮助改进客户满意度并提升企业利润率。对于学术界而言,大数据分析提供了一种更加先进的分析手段,可以帮助获取更丰富的分析成果和更深入的洞察力。在许多情况下,大数据分析集合了结构化和非结构化数据的实时获取和查询,开拓了创新和洞察的新路径。
本书将介绍大数据分析中从业人员常用的一些关键技术和分析方法。通过掌握这些常用的大数据分析方法,将帮助您胜任大数据分析项目。书中内容会让不同的读者群体受益:业务和数据分析师通过阅读本书,可以学习到很多实用的大数据分析方法;数据库从业人员、商业智能经理、分析师和大数据从业者通过阅读本书可以丰富数据分析技能,大学毕业生通过阅读本书可以了解如何将数据科学做为职业发展领域。
本书包括12章。第1章主要向读者介绍大数据领域、高级数据分析的驱动力和数据科学家的角色作用。
第2章主要介绍根据假设驱动(Hypothesis-driven)的大数据分析的特点和挑战所设计的项目生命周期。
第3章将在开源R分析软件环境下探讨基础的统计方法和技术,此外还将介绍通过数据可视化进行探索性分析的重要性,并回顾基于假设的开发和测试等关键概念。
第4~9章主要介绍一系列先进的数据分析方法,包括:聚类、分类、回归分析、时间序列和文本分析。
第10~11章讲解支持大数据高级分析功能的几种特定技术和工具,特别是MapReduce和它在Hadoop生态系统中的应用实例,以及对SQL和数据库内建文本分析功能的深入讲解。
第12章将指导如何运作大数据分析项目。本章将重点讲解如何将一个分析项目转换成组织运作的资产,如何基于数据创建清晰有用的可视分析结果,完成最终的交付工作。
目 录
第1章 大数据分析介绍
1.1 大数据概述
1.2 分析的实践状态
1.3 新的大数据生态系统中的关键角色
1.4 大数据分析案例
1.5 总结
1.6 练习
第2章 数据分析生命周期
2.1 数据分析生命周期概述
2.2 第1阶段:发现
2.3 第2阶段:数据准备
2.4 第3阶段:模型规划
2.5 第4阶段:模型建立
2.6 第5阶段:沟通结果
2.7 第6阶段:实施
2.8 案例研究:全球创新网络和分析(GINA)
2.9 总结
2.10 练习
第3章 使用R进行基本数据分析
第4章 高级分析理论与方法:聚类
第5章 高级分析理论与方法:关联规则
第6章 高级分析理论与方法:回归
第7章 高级分析理论与方法:分类
第8章 高级分析理论与方法:时间序列分析
第9章 高级分析理论与方法:文本分析
第10章 高级分析技术与工具:MapReduce和Hadoop
第11章 高级分析技术与工具:数据库内分析
第12章 结尾