目前,图书市场上关于大数据技术的图书不少,但是,真正从实战应用出发,同时深 入剖析大数据离线批处理计算领域和在线实时计算领域常用的大数据框架技术原理、编程案 例和框架整合的图书却很少。本书以实战案例为主旨,通过详细介绍大数据开发中常用的多 种技术框架和其对应的大量开发案例,并在大数据处理实战案例篇章,整合多种大数据技术 框架实现基于海量日志数据的分析统计系统(涵盖大数据离线批处理计算技术和大数据在线 实时计算技术),让读者更加全面、深入、透彻地理解大数据开发领域中各种热门技术和主 流框架的使用,提高各种大数据框架的整合能力,进而提高大数据开发水平和项目实战能力。
精彩内容抢先看
第一篇 大数据基础篇(第 1~3 章)
本篇主要对大数据的基础知识、Hadoop和 Storm的基础知识和基本技术以及应用现状和发展趋势进行了简单的介绍。
第二篇 大数据离线批处理技术篇(第 4~11 章)
本篇主要介绍的是大数据离线批处理计算领域所涉及的技术和框架,包括:Hadoop、 Hive 和 Sqoop。分别介绍了每种框架的基本原理和使用案例,包括:安装 CentOS 6.8 虚拟 机环境,搭建每种框架的运行环境,分别以命令行和API 方式实现 HDFS 的数据操作,以 Java 语言和 Python 语言实现多个 Hadoop MapReduce 开发案例,使用 HiveQL 操作 Hive 中 的数据库和数据表以及自定义 Hive 函数,使用 Sqoop 实现 HDFS 与 MySQL之间的数据导 入导出。
第三篇 大数据在线实时处理技术篇(第 12~17 章)
本篇主要介绍了大数据在线实时计算领域所涉及的技术和框架,包括:Flume、Kafka 和 Storm。分别介绍了每种框架的基本原理和使用案例,包括:搭建每种框架的运行环境, Flume 基于内存、文件和目录的 Channel,Flume 写数据到 HDFS和 Kafka,Flume 采集 Nginx 日志到 Hive、Flume采集 Nginx 日志到多个目标系统,自定义 Flume 的Agent,Flume 监控, 分别使用 Java 语言和 Python 语言实现 Kafka 客户端编程,使用 Storm 实现单词计数、追加 字符串、聚合多种数据流、实现分组聚合和实现事务处理,实现Storm 监控等。
第四篇 大数据处理实战案例篇(第 18~22 章)
本篇主要详解介绍了基于海量日志数据的分析统计系统的开发过程,介绍了系统的项 目背景。在实现上将系统分为离线批处理计算子系统和在线实时计算子系统,分别介绍了两 个子系统的需求、架构设计、功能设计、存储选型、技术选型、环境搭建和具体的系统实现 过程。
复制该链接到浏览器完成下载或分享:
https://developer.aliyun.com/topic/download?id=8205
《海量数据处理与大数据技术实战》是大数据开发领域中以实战案例为主旨的经典之作。本书全面阐 述了大数据开发领域中常用的技术原理和框架,以及框架对应的实战案例。全书共分为四大篇章:大数据 基础篇、大数据离线批处理技术篇、大数据在线实时处理技术篇、大数据处理实战案例篇。大数据基础篇 主要介绍了大数据的基础知识、Hadoop 和 Storm 的基础知识以及发展现状和应用前景;大数据离线批处理 技术篇主要介绍了 Hadoop、Hive 和 Sqoop 的基本原理、环境搭建和项目案例;大数据在线实时处理技术篇 主要介绍了 Flume、Kafka、Storm 的基本原理、环境搭建和项目案例;大数据处理实战案例篇详细介绍了 基于海量日志数据的分析统计系统的实现过程,期间对各种大数据框架进行了整合,此案例项目稍加修改, 便可应用于实际开发项目中。
本书内容由浅入深、从原理到实战,适合在校大学生、专业培训机构的学员、想转行从事大数据开发 的人员、需要系统学习大数据技术的开发人员、大数据从业者、大数据运维工程师、希望提高大数据开发 实战水平的人员、大数据开发经理、大数据架构师、需要时常查阅大数据常用框架技术和开发案例的人员阅读。
汇聚阿里巴巴技术实践精华,涵盖云原生、物联网、大数据、AI等技术领域,深度分享阿里工程师实战经验,顶级技术内容一手掌握。点击进入藏经阁,畅游技术海洋。