我为什么要写:新书《离线和实时大数据开发实战》

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 新书《离线和实时大数据开发实战》 购买链接(机械工业出版社官方淘宝店铺) 感谢@薛奎 和@空无 大大写推荐书评。 空无和薛奎的书评 大数据技术一直是个领先互联网公司的必备核心技术,阿里巴巴最近10年一直在持续加大投入,并将大数据处理技术用于大量的大规模业务场景。每年双十一对实时、离线技术也都是极限的考验,而作者就是在这样的环境下成长起来,基于真实业务场景钻研相关的技术,既有实战也有

新书《离线和实时大数据开发实战》

购买链接(机械工业出版社官方淘宝店铺)

感谢@薛奎 和@空无 大大写推荐书评。

空无和薛奎的书评

大数据技术一直是个领先互联网公司的必备核心技术,阿里巴巴最近10年一直在持续加大投入,并将大数据处理技术用于大量的大规模业务场景。每年双十一对实时、离线技术也都是极限的考验,而作者就是在这样的环境下成长起来,基于真实业务场景钻研相关的技术,既有实战也有体系,相信这样的书会一定会给行业的从业者带来帮助,尤其是准备用大数据对传统公司进行改造升级正摩拳擦掌的朋友。

                                       --空无,阿里巴巴资深总监

 

这是一本经过实践淬炼的大数据实操的书,特别是作者在阿里经历了不同大数据平台(离线,实时)的演进和迭代,相同的技术,不同的历炼,得到的领悟与实践真经一定会不一样。同类书籍相信不少,而同作者这样实战提炼而成的书应该不多。如果你是一个真正想探究并想从事大数据工作的人,相信这本书会给你莫大帮助。

                                       --薛奎,阿里巴巴资深数据技术专家

 我为什么写《离线和实时大数据开发实战》

念念不忘,终有回响。

撰写一本关于数据开发相关书的念头诞生于几年前我个人学习数据知识的早期,当时我遍寻市面上所有的数据书籍,没有发现一本系统化讲述、同时又从项目实践角度突出重点的数据开发书籍。

这本书是从2016年底开始构思的,差不多花费了2017年整年的业余时间至整体成文,再经历了2018年这几个月的正文修改、排版调整、图文编辑、最终定稿、出版印刷,5月初这本书终于正式出版。

这本书主要面向大数据开发的初级和中级人员。

个人非常理解某领域初学者的苦衷,对于领域急需入门者来说,首要最重要的不是具体的API、安装教程等,而是先找到该领域的知识图谱,有了它,就可按图索骥,有所学、有所不学,有所深入,有所了解。

对于大数据技术来说,此种需求更甚,由于社区、商业甚至私人的原因,大数据的技术可以说是五花八门,琳琅满目,初学者非常容易不知所措,不知从哪里下手;而另一方面看,理论上来说互联网上包含了所有的大数据技术,比如你可以去百度、问知乎,但是这些都是碎片化的知识,不成体系,你需要先建立自己的大数据知识架构,然后百度知乎才是你的领域深入器。

本书正是基于这样的初衷撰写的,本书最希望的是帮助和加快大数据相关人员建立自己大数据开发领域知识图谱的过程,能够更快的了解这片领域,而无需花更长的时间自己去摸索。

当然,另外一方面,未来是一个DT(Data Technology)时代,同时随着人工智能、大数据、云计算的崛起,未来数据将扮演关键的作用,数据将成为如同水电煤一样的基础设施。但是,实际上目前数据的价值还远远没有得到充分的挖掘,比如医疗数据、生物基因数据、交通物流数据、零售数据等。所以个人非常希望本书能够帮助到各个业务领域的业务分析人员、分析师、算法工程师等,让他们更快对熟悉和掌握悉数据的加工处理知识和技巧,从而能够更好更快地分析数据、挖掘数据和应用数据,让数据产生更多、更大的价值。

也非常希望通过阅读本书,读者能建立自己的大数据开发知识体系和图谱,并掌握数据开发的各种技术,包含其有关概念、原理、架构以及实际的开发和优化技巧等,并能对实际项目中的数据开发提供指导和参考。

本书的章节安排

本书包含三大部分,共计12章内容。

第一部分为数据大图和数据平台大图篇,主要从站在全局的角度,对数据、数据技术、数据相关从业者和角色、离线和实时数据平台架构等给出整体和大图形式的介绍,其中:

第1章  站在数据的全局角度,对数据流程、流程中涉及的主要数据技术进行了介绍,此外本章还介绍了主要的数据从业者角色和他们的日常工作内容,使读者有个感性的认识;

第2章  站在数据平台的角度,对离线和实时数据平台架构以及相关的各项技术进行介绍,本章是本书的纲领,同时也给出了数据技术的整体骨架,后续的各章将基于此骨架,具体详述各项技术;

第二部分为离线数据处理篇,离线数据是目前整个数据开发的根本和基础,也是目前数据开发的主战场,本部分详细介绍了离线数据处理的各种技术,其中:

第3章  详细介绍离线数据处理的技术基础Hadoop MapReduce和HDFS,本章主要从执行原理和过程方面介绍了此项技术,此章内容是后续第4章和第5章的基础;

第4章  详细介绍了Hive,Hive是目前离线数处理的主要工具和技术,本章主要介绍了其概念、原理、架构,并以执行图解的方式,详细介绍了其执行过程和机制;

第5章  详细介绍了Hive的优化技术,包含数据倾斜的概念,join无关的优化技巧,join相关的优化技巧尤其是大表和大表join的可能的优化方案等;

第6章  详细介绍了数据的维度建模技术,包含维度建模的各种概念、维度表和事实表的设计以及大数据时代对于维度建模的改良和优化等;

第7章  主要以虚构的某全国连锁零售超市FutureRetailer为例介绍了逻辑数据仓库的构建,包含数据仓库的逻辑架构、分层、开发和命名规范等,此外本章还介绍了数据湖的新数据架构。

第三部分为实时数据处理篇,主要介绍了实时数据处理的各项技术,包含Storm、Spark Streaming、Flink、Beam以及流计算SQL等,其中:

第8章  详细介绍了分布式流式计算最早流行的Storm技术,包含原生Storm以及衍生的Trideng框架;

第9章  主要介绍了Spark生态对于流式数据处理的解决方案Spark Streaming,包含其基本原理介绍、基本API、可靠性、性能调优、数据倾斜和反压机制等;

第10章 主要介绍了流计算技术新贵Flink技术,Flink兼顾了数据处理的延迟以及吞吐量,而且具有流计算框架应该具有的诸多数据特性,因此被广泛认可为下一代的流式处理机引擎;

第11章 主要介绍了Google力推的Beam技术,Beam的设计目标就是统一离线批处理和实时流处理的编程范式,Beam抽象出的数据处理的通用处理范式“Beam Mode”是流计算技术的核心和精华;

第12章 主要结合Flink SQL和阿里云Stream SQL介绍了流计算 SQL以并以典型的几种实时开发场景为例进行了实时数据开发实战。

 

 

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
数据采集 存储 分布式计算
《离线和实时大数据开发实战》(二)大数据平台架构 & 技术概览2
《离线和实时大数据开发实战》(二)大数据平台架构 & 技术概览2
971 0
《离线和实时大数据开发实战》(二)大数据平台架构 & 技术概览2
|
存储 消息中间件 缓存
腾讯看点基于 Flink 的实时数仓及多维实时数据分析实践
当业务发展到一定规模,实时数据仓库是一个必要的基础服务。从数据驱动方面考虑,多维实时数据分析系统的重要性也不言而喻。但是当数据量巨大的情况下,拿腾讯看点来说,一天上报的数据量达到万亿级的规模,要实现极低延迟的实时计算和亚秒级的多维实时查询是有技术挑战的。
腾讯看点基于 Flink 的实时数仓及多维实时数据分析实践
|
SQL Cloud Native 关系型数据库
陈长城:NineData面向Doris实时数仓集成的技术实践
在刚刚过去的北京Doris Summit Asia 2023,玖章算术技术副总裁陈长城受邀参加并做了《NineData面向Doris实时数仓集成的技术实践》报告。
1123 1
|
弹性计算 数据可视化 关系型数据库
2023 云栖大会 | 「动手实践」基于阿里云构建博学谷平台实时湖仓
2023 云栖大会来啦,众多主题活动与你同聚,门票免费领取中,数量有限,先到先得!
564 0
2023 云栖大会 | 「动手实践」基于阿里云构建博学谷平台实时湖仓
|
SQL 存储 分布式计算
《离线和实时大数据开发实战》(二)大数据平台架构 & 技术概览1
《离线和实时大数据开发实战》(二)大数据平台架构 & 技术概览1
1012 1
《离线和实时大数据开发实战》(二)大数据平台架构 & 技术概览1
|
SQL 存储 数据采集
《离线和实时大数据开发实战》(一)构建大数据开发知识体系图谱
《离线和实时大数据开发实战》(一)构建大数据开发知识体系图谱
883 0
《离线和实时大数据开发实战》(一)构建大数据开发知识体系图谱
|
存储 分布式计算 druid
用户画像大数据环境搭建——从零开始搭建实时用户画像(四)
本章我们开始正式搭建大数据环境,目标是构建一个稳定的可以运维监控的大数据环境。我们将采用Ambari搭建底层的Hadoop环境,使用原生的方式搭建Flink,Druid,Superset等实时计算环境。使用大数据构建工具与原生安装相结合的方式,共同完成大数据环境的安装。
436 0
用户画像大数据环境搭建——从零开始搭建实时用户画像(四)
|
SQL 弹性计算 运维
《大数据》学习体验记录
本期实战体验内容主要培训大数据技术实战。
96 0
|
SQL 存储 分布式计算
进击的 Flink:网易云音乐实时数仓建设实践
如何基于 Flink 的新 API 升级实时数仓架构?
进击的 Flink:网易云音乐实时数仓建设实践
|
流计算 SQL 消息中间件
趣头条基于 Flink 的实时平台建设实践
本文由趣头条实时平台负责人席建刚分享趣头条实时平台的建设,整理者叶里君。文章将从平台的架构、Flink 现状,Flink 应用以及未来计划四部分分享。
趣头条基于 Flink 的实时平台建设实践