数据仓库实战教程
读者交流群已经开通了,有需要的可以私信进入读者交流群
数据仓库已经是企业的数据竞争的核心了,学好数据仓库对提高自己和找到一份好的工作都至关重要,但是很多人对数仓的印象还是停留在写SQL的层面,其实今天的数仓更像是一个数据平台应用,我们学习的大数据技术其实最终的价值都体现在数据服务上,数仓是数据服务的基石,如果说业界以前还有离线和实时之分的话,那么现在实时数仓的提出与落地,未来数仓将是数据战争的最激烈的战场,一切大数据技术都将为数仓提供服务,也都将在数仓这一环节进行收口。
本专栏主要专注于数仓工具学习、数仓建模以及业务建模、SQL 实战和平台建设,最后以3家公司的数仓建建设和实时数仓作为结尾项目,这份教程有以下特点
- 知识体系完善,从数仓的概念、建模、数仓工具的使用、数仓的落地实践都有,还会有很多小案例,例如股票的连续涨停天数计算,最大涨停板的概率计算,会话分析,复杂时间序列匹配等
- 使用的技术都是当前企业最常用的技术,版本也是比较新的,不会导致大家看到一个代码,然后一执行发现语法不支持或者废弃掉了
- 后续的更新也会很及时,不会说更新了一段时间断更了,在更新完大纲之后,我也会不断完善该系列,不断添加新的知识点
- 创作团队都是在企业一线员工,实战多于理论,还有很多经典的面试题,例如拉链表的优化、计算连续登陆、连续增长、最大在线用户数
适合人群
- 小白对数仓感兴趣同学
- 有数仓经验但是缺乏全面认识的同学
1. 数仓建模
2. 数仓工具
1. Hive
1.Hive 基础篇
2.Hive 语法篇
5. Order by, Sort by ,Dristribute by,Cluster By
8. map join、reduce join、smb join
10. 窗口函数row_number、rank、dense_rank
12. 窗口函数first_value和last_value
14. 窗口函数cume_dist和 percent_rank
17. collect_set 和 collect_list
3.Hive 进阶篇
19. InputFormat 和 OutputFormat
21. Statistics与Analyze Table命令
4.Hive 源码篇
5. Hive 实战篇
6. Hive 集成篇
7. Hive 优化实战篇
2. 高性能查询引擎
1.Spark-SQL
2.Impala
3.Presto
4.Druid
5.Clickhouse
3.数据同步工具
sqoop
datax
Maxwell
4. 数据湖
数据湖—Spark SQL Scala版 使用 Delta Lake
数据湖—Spark SQL Shell 版 使用Delta Lake
数据湖—Spark SQL SQL 版 使用 Delta Lake
数据湖—Spark SQL Python 版 使用 Delta Lake
数据湖—Spark Streaming 使用 Delta Lake
5. 调度工具
1. 调度工具的使用
2. 调度工具整合
首先我们会创建常用的脚本然后配合配合数仓的SQL 进行数仓的整体的调度,脚本的话我们主要有抽数的脚本、执行SQL的脚本、监控的脚本、发布脚本
当然我们还会引入版本管理工具,管理我们的SQL和脚本,然后进行发布
6. 元数据管理工具
7. 监控工具
8. 报表工具
9. 实时数仓
10. 数据资产
3. 数仓实战
1. K12赛道Top公司的数仓建设案例
2. 知名游戏公司的数仓建设案例
3. 大型支付公司实时数仓建设案例
总结
以hadoop 作为基础生态,从0到进行数仓建设,主要分为基础篇和实战篇两部分,基础篇主要是各种组件的学习和案例,实战篇主要是三家企业的数仓设计案例,最后是扩展篇主要是实时数仓。