开发者学堂课程【新电商大数据平台2020最新课程:电仓项目之数仓的外围建设】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/640/detail/10497
电仓项目之数仓的外围建设
内容介绍:
一. 数据库里的层级调用原则
二. 电仓项目之数仓的外围建设
一. 数据库里的层级调用原则:
1. 禁止逆向调用
2. 避免同层调用
3. 优先使用公共层
4.避免跨层调用(尽量遵守原则,有时避免不了需要调用,否则无法写出正确代码,因此要在遵循原则的基础上应变)
二.电仓项目之数仓的外围建设
1.什么叫主要外部依赖?
(1)调度系统,整体的任务,在我们写完所有的代码,完成业务以后可能需要一个工作流调度器,比如像 Ooize 、Azkaban、 afrou 这三个都是工作流调度器,使用过程中需要做一个任务调度,不能手动或者人为调度。
比如 Ooize 和 Azkaban ,清断性,调度的功能比较强大,但是调度的脚本编写比较复杂。
Azkaban 相对来说适用于一个清断性的调度。所有的任务都会通过一个任务流,工作调度器来调度。这是一个调度系统,即写好脚本,放入调度系统,让调度系统每天去执行任务。
(2)元数据管理系统,下节课将分为几个点进行介绍。元数据管理系统是主要依赖的一个系统组件,主要管理一些对应的源数据操作。
(3)离线和实时计算,可选用的工具比较多。
离线可以使用:
比如 MR ,是我们 Hadoop 所用到的一个执行引擎,使用较多。
但现在的内存更大,数据量更大,可以使用 spark 这个执行引擎进行任务计算。
实时计算要用到 spark streaming 和 flink 。实时数仓也是通过 spark streaming 和 flink ,或者 storm 来实现。本次项目会用 MR 和 spark 进行任务执行,以便对比两者的速度和执行代码编写的难易程度。
(4)数据质量监控:
对数据质量把关,比如计算机指标、最后的准确性、可信度进行监控处理,后面将详细介绍并通过例子进行讲解。