开发者学堂课程【互联网技术实战营·数据智能专题:《如何建设企业数据中台的经验分享》】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/915/detail/14468
《如何建设企业数据中台的经验分享》
目录:
一、数据中台
二、DataWorks 数据建模
三、DataWorks 数据开发平台
一、数据中台的核心任务
(1)数据中台的核心任务:数据中台的核心任务是推进数据资产建设,数据资产在数据中台中是非常关键的一个部分。持续沉淀技术和产品的能力,构建“消费便捷、质量可靠、安全稳定,生产经济”的数据资产体系,驱动业务数据化运行产生价值,进而释放数据及组织红利。
(2)数据中台的核心理论
集方法论(统一思想)、工具(产品沉淀)没有工具支撑就无法完成更好产品的研发、组织(高校智能)于一体的“快”“准”“全”“统”“通”的智能大数据平
平台&体系
(灵活高效的中台数据设计,实践中培养大数据人才)
(3) 数据中台团队介绍
定位:数据资产的建设者、管理者与运营者
职责:
建 · 数据建模
·加工计算
·数据存储
管·数据标准
·元数据管理
·数据质量
·数据安全
采·业务埋点
·数据同步
用·查询
·可视化
·分析
·挖掘
使命:数据驱动企业全链路智能化升级
(4)数据中台技术架构
(5)DataWorks 整体构架
1)开放平台:open API
2)数据服务:统一数据服务
3)数据治理:数据资产地图资源优化、数据质量/数据安全、智能监控/数据交换
4)数据开发:离线开发、实时开发、交互式分析、图计算分析、机器学习(智能插件化集成开发环境 XStudio)
5)任务调度:统一任务调度服务
6)原数据中心:统一原数据服务
7)数据集成:批量同步、增量同步、实时同步、数
8)据转换、整库迁移
(6)数据中台技术构架 &DataWorks 技术构架:
(7)数据中台的目标:建立一个数据丰富(全链路、多维度(把业务的维度设计好,不要等业务来了再去设计维度))、质量可靠(口径标准、结果准确)、云新房稳定(产出及时、无故障)的中间层,并为上层业务提供了可靠的数据服务、数据产品及业务应用。
(8)数据中台的主要工作:
1)指标设计体系
2)数据模范设计
3)数据处理任务开发
4)数据服务开放(Tabel/View/API/Report)
(9) 数据集市整体模型构架(数据集市不代表数据中台,但数据集市是数据中台非常核心的底座)
2)构建数据集市的两个原则:
·总体分层
·功能定位
3)ODS: ODS 表的结构跟数据的结构一定要跟表上面的一致,然后再从 DWD 对 ODS 进行加工,DWS 跟 ADS 不能反向依赖。
(10)DataWorks- 数据建模
1)模型应用场景:业务指标监控、行业标准复用、业务数据智能预警、自然语言分析、低代码数据开发、数据血缘优化、数据虚拟化技术、表宽打平、Cube(立方体)、存储计算优化
统一建模语言:
数据规划·数仓分层
·数据域
·数据过程
数据标准·数据字典
·标准代码
·度量单位
维度建模·维度表
·事实表
·维度关系
·维度事实关系
数据指标:·原子指标
·派生指标
·复合指标
·修饰词
数据标签:
·标签分类
·标签定义
·标签卒取
数据资产:资产门户
·指标地图
·资产治理
2)数据开发(统一元数据服务、统一调度服务):数据集成、数据开发、运维中心、数据质量、数据地图、数据安全
二、DataWorks 数据建模
(1)DataWorks 数据建模—数仓规划
1)临时层
2)维度层
3)应用数据层(ADS)
4)汇总数据层(DWS)
5)数据引入层(OOS)
(2)DataWorks 数据建模—数据标准
把核心字典变成标准化产品
(3)DataWorks 数据建模—数据指标
可以减少 AI 层面使用数据的效率
三、DataWorks 数据开发平台
(1)Dataworks 数据开发平台:
·离线数据开发/准实时数据开发
·实时数据开发
·在线数据开发
·数据服务
·自定义函数开发
·数据分析
(2)数据开发-数据同步
全量数据同步流程:源表、全量同步、集市表
增量数据同步流程:源表、增量同步、增量表、合并、集市表、T-1集市表
注意:
·所有业务库的数据都是统一同步,ods 项目进行统一存储管理
·从节约存储考虑,同一份数据数据智能同步一份
·从数据回溯与审计需要考虑,数据生命周期设置为永久保存
(3)数据开发:
·业务逻辑会尽量收回在数据明细层,目的是保证了数据的一致性,也简化了下游的使用
·源头上的变化,也可以通过代码或格式等转换保证明细层结构的稳定性,避免下游带来更多的变更。
(4)数据开发—数据加工代码开发
1)数据处理过程就是业务逻辑大的实现过程
2)既要保证业务逻辑的正确性、又要保证数据产出的稳定性、时效性
(5)数据开发—任务调度配置
1) 任务节点未起调或在错误的时间起调都有可能造成数据缺失或错误
2) 合理的调度策略,既可以保障数据产出的正确性,也可以保证数据产出的及时性
·大部分任务的起调都是依赖上游节点的完成后触发
·数据处理任务既可以定时调度,也可以通过上游节点完成后触发
·无用的任务(如果需要下线),可以先暂停
·任务可以按月、按小时等重复执行
(6)数据运维&治理-数据质量监控
1)数据质量监控的目的是保障数据资产产出的重要性
2)监控的范畴包括表大小的变化、表行数变化、字段枚举值变化、主键冲突、非法格式等。
3)异常值回触发报警或中断数据处理的过程,让值班人员有机会介入。
(7)数据运维&治理-数据质量监控
1)基线的目的是保障数据资产产出的及时性
2)优先级决定了系统硬件资源的保障力度,也决定了运维人员值班的保障力度
3)可以通过基线的方式把它们划分好,之后它就可以优先去跑任务。
(8)数据运维&治理-数据安全管理
·数据安全有四层保障,平台级、项目级、表级、字段级
·外包人员除了安全规章学习与考试外,还需要特别审批及签订保密协议
·员工高级离职权限会自动进行权限回收
·数据安全是重中之重,数据不能外泄。
数据存储使用:
数据保护伞(用于智能、自动的分类分级,构建安全合理的数据安全闭环管理体系)
数据保护伞核心能力:
监控&识别
·实时操作监控
·可优化展示
·数据导出风险识别
·数据操作行为风险识别
发现&评估
·定义敏感数据
·发现和定位敏感数据
·数据分级分类
·安全评估
审计
·风险事件实时推送
·提供 SIEM 对接的 API
·合规要求审计
·集成审计流程
加固&优化
·合理要求
·安全策略
·脱敏
·加密
企业数据平台如何支撑业务