《如何建设企业数据中台的经验分享》| 学习笔记

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
数据安全中心,免费版
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 快速学习《如何建设企业数据中台的经验分享》

开发者学堂课程【互联网技术实战营·数据智能专题《如何建设企业数据中台的经验分享》】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/915/detail/14468


《如何建设企业数据中台的经验分享》


目录:

一、数据中台

二、DataWorks  数据建模

三、DataWorks  数据开发平台

 

一、数据中台的核心任务

(1)数据中台的核心任务:数据中台的核心任务是推进数据资产建设,数据资产在数据中台中是非常关键的一个部分。持续沉淀技术和产品的能力,构建“消费便捷、质量可靠、安全稳定,生产经济”的数据资产体系,驱动业务数据化运行产生价值,进而释放数据及组织红利。

(2)数据中台的核心理论

集方法论(统一思想)、工具(产品沉淀)没有工具支撑就无法完成更好产品的研发、组织(高校智能)于一体的“快”“准”“全”“统”“通”的智能大数据平

平台&体系

(灵活高效的中台数据设计,实践中培养大数据人才)

image.png

(3) 数据中台团队介绍

定位:数据资产的建设者、管理者与运营者

职责:

建 · 数据建模

·加工计算

·数据存储

管·数据标准

·元数据管理

·数据质量

·数据安全

采·业务埋点

·数据同步

用·查询

·可视化

·分析

·挖掘

使命:数据驱动企业全链路智能化升级  

(4)数据中台技术架构

(5)DataWorks  整体构架

1)开放平台:open API

2)数据服务:统一数据服务

3)数据治理:数据资产地图资源优化、数据质量/数据安全、智能监控/数据交换

4)数据开发:离线开发、实时开发、交互式分析、图计算分析、机器学习(智能插件化集成开发环境  XStudio)

5)任务调度:统一任务调度服务

6)原数据中心:统一原数据服务

7)数据集成:批量同步、增量同步、实时同步、数

8)据转换、整库迁移

(6)数据中台技术构架  &DataWorks  技术构架:

(7)数据中台的目标:建立一个数据丰富(全链路、多维度(把业务的维度设计好,不要等业务来了再去设计维度))、质量可靠(口径标准、结果准确)、云新房稳定(产出及时、无故障)的中间层,并为上层业务提供了可靠的数据服务、数据产品及业务应用。

(8)数据中台的主要工作:

1)指标设计体系

2)数据模范设计

3)数据处理任务开发

4)数据服务开放(Tabel/View/API/Report)

(9) 数据集市整体模型构架(数据集市不代表数据中台,但数据集市是数据中台非常核心的底座)

2)构建数据集市的两个原则:

·总体分层

·功能定位

3)ODS: ODS  表的结构跟数据的结构一定要跟表上面的一致,然后再从  DWD  对  ODS  进行加工,DWS  跟  ADS  不能反向依赖。

(10)DataWorks-  数据建模

1)模型应用场景:业务指标监控、行业标准复用、业务数据智能预警、自然语言分析、低代码数据开发、数据血缘优化、数据虚拟化技术、表宽打平、Cube(立方体)、存储计算优化

统一建模语言:

数据规划·数仓分层

·数据域

·数据过程

数据标准·数据字典

·标准代码

·度量单位

维度建模·维度表

·事实表

·维度关系

·维度事实关系

数据指标:·原子指标

·派生指标

·复合指标

·修饰词

数据标签:

·标签分类

·标签定义

·标签卒取

数据资产:资产门户

·指标地图

·资产治理 

2)数据开发(统一元数据服务、统一调度服务):数据集成、数据开发、运维中心、数据质量、数据地图、数据安全

 

二、DataWorks  数据建模

(1)DataWorks  数据建模—数仓规划

1)临时层

2)维度层

3)应用数据层(ADS)

4)汇总数据层(DWS)

5)数据引入层(OOS)

(2)DataWorks  数据建模—数据标准

把核心字典变成标准化产品

(3)DataWorks 数据建模—数据指标

可以减少 AI 层面使用数据的效率

 

三、DataWorks  数据开发平台

(1)Dataworks  数据开发平台:

·离线数据开发/准实时数据开发

·实时数据开发

·在线数据开发

·数据服务

·自定义函数开发

·数据分析

(2)数据开发-数据同步

全量数据同步流程:源表、全量同步、集市表

增量数据同步流程:源表、增量同步、增量表、合并、集市表、T-1集市表

注意:

·所有业务库的数据都是统一同步,ods  项目进行统一存储管理

·从节约存储考虑,同一份数据数据智能同步一份

·从数据回溯与审计需要考虑,数据生命周期设置为永久保存

(3)数据开发:

·业务逻辑会尽量收回在数据明细层,目的是保证了数据的一致性,也简化了下游的使用

·源头上的变化,也可以通过代码或格式等转换保证明细层结构的稳定性,避免下游带来更多的变更。

(4)数据开发—数据加工代码开发

1)数据处理过程就是业务逻辑大的实现过程

2)既要保证业务逻辑的正确性、又要保证数据产出的稳定性、时效性

(5)数据开发—任务调度配置

1) 任务节点未起调或在错误的时间起调都有可能造成数据缺失或错误

2) 合理的调度策略,既可以保障数据产出的正确性,也可以保证数据产出的及时性

·大部分任务的起调都是依赖上游节点的完成后触发

·数据处理任务既可以定时调度,也可以通过上游节点完成后触发

·无用的任务(如果需要下线),可以先暂停

·任务可以按月、按小时等重复执行

(6)数据运维&治理-数据质量监控

1)数据质量监控的目的是保障数据资产产出的重要性

2)监控的范畴包括表大小的变化、表行数变化、字段枚举值变化、主键冲突、非法格式等。

3)异常值回触发报警或中断数据处理的过程,让值班人员有机会介入。

(7)数据运维&治理-数据质量监控

1)基线的目的是保障数据资产产出的及时性

2)优先级决定了系统硬件资源的保障力度,也决定了运维人员值班的保障力度

3)可以通过基线的方式把它们划分好,之后它就可以优先去跑任务。

(8)数据运维&治理-数据安全管理

·数据安全有四层保障,平台级、项目级、表级、字段级

·外包人员除了安全规章学习与考试外,还需要特别审批及签订保密协议

·员工高级离职权限会自动进行权限回收

·数据安全是重中之重,数据不能外泄。

数据存储使用:

数据保护伞(用于智能、自动的分类分级,构建安全合理的数据安全闭环管理体系)

数据保护伞核心能力:

监控&识别

·实时操作监控

·可优化展示

·数据导出风险识别

·数据操作行为风险识别

发现&评估

·定义敏感数据

·发现和定位敏感数据

·数据分级分类

·安全评估

审计

·风险事件实时推送

·提供 SIEM 对接的 API

·合规要求审计

·集成审计流程

加固&优化

·合理要求

·安全策略

·脱敏

·加密

企业数据平台如何支撑业务

 

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
6月前
|
SQL 存储 数据采集
数据中台建设方法论
数据中台建设方法论
|
4月前
|
存储 SQL 分布式计算
从零到一建设数据中台 - 关键技术汇总
从零到一建设数据中台 - 关键技术汇总
102 0
|
数据采集 供应链 数据可视化
数据中台实战(02)-什么企业适合建设数据中台?
数据中台实战(02)-什么企业适合建设数据中台?
115 0
|
SQL 分布式计算 算法
带你去看“字节跳动数据中台服务化的发展与实践”分享会
带你去看“字节跳动数据中台服务化的发展与实践”分享会
|
存储 数据采集 分布式计算
我在数据中台建设和落地的一些经验总结
数据治理是数字化建设中非常重要的一环。在进行数据治理时,我们需要根据不同的业务场景和需求,选择最适合的数据治理方案,包括选择不同的组件组装和数据存储方式等。对于轻量级数据管理平台和重量级数据管理平台,我们可以针对具体情况进行选择,权衡成本与效益,以满足客户实际需求。在整个数据治理过程中,我们还需要注重客户成本的管理,确保项目的落地和实际效果,并且不断优化数据治理流程,需要积极参与业务需求分析和技术选型,确保数据治理方案符合客户需求和行业标准。
|
存储 数据采集 分布式计算
什么是OneData?阿里数据中台实施方法论解读
什么是OneData?阿里数据中台实施方法论解读
10899 2
什么是OneData?阿里数据中台实施方法论解读
|
数据采集 机器学习/深度学习 运维
《数据中台架构:企业数据化最佳实践》:感受数据中台建设五步法
《数据中台架构:企业数据化最佳实践》:感受数据中台建设五步法
1229 0
《数据中台架构:企业数据化最佳实践》:感受数据中台建设五步法
|
机器学习/深度学习 分布式计算 负载均衡
大数据SaaS应用落地经验分享
在过去几年中,我们自己开发的大数据SaaS应用大数据实验室采用混合云体系结构在全国各地进行了几十次部署。在实际使用过程中,遇上了非常多的问题。本文主要分享在实际软件开发和维护过程中遇上的各种问题和解决方案分享。
837 0
大数据SaaS应用落地经验分享
|
存储 数据采集 人工智能
阿里数据中台底座的12年建设实践
阿里数据中台底座的12年建设实践
阿里数据中台底座的12年建设实践
|
SQL 机器学习/深度学习 分布式计算
有赞大数据平台安全建设实践
在大数据平台建设初期,安全也许并不是被重点关注的一环。大数据平台的定位主要是服务数据开发人员,提高数据开发效率,提供便捷的开发流程,有效支持数仓建设。大数据平台的用户都是公司内部人员。数据本身的安全性已经由公司层面的网络及物理机房的隔离来得到保证。那么数据平台建设过程中,需要考虑哪些安全性方面的问题?
有赞大数据平台安全建设实践