OneModel体系能给数据中台的建设带来什么?

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 作者:柯根 更多内容详见数据中台官网 https://dp.alibaba.com重要地位造成企业大数据建设的痛点原因,概括起来就是“烟囱式”开发造成数据不标准、不规范。所以数据中台建设的切入点需要以“数据公共层建设”消除因“烟囱式”开发给业务带来的困扰和造成的技术上的浪费。

作者:柯根 更多内容详见数据中台官网 https://dp.alibaba.com
重要地位
造成企业大数据建设的痛点原因,概括起来就是“烟囱式”开发造成数据不标准、不规范。所以数据中台建设的切入点需要以“数据公共层建设”消除因“烟囱式”开发给业务带来的困扰和造成的技术上的浪费。而OneModel方法论则是打开局面和推动数据中台建设的关键。
核心能力

  • 规范定义
    在业界中常用数据字典文档的方式维护标准规范定义,但是往往“计划很丰满,现实很骨感”,文档在项目实际实践过程中,很难保证及时维护,到最后往往变成无人问津的“空中楼阁”;并且文档与开发严重脱节,到最后形成“上有政策,下游对策”的混乱局面。

就算数据字典能及时维护并严格遵守,它也只能短暂缓解业务痛点,但只是治标,对技术痛点几乎无用。因此,必须从源头出发,找到可以同时解决业务痛点和技术痛点的方法,而全局规划和数据规范定义就是治本的方法。
OneModel方法论保障了数据唯一性的数据域、业务过程,以及在数据域、业务过程之下的指标、实体属性等的结构性封装、命名和定义。
数据规范定义是在开发之前,以业务的视角进行数据的统一和标准定义,确保计算口径一致、算法一致、命名一致,后续的数据模型设计和ETL开发都是在此基础上进行的。主要基于以下几部分内容:

  1. 基于对业务和数据的理解,对数据进行基于业务本身但超越和脱离业务需求限制的抽象。主要的抽象不随着业务团队的组织架构变动而变动,即抽象出业务板块、数据域、业务过程、维度。
  2. 基于以上抽象出的业务过程和维度,进一步定义原子指标、业务限定、计算周期、计算粒度。
  3. 基于定义的原子指标、业务限定、计算周期、计算粒度,可结构化定义出派生指标,并继承原子指标的数据类型、算法,并形成标准化的派生指标名称定义。
  4. 通过数据中台不断的迭代优化,积累大量统一、标准的指标。
  • 模型设计
    在数据模型设计中,OneModel方法论保障模型复用和稳定的数据基础层、数据中间层、数据应用层分层架构设计,以及各层模型设计的核心原则。

数据模型设计在数据规范定义的基础上,从业务应用或者需求来源端控制了数据模型设计的重要输入源头。其次,对数据模型严格分层,在统一数据公共层的同时允许数据应用层百花齐放。第三,从业务和技术双视角下,严格要求数据模型设计满足“高内聚、低耦合”的标准。

  • 数据开发
    在ETL开发中,开发过程遵循标准有效的开发规范,并将以往ETL开发人员所积累的经验做沉淀。

工具沉淀
仅仅有方法论是远远不够的,很多企业不乏拥有业界通用方法论以及成型的数据模型。但往往发现若没有产品做支撑,方法论落地存在很大的困难。需要有足够多建模经验丰富的模型架构师、经验丰富的数据研发工程师,以及要在企业内部对方法论达成绝对的一致。这对于有一定规模的企业来说都是很难实现的。
因此阿里巴巴云上数据中台团队基于多年在集团内部的实战经验,将OneModel方法论沉淀到数据中台产品Dataphin中。
Dataphin通过OneModel方法论为指导,沉淀出一站式的规范、工具型数据产品,产品主要包括以下几部分:规范化数据建模,特别关注数据规范定义、数据模型设计和ETL开发等全流程;落地和承载规范化数据建模的规范化研发工具;规范化建模产生的所有分层数据模型;所有数据在面对应用时都会被监控和调度,且对上线、下线调优监控会反馈到规范化数据建模中。
将原先割裂的数据规范定义、数据模型设计、ETL开发连接在一期,实现“设计即开发,所建即所得”。将数据规范定义从工具层面的数据命名+结构化抽象定义合二为一,并与数据模型设计连接,进而直接支撑ETL开发。当数据规范定义完成之后,每一个指标都可以根据结构化命名规则和计算逻辑快速映射到对应的物理表中。
只要某个指标能够被规范定义,针对该指标的代码即可自动化生成,而一系列经过规范定义的指标则会根据相同计算粒度,聚集到若干物理表或逻辑表中,这样形成的物理表或逻辑表,其全部代码和自动化生成。对于中间生成过程不必关心,因为这是系统内部的智能黑盒要以智能化的方式来解决的。并且智能黑盒不仅实现代码自动化生成,还关心优化生成代码及其任务调度所对应的计算逻辑。
下图为Dataphin通过基于逻辑模型的数据规范定义、智能设计及智能研发(黑盒实现代码自动化及任务优化)、基于逻辑模型的主题式查询等特性,带来全新、高效、标准的一体化设计及开发的数据中台构建和使用模式。
image

结语:
阿里巴巴数据中台团队,致力于输出阿里云数据智能的最佳实践,助力每个企业建设自己的数据中台,进而共同实现新时代下的智能商业!
阿里巴巴数据中台解决方案,核心产品:
Dataphin,以阿里巴巴大数据核心方法论OneData为内核驱动,提供一站式数据构建与管理能力;
Quick BI,集阿里巴巴数据分析经验沉淀,提供一站式数据分析与展现能力;
Quick Audience,集阿里巴巴消费者洞察及营销经验,提供一站式人群圈选、洞察及营销投放能力,连接阿里巴巴商业,实现用户增长。
欢迎志同道合者一起成长!更多内容详见数据中台官网 https://dp.alibaba.com

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
8月前
|
SQL 存储 数据采集
数据中台建设方法论
数据中台建设方法论
|
机器学习/深度学习 消息中间件 算法
如何设计数据中台
如何设计数据中台
697 0
|
存储 SQL 分布式计算
数据中台实战(11)-数据中台的数据安全解决方案
数据中台实战(11)-数据中台的数据安全解决方案
448 1
|
数据采集 供应链 数据可视化
数据中台实战(02)-什么企业适合建设数据中台?
数据中台实战(02)-什么企业适合建设数据中台?
130 0
|
数据采集 分布式计算 大数据
数据中台导读
数据中台导读
165 1
|
存储 数据采集 分布式计算
我在数据中台建设和落地的一些经验总结
数据治理是数字化建设中非常重要的一环。在进行数据治理时,我们需要根据不同的业务场景和需求,选择最适合的数据治理方案,包括选择不同的组件组装和数据存储方式等。对于轻量级数据管理平台和重量级数据管理平台,我们可以针对具体情况进行选择,权衡成本与效益,以满足客户实际需求。在整个数据治理过程中,我们还需要注重客户成本的管理,确保项目的落地和实际效果,并且不断优化数据治理流程,需要积极参与业务需求分析和技术选型,确保数据治理方案符合客户需求和行业标准。
|
人工智能 大数据 BI
政务数据中台解决方案
助力“数据赋能政务“,深入政务场景构建数字化管理工具,支撑政府决策科学化、社会治理精准化、公共服务高效化!
3742 0
政务数据中台解决方案
|
数据采集 存储 运维
数据中台如何建设,如何选型?
数据中台往往是伴随企业数字化经营战略进行规划的,是企业企业战略中的重要部分,数据中台建设包含团队搭建、设备采购、平台开发/采购等,预期百万级至千万级启动资金以及每年数百万的持续投入,所以如何建设、如何选型成为数据中台建设首先要考虑的事项。
1304 0
数据中台如何建设,如何选型?
|
存储 数据采集 分布式计算
什么是OneData?阿里数据中台实施方法论解读
什么是OneData?阿里数据中台实施方法论解读
11627 2
什么是OneData?阿里数据中台实施方法论解读
|
数据采集 机器学习/深度学习 运维
《数据中台架构:企业数据化最佳实践》:感受数据中台建设五步法
《数据中台架构:企业数据化最佳实践》:感受数据中台建设五步法
1279 0
《数据中台架构:企业数据化最佳实践》:感受数据中台建设五步法