带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——2. 规划:高屋建瓴,总览企业数据体系

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——2. 规划:高屋建瓴,总览企业数据体系

2. 规划:高屋建瓴,总览企业数据体系


1) Dataphin 模型体系


数据中台是数据沉淀、建设、管理与使用的一整套体系。Dataphin的核心优势是在数据的建设与治理上,引入了阿里巴巴多年来数据中台建设沉淀出的建模方法论,可以帮助企业通过智能数据建设与治理,构建数据中台。

 

在这个方法论中,某一个完整独立的业务对应一个业务板块,数据建模是基于一个业务板块来进行的,分四层模型:

 

主题域模型:在数据中台,主题对应一个宏观的分析领域,比如销售分析就是分析“销售”这个主题,联系较为紧密的主题的集合就是主题域。每一个行业都可以拆分为有多个(十个左右不等)主题域组成的主题域模型。


概念模型:在主题域的基础上,每个主题域内增加了实体以及实体之间的关系。


逻辑模型:在概念模型的基础上,增加每个实体的属性以及属性的约束。


业务分析模型:行业中重要的以及常用的分析方法与分析视角。在逻辑模型基础上,将业务分析问题转换为Dataphin特有的派生指标,并进一步提炼出原子指标和业务限定。


 

image.png

 

板块划分、主题域模型、概念模型从宏观整体层面规划整个企业的数据体系。

 

2) 划分业务板块


企业的规模有大有小,业务复杂度和跨度也不同,数据反映业务,所以每个企业的数据中台也是不同的。数据中台建设的第一步是做规划,规划的第一步是全盘梳理企业的业务架构,将业务划分为一个个独立业务,对应到Dataphin就是业务板块的划分。

 

image.png

 

业务板块的划分总原则是高内聚,低耦合。可以通过业务活动之间以及业务活动与业务对象之间的关系来厘定业务板块的边界:


存在上下游的关系或者有共同的业务对象的几个业务流程属于同一个业务板块。反之,如果两个业务流程之间不存在任何直接或者间接的上下游关系,也没有直接或者间接共同的业务对象,他们就不应当被放在同一个业务板块。


与业务活动相关的业务对象与业务活动同属一个板块


某些业务对象是企业级共用的,比如,公司的员工、行政地理区划(没错,这个也属于业务对象)等,可以冗余在每一个板块中。


3) 主题域建模


主题域建模,即在业务板块下进一步将业务划分为多个主题域。主题域的划分没有客观原则,主要根据数据模型师的行业经验与业务理解来划分。具体以零售行业为例来说明。

 

零售行业的主题域划分:

 

公共主题域:在所有业务流程中都会被引用的数据,如地理位置数据、企业的人员组织数据。


消费者主题域:该主题域主要是零售企业内用户(消费者)运营相关的业务活动数据。


商品主题域:商品的管理(类目管理、品牌管理等),商品结构管理(组货)等相关的业务活动数据。

 

其他还有商家主题域、流量主题域、交易主题域、履约主题域、服务主题域、交互主题域、营销主题域、内容主题域、供应链主题域等。

 

image.png


4) 概念建模


概念模型主要由业务实体以及实体关系来组成。


a) 业务实体


业务对象是参与业务的人或事物,在企业组织的业务模式确定时就存在的,偏静态的实体。根据复杂程度,业务对象可以分为:

 

普通对象,复杂的、有很多属性的对象。狭义上,业务对象就是普通对象。


枚举对象,简单的基础对象。如性别,其取值可以穷举(男/女/未知)。


虚拟对象,在业务定义中,没有任何属性的基础对象,如姓名。


层级对象,多个业务对象之间有上下级关系,这一组对象就是层级对象。

 

 

 

业务活动是一个或者多个业务对象在某个时间(段)为了达成某种目的所进行的活动或者是某种活动的结果。业务活动有以下几个关键要素(属性):

 

活动主体,活动的发起者,是一个业务对象。


可选的活动客体,活动的参与者,可能有多个,也是业务对象。


活动时间,可以是一个单点时刻,也可能是一个有开始和结束的时间段。


根据业务活动持续时间的长短,可以将业务活动细分为:

 

业务流程,持续一段时间,有明确生命周期的业务活动。


(业务)事件,发生在某一个时刻,持续时间极短(瞬间)。事件一般对应业务流程的一次状态变化。


业务快照,是一系列活动在某一个时刻点的状态和结果,比如库存、账户余额。


b) 实体关系


在实际业务中,业务实体并不是孤立存在的,他们之间有着各种各样的联系,Dataphin将这些联系定义为“实体关系”。有以下实体关系:

 

实体关系

说明

关联

1. 业务对象 A 是业务对象 B 的属性,则业务对象B关联了业务对象A,如:地址 是 客户 的属性之一,客户实体 关联了 地址实体

2. 业务对象 A 是业务活动 C 的参与者,则业务活动 C 关联了业务对象A,如:客户 是 销售 的参与者,销售实体 关联了 客户实体

继承

普通对象B 是 普通对象A 的一种,但是比普通对象A多一些独有的属性,则 普通对象B 继承了 普通对象A。 如:会员 本身也是 用户,除了用户的姓名,性别等属性外,会员 还独有会员等级等属性,会员 继承了用户。

层级

层级对象的多个对象间为层级关系

包含

业务活动A 有三个处理节点 B、C、D,每个节点对应一个业务事件,业务事件发生后,A的状态将发生变化。业务活动A 包含 业务事件 B、C、 D。 如:销售活动 包含 销售下单,销售付款,销售完结 等业务事件。

流转

业务活动A 有三个处理节点 B,C,D,每个节点对应一个业务事件,事件按照 B -> C -> D 的顺序发生,则 B、C、D之间为流转关系。

前后序

进入业务活动B 之前必须先完成 业务活动A,则A是B的前序活动,B是A的后序活动。 如:销售完成后,才可以退款退货(销退),则销售是销退的前序活动,销退是销售的后序活动。



相关文章
|
2天前
|
SQL 分布式计算 关系型数据库
Dataphin x Paimon 开箱即用的数据湖治理解决方案
Dataphin深度集成Apache Paimon,通过全链路功能适配和性能优化,为企业提供开箱即用的数据湖治理解决方案。
|
8天前
|
SQL 人工智能 搜索推荐
Dataphin功能Tips系列(71)X-数据管家:数据资产运营的「AI外挂」
在企业数据治理中,数据资产规模庞大、字段繁多,手动录入效率低且易出错。Dataphin推出「X-数据管家」,利用大模型智能生成标签、描述及字段类型等信息,支持一键批量上架,大幅提升资产运营效率。
|
SQL 分布式计算 Apache
Dataphin x Iceberg 开箱即用的数据湖治理解决方案
Apache Iceberg作为新一代开源数据湖表格式,具备ACID事务、时间旅行和高效Schema演化等能力。Dataphin已完成与Iceberg的深度集成,通过全链路适配与性能优化,为企业提供开箱即用的数据湖治理方案,涵盖数据源支持、离线与实时数据集成、数据研发等核心模块,助力构建现代化数据架构。
155 0
|
5月前
|
SQL 数据采集 分布式计算
Dataphin测评:企业级数据中台的「智能中枢」与「治理引擎」
Dataphin是一款智能数据建设与治理平台,基于阿里巴巴OneData方法论,提供从数据采集、建模研发到资产治理、数据服务的全链路智能化能力。它帮助企业解决数据口径混乱、质量参差等问题,构建标准化、资产化、服务化的数据中台体系。本文通过详细的操作步骤,介绍了如何使用Dataphin进行离线数仓搭建,包括规划数仓、数据集成、数据处理、运维补数据及验证数据等环节。尽管平台功能强大,但在部署文档更新、新手友好度及基础功能完善性方面仍有提升空间。未来可引入SQL智能纠错、自然语言生成报告等功能,进一步增强用户体验与数据治理效率。
562 34
Dataphin测评:企业级数据中台的「智能中枢」与「治理引擎」
|
2月前
|
SQL 安全 BI
Dataphin数据服务API行级权限管控解决方案 ——构建企业级数据安全的精细化管控体系
Dataphin数据服务推出行级权限管控功能,解决传统权限管理中用户权限分散、管控复杂等问题。支持直连与代理双模式访问,实现API与SQL权限统一管理,满足金融、零售、医疗等行业对数据访问的精细化控制需求。通过动态权限决策引擎和自动化继承体系,确保数据安全且提升应用开发效率。
302 0
|
4月前
|
数据采集 存储 监控
星河中的数据旅程:从普通字段到核心指标 -- 基于Dataphin的数据源资产全链路管理
在数据星河中,Starrocks星球的字段居民渴望登上资产管理平台,贡献数据力量。通过元数据采集、标准稽核与质量监控,字段们获得新身份“核心业务指标”。借助Dataphin平台功能,如自定义属性和QuickBI对接,它们最终参与经营分析报表,助力决策。Dataphin V4.4提升了全链路管理能力,新增大数据存储元数据采集、自定义指标等功能,释放数据潜力。加入Dataphin,探索数据无限可能!
152 8
|
8月前
|
安全 数据挖掘 大数据
开放、兼容的数据建设与治理平台——瓴羊Dataphin“进化论” |【瓴羊数据荟】数据MeetUp第三期
Dataphin的技术架构与实践路径,涵盖多引擎兼容、混合云架构、统一资产消费等方面,Dataphin通过持续升级,帮助企业实现全生命周期的数据资产管理,助力企业在大模型时代更好地“建好数据”、“用好数据”。
467 87
开放、兼容的数据建设与治理平台——瓴羊Dataphin“进化论” |【瓴羊数据荟】数据MeetUp第三期
|
3月前
|
运维 安全 数据管理
Dataphin V5.1 企业级发布:全球数据无缝集成,指标管理全新升级!
企业数据管理难题?Dataphin 5.1版来解决!聚焦跨云数据、研发效率、指标管理和平台运维四大场景,助力数据团队轻松应对挑战。无论是统一指标标准、快速定位问题,还是提升管理安全性,Dataphin都能提供强大支持。3分钟了解新版本亮点,让数据治理更高效!
|
5月前
|
分布式计算 监控 安全
产品评测|从数据标准到实时监控,深度解析Dataphin如何以智能提效与安全合规驱动企业数据价值释放
Dataphin是阿里巴巴基于OneData方法论打造的一站式数据治理与建设平台,帮助企业实现数据全生命周期管理。本文详细记录了使用Dataphin搭建离线数仓的全流程,包括环境准备、数仓规划、数据引入、处理、周期任务补数据、数据验证与分析等环节。体验中发现其离线管道任务、周期调度、补数据功能便捷高效,但也存在系统稳定性不足、文档更新滞后等问题。建议增强对JSON文件支持、优化资源推荐机制并完善脱敏操作功能,进一步提升用户体验。
|
6月前
|
数据采集 SQL 人工智能
告别数据混乱:瓴羊Dataphin 通过AI+标准让企业数据“活”起来 | 【瓴羊数据荟】数据MeetUp第四期
AI技术的快速发展促使企业重新审视数据治理的重要性。当前,企业在数据治理中常因指标口径不统一、数据血缘不透明等问题陷入困境。阿里云智能集团瓴羊高级技术专家周鑫提出,以数据标准为核心贯穿数据全生命周期,可有效解决治理难题。
362 15
告别数据混乱:瓴羊Dataphin 通过AI+标准让企业数据“活”起来 | 【瓴羊数据荟】数据MeetUp第四期

热门文章

最新文章