架构篇:智能数据构建及管理平台Dataphin | 《零售数据中台通关指南》

简介: 本篇介绍了平台化交付关键要素以及数据治理和统一公共层建设。
潘碧玲(芳路) 阿里云新零售数据解决方案高级经理
具有10+年的企业信息化和咨询规划经验,从业经验覆盖传统咨询公司和互联网公司,具有综合的IT知识和企业业务知识。熟悉零售、流通、商业地产等行业,对会员和营销、供应链解决方案、财务业务集成等方案有较为丰富经验。对阿里数据中台、智能营销、业务中台等产品整体解决方案较为熟悉。

image.png

一、平台化交付关键要素

(一)核心要素是什么-建设数据资产管理平台关键要素

image.png

建设平台型数字化项目核心是在数字化触点持续建设(有数据可用)+大数据技术能力不断提升的基础上,建设数据治理端到端闭环体系、数据运营和应用体系。保证数据从采集到清洗(保证数据可用)再到资产管理(保证数据应用可持续可优化),最后到真正的数据应用价值化的完整链路(以数据驱动业务变革和优化)。

数据治理体系:

建立有规划、可落地,有执行、可评估,覆盖从组织优化到技术能力建设的全面数据治理体系。优化数据供应链的数据质量、数据服务体系、数据安全管理机制、数据管理规范和监控机制,为数据应用价值的呈现建设良好的数据基础。

数据最终的价值是要在数据应用过程中体现的,但是如果没有好的数据供给到数据应用层,那么数据价值是很难发挥作用的。尤其在算法类的项目,它对数据的沉淀和质量有着更高的要求,因为算法的项目,产出很多时候可能是一个黑盒的结果,在结果验证和算法优化的过程中,数据质量的干扰可能会让算法模型无法学习到真正的业务规律。

数据运营体系和组织建设:

数字运营体系建设是驱动数字化技术平台型项目建设的关键要素,建立数据运营体系和完成各执行组织的推广也是帮助企业最终实现数字驱动业务转型、创新场景实现的关键步骤。

运营体系建立是为了保障平台能够对外提供有价值、稳定的服务,也是保障数据管理平台可以不断支持创新业务的关键要素。

数据应用场景体系:

建立数据应用体系,让数据真正服务业务,帮助业务创新执行是数字化转型的最终目标。

(二)阶段怎么划分-项目交付关键链路

image.png

先构建基础能力,再建运营体系,最后建设应用体系,这是比较容易理解的平台架构整体的交付路径,但是在实际的项目中,通常会推荐把链路规划为影响力构建阶段、数据覆盖扩大和产品完善阶段、全面推荐数据智能应用阶段。

1、影响力构建
1)构建影响和普及概念:选择相关的业务板块,以更好的建立核心业务的基础应用和创新应用为契机展开技术平台和治理体系建设,让数据中台在企业内部形成一定的影响力。

2)巩固应用和总结机制:建立于全链路的数字化运营体系和数据治理体系,让后续的项目推进有规范可依,效果可评估可量化。

3)数字智能技术的探索期:探索数字智能的应用领域,基于数据基础较好的应用建立智能算法应用,算法场景通常具有较强的创新性,在影响力构建阶段能够起到较好的加持作用。

2、数据覆盖扩大和产品完善
1)扩大数据覆盖范围:覆盖企业各数据域,实现企业数据管理的统一、规范等管理目标。

2)不断完善数据产品体系:完善数据产品体系,让数据应用的交互友好型增加,数据应用便利性增强等,更好的支持基于数字化的业务创新探索。

3)构建数据运营体系:从组织和流程上实现数据支撑运营,驱动创新业务的探索。

4)数据治理体系落地:基于整体的规划和前期的执行落地总结,在全数据领域落地和执行治理规范等,保障数据价值呈现。

3、全面推进数据智能应用
持续基于业务需求的数据应用建设,从数据的基础应用(分析、流程支持、决策辅助、智能推荐等)全覆盖到数据智能应用范围不断延伸。

(三)为了支持数据价值层的数据应用,数据技术平台需要做什么

image.png

为了最终实现通过数据支持业务决策和创新优化,数据管理层需要做的相关任务总结。

1、大数据技术平台建设:能够处理互联网大数据,解决目前由于数据量太大,数据结构规范等原因造成的数据应用问题。

2、资产治理和运营体系:建立可持续的数据治理和运营体系,帮助数据应用建设的可持续。

3、可复用能力层建设:提供公共数据层,进行数据统一、规范存储,方便后续应用快速识别和应用。

4、友好的数据应用体系:平台输出的数据服务更友好,业务在对接应用的时候能改更便利。

在这四个板块中,数据治理和资产运营、可复用能力层建设两个板块整体的复杂度更高,需要更好体系化、标准化的交付方法推进,仅仅依赖产品能力是很难达到要求的。

二、数据治理和统一公共层建设

(一)为什么要做治理-数据应用场景交付中常会遇到的数据基础问题

image.png

过去在建设数据应用场景的过程中,发现大量的数据问题导致了数据应用场景的不可交付或效果无法达到预期的情况,这是数据治理在后续被作为重点建设事项推进的关键原因。

(二)和传统治理的差异性-希望咨询端到端可落地、产品可承接、机制可闭环

image.png

运营机制让治理可持续:和传统治理比较,现在的治理需要包含数据治理运营机制建立,数据治理所包含数据标准、安全规划等只是其中一部分。通过建立企业建立数据治理运营体系,让数据治理的工作在运营机制的帮助下持续运转。

治理效果可视化:对治理的全过程进行治理效果可视化的体系建立探索,让治理效果可评估可优化。

伴随技术平台交付落地:数据治理项目不是以产出数据治理文档为目标,基于业务的现状和技术产品的特点,整理持续的数据治理项目卡片(基于业务架构和技术架构梳理),把治理落地到技术平台建设和日常中是治理的关键。

端到端贯穿数据源到数据应用:将数据治理贯穿在从源系统治理到数据技术平台数据采集、同步再到数据开发、建模规范,通过对数据应用和服务进行规范化。

(三)数据治理领域框架

image.png
image.png

数据治理的框架主要包含治理和资产管理等板块,在传统数据治理的组织制度规范上,加入更多的资产管理板块需求和数据技术工具的应用规范和要求。例如:

数据治理整体框架和组织、流程机制建立;

数据供应全链路的质量、存储、安全、加工、服务等规范和标准;

数据管理工具的资产管理能力,包含从流程承接(权限、流转承接)、数据资产的规范存储和可查、可用、数据服务应用的平台建设等;

数据治理评价和监控等数据应用产品的建设等。

(四)建立基于评价机制的数据治理优化机制

image.png

整个循环机是比较重要的,应该为数据治理的执行去设定它的一个闭环监控机制。让数据治理实现可执行、可监控、可优化的链路。

(五)公共层建设方法-基于数据中台公共层的指标规范定义梳理

image.png

不同的业务在运营中有不同的需求与运营指标,虽然表面看起来的需求差不多,例如都需要消费者的统计数据,销售订单的数据,但不同业务的口径不一样。有的可能想看的是在线上一些单品的销售,有的业务想看的可能是全渠道当中的整体销售。业务团队不一样的诉求会存在重复开发的问题,每一次可能都要重新去加工指标。

公共层建设的目标就是指标规范定义、增强复用性。目前阿里整个公共层建设的核心方法论就是拆解业务过程,把原子化的指标提取出来,然后通过和业务维度的组合,来增强它的复用性。

image.png

公共层建设还有一个重要的事情就是统一数据源,公共层建设目标是完成聚合和统一,然后讲统一数据提供业务应用,避免不同的业务应用使用不同的业务来源数据造成的数据差异性。

相关实践学习
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
7月前
|
数据采集 运维 监控
构建企业级Selenium爬虫:基于隧道代理的IP管理架构
构建企业级Selenium爬虫:基于隧道代理的IP管理架构
|
7月前
|
人工智能 监控 测试技术
告别只会写提示词:构建生产级LLM系统的完整架构图​
本文系统梳理了从提示词到生产级LLM产品的八大核心能力:提示词工程、上下文工程、微调、RAG、智能体开发、部署、优化与可观测性,助你构建可落地、可迭代的AI产品体系。
952 52
|
7月前
|
机器学习/深度学习 人工智能 搜索推荐
从零构建短视频推荐系统:双塔算法架构解析与代码实现
短视频推荐看似“读心”,实则依赖双塔推荐系统:用户塔与物品塔分别将行为与内容编码为向量,通过相似度匹配实现精准推送。本文解析其架构原理、技术实现与工程挑战,揭秘抖音等平台如何用AI抓住你的注意力。
1825 7
从零构建短视频推荐系统:双塔算法架构解析与代码实现
|
7月前
|
消息中间件 缓存 监控
中间件架构设计与实践:构建高性能分布式系统的核心基石
摘要 本文系统探讨了中间件技术及其在分布式系统中的核心价值。作者首先定义了中间件作为连接系统组件的"神经网络",强调其在数据传输、系统稳定性和扩展性中的关键作用。随后详细分类了中间件体系,包括通信中间件(如RabbitMQ/Kafka)、数据中间件(如Redis/MyCAT)等类型。文章重点剖析了消息中间件的实现机制,通过Spring Boot代码示例展示了消息生产者的完整实现,涵盖消息ID生成、持久化、批量发送及重试机制等关键技术点。最后,作者指出中间件架构设计对系统性能的决定性影响,
|
7月前
|
SQL 弹性计算 关系型数据库
如何用读写分离构建高效稳定的数据库架构?
在少写多读业务场景中,主实例读请求压力大,影响性能。通过创建只读实例并使用数据库代理实现读写分离,可有效降低主实例负载,提升系统性能与可用性。本文详解配置步骤,助你构建高效稳定的数据库架构。
|
6月前
|
数据采集 SQL 数据可视化
Dataphin功能Tips系列(72)一键数据探查,打造高质量数据开发、分析流程
Dataphin数据探查功能助力高效识别数据质量问题,支持手动与自动两种探查模式。通过一键生成质量报告,快速检测空值、异常值、重复值等问题,全面掌握数据分布与健康状况,提升数据准备与分析准确性。
404 7
|
8月前
|
搜索推荐 数据管理
Dataphin功能Tips系列(70)自定义菜单:构建一站式数据管理平台
Dataphin通过自定义菜单功能,支持嵌入企业其他平台URL,实现统一的数据开发与管理平台,提升团队协作效率。
261 8
|
6月前
|
机器人 数据中心
Dataphin功能Tips系列(79)精准获知标准更新动态,协同治理更高效
Dataphin支持数据标准变更订阅,可实时通过站内信、邮箱或钉群机器人通知相关人员,确保业务及时响应。用户可通过标准列表、个人中心等入口批量订阅,变更消息包含状态、版本及跳转链接,便于快速查看与处理。
214 8
|
6月前
|
数据采集 监控 调度
Dataphin功能Tips系列(76)质量规则调度配置系列(3)-定时调度
Dataphin「定时调度」功能支持按需设定数据质量检测时间与频率,适用于定期检查数据质量问题的场景。提供手动配置和系统推荐两种方式,可自动执行规则并生成报告,帮助用户高效发现并处理问题。
220 9