《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(3)

简介: 《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(3)

《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(2) https://developer.aliyun.com/article/1230769?groupCode=tech_library



三、 治理方案


1. 整体方案


基于以上的问题原因分析,我们制定了如下治理方案。


image.png

核心策略为以下三点:


1) 盘点存量,掌握数据的整体情况。

2) 规范增量,避免新增模型走老路,重复出现相同问题,考虑到数据的生命周期,历史数据可以先不管。

3) 日常治理保健康,以数据化驱动长期治理。


2. 机制规范


1) 架构分层标准


image.png


往年我们关注的是数据视角,今年关注的是业务视角,业务视角核心诉求主要有四点,交付效率、产出时效、质量可靠、成本可控。过去OneData 定义了每一层的作用,但每个层次的分工定位不清晰,针对这些问题重新做了清晰的定义。


应用层核心是专注支持业务,需要考虑研发效率、交付数据口径一致性和稳定性。


通过集市规范来控制复杂度,通过轻度聚合的中间层确保口径统一,通过扁平化设计确保稳定。


公共层的核心是抽象复用来提升效率,需要考虑易用性和稳定性。通过规范和冗余宽表提升复用性,通过解耦来确保稳定性。


ODS 层的核心是合规高效,需要考虑接入效率和性能稳定。通过工具化提升效率、优化治理确保性能的稳定。特别是在数据达到一定量之后要考虑采用merge 的方式接入数据。


2) 集市划分规范


数据集市,是用来满足特定部门或者用户的需求,按照多维的方式进行存储。通过对相似数据业务场景内聚进行抽象分类,以降低ADS 层重复建设和数据管理复杂度,让应用研发更聚焦更高效。


image.png


集市划分的原则有以下两点:

• 原则一:以业务场景或者服务对象作为划分原则,对相似数据业务场景内聚抽象进行分类。

• 原则二:集市划分需要统一标准,尽量符合MECE 原则。


3) 公共层共建机制


image.png


在建设公共层的建设过程中,我们通常会遇到以下两个痛点:


• 应用研发的痛点:公共层相应效率低。

• 公共层研发的痛点:如果统一承接开发工作,涉及的业务很广泛,研发资源不

足。


为了解决以上两个痛点,我们通过以下核心原则来解决:


• 原则一:公共层开放共建,事后审计治理

应用开发整理需求,把需要下沉的公共维度提给公共层研发,公共开发需求评

估。

• 原则二:以应用需求驱动,设计开发共建

以需求为驱动,拆分出核心模型和非核心。模型,核心模型公共研发负责,非核

心模型由业务开发进行,共同开发以提高效率。


• 原则三:公共层研发统一运维保障

非核心模型上线并完成相关测试(准确性、确定性、治理)后转交给公共层研

发,由公共层统一运维。





《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(4) https://developer.aliyun.com/article/1230767?groupCode=tech_library

相关文章
|
Java 程序员
收藏!阿里毕玄16篇文章,深度讲解Java开发、系统设计、职业发展
阿里毕玄结合自己的经历深度讲解Java开发、系统设计、职业发展等问题,快来一键收藏吧。
35186 1
|
Cloud Native 数据可视化 架构师
一文看懂蚂蚁BizStack 云原生开发和治理平台
在数字化转型大背景下,企业如何解决业务敏捷交付、科技持续治理难题?
1740 2
一文看懂蚂蚁BizStack 云原生开发和治理平台
如何进行有效的业务影响分析(BIA)?
如何进行有效的业务影响分析(BIA)?
840 1
|
9月前
|
运维 监控 安全
出海短信就选阿里云,覆盖 200+国家
国际/港澳台短信,就找阿里云
303 3
|
11月前
|
缓存 网络协议 安全
融合DNS技术产品和生态
本文介绍了阿里云在互联网基础资源领域的最新进展和解决方案,重点围绕共筑韧性寻址、赋能新质生产展开。随着应用规模的增长,基础服务的韧性变得尤为重要。阿里云作为互联网资源的践行者,致力于推动互联网基础资源技术研究和自主创新,打造更韧性的寻址基础服务。文章还详细介绍了浙江省IPv6创新实验室的成立背景与工作进展,以及阿里云在IPv6规模化部署、DNS产品能力升级等方面的成果。此外,阿里云通过端云融合场景下的企业级DNS服务,帮助企业构建稳定安全的DNS系统,确保企业在数字世界中的稳定运行。最后,文章强调了全链路极致高可用的企业DNS解决方案,为全球互联网基础资源的创新提供了中国标准和数字化解决方案。
|
运维 负载均衡 监控
如何设计一个高可用的分布式系统?
如何设计一个高可用的分布式系统?
|
存储 弹性计算 运维
CPU 利用率从 10% 提升至 60%:中型企业云原生成本优化实战指南
在互联网早期迅速发展时,相关领域企业更多注重于扩展业务,为了迅速占领市场,往往会投入较高的成本。然而,随着互联网人口红利逐渐消退,以及近几年的疫情影响,越来越多企业开始重视成本管理,从“粗放式经营”转变为“精细化运营”模式,成本优化成为企业重点关注事项。
869 0
CPU 利用率从 10% 提升至 60%:中型企业云原生成本优化实战指南
|
机器学习/深度学习 Rust JavaScript
Rust 笔记:Rust 语言中应用正则表达式
Rust 笔记:Rust 语言中应用正则表达式
802 1
|
DataWorks 数据可视化 数据建模
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(4)
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(4)
247 0
|
SQL 分布式计算 Java
实战 | Hive 数据倾斜问题定位排查及解决 (一)
Hive 数据倾斜怎么发现,怎么定位,怎么解决
841 0
实战 | Hive 数据倾斜问题定位排查及解决 (一)