带你读《2022技术人的百宝黑皮书》——大淘宝技术数据模型治理阶段性分享(1)-阿里云开发者社区

带你读《2022技术人的百宝黑皮书》——大淘宝技术数据模型治理阶段性分享(1)

2023-06-12 157

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 带你读《2022技术人的百宝黑皮书》——大淘宝技术数据模型治理阶段性分享(1)

作者：剑萧

出品：大淘宝技术

大淘宝技术数据体系经过多年发展，通过丰富的数据和产品支撑了复杂的业务场景，在数据领域取得了非常大的领先优势。随着数据规模越来越大，开发人员越来越多，虽有阿里大数据体系规范进行统一管理，但是由于没有在产品侧进行有效的模型设计和管控，在模型规范性、应用层效率、通用层复用性等方面的问题逐渐凸显。计存成本提升、效率降低、规范减弱、数据使用难度变大、运维负担增加等。为了解决这些问题，我们进行了大淘宝技术模型治理专项，在数据服务业务的同时，追求极致的降本提效目标。

数据现状

为了更好的分析当前大淘宝的数据问题，我们进行了详细的数据分析，首先进行数字化。（整个问题分析有详细的数据支撑，涉及到数据安全，因此只抽象问题，不展示具体数据细节）。

规范性问题

表命名不规范，缺乏管控：随着数据量增长，大淘宝的表出现了大量命名未遵循阿里大数据体系的情况，难以管控。

通用层复用性问题

通用层表复用性不高：通用层表下游引用少于2个的数量非常多；

通用层建设不足或通用层透出不足：cdm引用下降，ads引用上升；

较多的ads表共性逻辑未下沉：出现很多ads表代码重复，字段相似度高的情况；

应用层效率问题

临时表多，影响数据管理：出现了很多TDDL临时表、PAI临时表、机器临时表、压测临时表等；

663通用层表在各团队分布不合理：散布多个团队；

较多的ads表共性逻辑未下沉；

部分ads表层内依赖深度较深：很多ads表在应用层的深度超过10层；

应用层跨集市依赖问题明显：不同集市间ads互相依赖，不仅影响了数据稳定性，而且数据准确性也难以保障；

存在大量的可交接的通用层表：不同团队的通用层数据与大淘宝数据混合在一起；

表人员分配不均衡：表owner管理的表数量分布很不均匀，有些owner名下只有几十张，有些owner名下有几千张；

带你读《2022技术人的百宝黑皮书》——大淘宝技术数据模型治理阶段性分享(2) https://developer.aliyun.com/article/1247085?groupCode=taobaotech

带你读《2022技术人的百宝黑皮书》——大淘宝技术数据模型治理阶段性分享(1)

大淘宝技术

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

带你读《2022技术人的百宝黑皮书》——大淘宝技术数据模型治理阶段性分享(1)

大淘宝技术

热门文章

最新文章

相关课程

相关电子书

相关实验场景