作者:剑萧
出品:大淘宝技术
大淘宝技术数据体系经过多年发展,通过丰富的数据和产品支撑了复杂的业务场景,在数据领域取得了非常大的领先优势。随着数据规模越来越大,开发人员越来越多,虽有阿里大数据体系规范进行统一管理,但是由于没有在产品侧进行有效的模型设计和管控,在模型规范性、应用层效率、通用层复用性等方面的问题逐渐凸显。计存成本提升、效率降低、规范减弱、数据使用难度变大、运维负担增加等。为了解决这些问题,我们进行了大淘宝技术模型治理专项,在数据服务业务的同时,追求极致的降本提效目标。
数据现状
为了更好的分析当前大淘宝的数据问题,我们进行了详细的数据分析,首先进行数字化。(整个问题分析有详细的数据支撑,涉及到数据安全,因此只抽象问题,不展示具体数据细节)。
规范性问题
表命名不规范,缺乏管控:随着数据量增长,大淘宝的表出现了大量命名未遵循阿里大数据体系的情况,难以管控。
通用层复用性问题
通用层表复用性不高:通用层表下游引用少于2个的数量非常多;
通用层建设不足或通用层透出不足:cdm引用下降,ads引用上升;
较多的ads表共性逻辑未下沉:出现很多ads表代码重复,字段相似度高的情况;
应用层效率问题
临时表多,影响数据管理:出现了很多TDDL临时表、PAI临时表、机器临时表、压测临时表等;
663通用层表在各团队分布不合理:散布多个团队;
较多的ads表共性逻辑未下沉;
部分ads表层内依赖深度较深:很多ads表在应用层的深度超过10层;
应用层跨集市依赖问题明显:不同集市间ads互相依赖,不仅影响了数据稳定性,而且数据准确性也难以保障;
存在大量的可交接的通用层表:不同团队的通用层数据与大淘宝数据混合在一起;
表人员分配不均衡:表owner管理的表数量分布很不均匀,有些owner名下只有几十张,有些owner名下有几千张;
带你读《2022技术人的百宝黑皮书》——大淘宝技术数据模型治理阶段性分享(2) https://developer.aliyun.com/article/1247085?groupCode=taobaotech