带你读《2022技术人的百宝黑皮书》——大淘宝技术数据模型治理阶段性分享(1)

简介: 带你读《2022技术人的百宝黑皮书》——大淘宝技术数据模型治理阶段性分享(1)

作者:剑萧

出品:大淘宝技术


大淘宝技术数据体系经过多年发展,通过丰富的数据和产品支撑了复杂的业务场景,在数据领域取得了非常大的领先优势。随着数据规模越来越大,开发人员越来越多,虽有阿里大数据体系规范进行统一管理,但是由于没有在产品侧进行有效的模型设计和管控,在模型规范性、应用层效率、通用层复用性等方面的问题逐渐凸显。计存成本提升、效率降低、规范减弱、数据使用难度变大、运维负担增加等。为了解决这些问题,我们进行了大淘宝技术模型治理专项,在数据服务业务的同时,追求极致的降本提效目标。


数据现状


为了更好的分析当前大淘宝的数据问题,我们进行了详细的数据分析,首先进行数字化。(整个问题分析有详细的数据支撑,涉及到数据安全,因此只抽象问题,不展示具体数据细节)。


规范性问题


表命名不规范,缺乏管控:随着数据量增长,大淘宝的表出现了大量命名未遵循阿里大数据体系的情况,难以管控。


通用层复用性问题


通用层表复用性不高:通用层表下游引用少于2个的数量非常多;


通用层建设不足或通用层透出不足:cdm引用下降,ads引用上升;


较多的ads表共性逻辑未下沉:出现很多ads表代码重复,字段相似度高的情况;


应用层效率问题


临时表多,影响数据管理:出现了很多TDDL临时表、PAI临时表、机器临时表、压测临时表等;


663通用层表在各团队分布不合理:散布多个团队;


较多的ads表共性逻辑未下沉;


部分ads表层内依赖深度较深:很多ads表在应用层的深度超过10层;


应用层跨集市依赖问题明显:不同集市间ads互相依赖,不仅影响了数据稳定性,而且数据准确性也难以保障;


存在大量的可交接的通用层表:不同团队的通用层数据与大淘宝数据混合在一起;


表人员分配不均衡:表owner管理的表数量分布很不均匀,有些owner名下只有几十张,有些owner名下有几千张;



带你读《2022技术人的百宝黑皮书》——大淘宝技术数据模型治理阶段性分享(2) https://developer.aliyun.com/article/1247085?groupCode=taobaotech

相关文章
|
存储 算法 数据挖掘
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(3)
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(3)
|
存储
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(2)
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(2)
|
存储 算法 UED
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(1)
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(1)
|
算法 UED
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(20)
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(20)
|
存储 算法
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(18)
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(18)
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(4)
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(4)
|
双11
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(5)
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(5)
|
双11
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(11)
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(11)
|
移动开发 weex UED
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(10)
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(10)
|
算法 搜索推荐
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(19)
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(19)