带你读《2022技术人的百宝黑皮书》——大淘宝技术数据模型治理阶段性分享(2)

简介: 带你读《2022技术人的百宝黑皮书》——大淘宝技术数据模型治理阶段性分享(2)

带你读《2022技术人的百宝黑皮书》——大淘宝技术数据模型治理阶段性分享(1) https://developer.aliyun.com/article/1247087?groupCode=taobaotech



问题分析


通过对当前数据问题的数字化,我们发现问题涉及到数据的评、建、管、用各个环节。


:缺乏一套统一数据评估体系。数据问题的发现以往主要通过专家经验、开发使用环节发现和离散型的数据分析得到,缺乏一套统一的数字化评估体系。数据量有多少?不同层次的数据分布如何?表的命名规范性如何?表的复用性如何?表的加工效率和消费效率如何?如何评价数据建设、使用和维护的好不好?好的数据应该通过哪些指标评估出来?


:基于数据问题分析我们发现:在统一进行通用层构建和治理的时间段,数据在规范性、复用性、链路复杂度、使用效率等方面表现较好,但是在没有进行统一构建和治理的时间,数据在各方面都表现不好。原因在于:我们有一套阿里大数据体系规范,但是我们并没有一套覆盖设计、评审、开发、管控、治理的建模开发产品。


:数据构建完成后后,并没有有效的对数据进行成本、复用性、效率、健康情况的管理,通常依赖于集中治理、专项治理或推送治理。成本高、迭代慢。同时还存在表管理分布不均的问题,有些owner承担了大量的管理和运维工作,数据交接后难以维护,导致数据使用难度高。


:数据最终是为了使用,通过数据分析和调研问卷来看,普遍存在以下问题:找数难、不会用、不敢用等问题。就导致除了一些非常核心的模型数据外,很多开发者宁愿重新开发也不愿去花费很大精力去找数和理解数据,造成恶性循环。


解决方案


针对对问题的分析,我们确定了以下目标:


1. 模型数字化:构建一套通用的大淘宝模型评估体系,能够清晰的从多个维度评估当前数据的健康情况,针对问题数据提供改进建议。


2. 提效公共模型下沉:定义清晰通用层数据下沉标准,能够清晰的界定哪些数据应该沉淀到通用层,对于需要沉淀的数据要及时进行沉淀。


3. 产品化:通过共建开发一套覆盖设计、评审、开发、管控、治理的建模开发产品。日常治理:日常监控模型健康情况,并进行治理优化。


4. 找数提效:通过共建提高数据检索效率,提高推荐准确度,将核心数据在数据专辑展示。


为了实现以上目标,我们进行了模型治理整体设计:


image.png



带你读《2022技术人的百宝黑皮书》——大淘宝技术数据模型治理阶段性分享(3) https://developer.aliyun.com/article/1247083?groupCode=taobaotech

相关文章
|
存储 算法 数据挖掘
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(3)
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(3)
|
双11
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(8)
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(8)
|
存储 算法 UED
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(1)
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(1)
|
测试技术 双11 UED
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(16)
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(16)
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(4)
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(4)
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(13)
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(13)
103 0
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(17)
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(17)
|
存储 算法
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(18)
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(18)
|
算法 UED
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(20)
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(20)
|
双11
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(11)
带你读《2022技术人的百宝黑皮书》——淘宝购物车5年技术升级与沉淀(11)