带你读《2022技术人的百宝黑皮书》——大淘宝技术数据模型治理阶段性分享(1) https://developer.aliyun.com/article/1247087?groupCode=taobaotech
问题分析
通过对当前数据问题的数字化,我们发现问题涉及到数据的评、建、管、用各个环节。
评:缺乏一套统一数据评估体系。数据问题的发现以往主要通过专家经验、开发使用环节发现和离散型的数据分析得到,缺乏一套统一的数字化评估体系。数据量有多少?不同层次的数据分布如何?表的命名规范性如何?表的复用性如何?表的加工效率和消费效率如何?如何评价数据建设、使用和维护的好不好?好的数据应该通过哪些指标评估出来?
建:基于数据问题分析我们发现:在统一进行通用层构建和治理的时间段,数据在规范性、复用性、链路复杂度、使用效率等方面表现较好,但是在没有进行统一构建和治理的时间,数据在各方面都表现不好。原因在于:我们有一套阿里大数据体系规范,但是我们并没有一套覆盖设计、评审、开发、管控、治理的建模开发产品。
管:数据构建完成后后,并没有有效的对数据进行成本、复用性、效率、健康情况的管理,通常依赖于集中治理、专项治理或推送治理。成本高、迭代慢。同时还存在表管理分布不均的问题,有些owner承担了大量的管理和运维工作,数据交接后难以维护,导致数据使用难度高。
用:数据最终是为了使用,通过数据分析和调研问卷来看,普遍存在以下问题:找数难、不会用、不敢用等问题。就导致除了一些非常核心的模型数据外,很多开发者宁愿重新开发也不愿去花费很大精力去找数和理解数据,造成恶性循环。
解决方案
针对对问题的分析,我们确定了以下目标:
1. 模型数字化:构建一套通用的大淘宝模型评估体系,能够清晰的从多个维度评估当前数据的健康情况,针对问题数据提供改进建议。
2. 提效公共模型下沉:定义清晰通用层数据下沉标准,能够清晰的界定哪些数据应该沉淀到通用层,对于需要沉淀的数据要及时进行沉淀。
3. 产品化:通过共建开发一套覆盖设计、评审、开发、管控、治理的建模开发产品。日常治理:日常监控模型健康情况,并进行治理优化。
4. 找数提效:通过共建提高数据检索效率,提高推荐准确度,将核心数据在数据专辑展示。
为了实现以上目标,我们进行了模型治理整体设计:
带你读《2022技术人的百宝黑皮书》——大淘宝技术数据模型治理阶段性分享(3) https://developer.aliyun.com/article/1247083?groupCode=taobaotech