客户案例:大淘系模型建设实践(一)| 学习笔记

简介: 快速学习客户案例:大淘系模型建设实践。

开发者学堂课程【智能数据建模训课程 :客户案例:大淘系模型建设实践(一)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1223/detail/18315


客户案例:大淘系模型建设实践

 

内容介绍:

一、背景及问题

二、问题分析

三、治理方案

四、未来规划

 

本次课程主要分享过去一年淘气数据模型治理方面的事情,包括对产生的问题介绍、问题分析及其应对措施。

 

一、背景及问题

整个淘气项目空间内数据情况如下:78%由机器任务生成;22%由人工创建,但其中真正活跃的只有9%,在人工创建中不符合规范的有21%。再看各分层活跃表的分布情况:整体为倒三角模型, ads : dws : dwd : dim =8:2:1:1,整体分布较合理。最后看其时间周期情况。由于淘气是一个快速变化的业务,因此其整体增长比例为30%,因为变化的模型留存为44%,模型的平均生命周期为25个月。分析整体数据可以看出有两个核心问题:一方面是临时表较多,会影响数仓的体系和数据管理;另一方面是命名不规范,缺乏管控。

图片11.png

接下来分层研究。首先是公共层。公共层有两个核心问题:第一是其复用性不高,可持续性低,大部分的核心是应用层的研发,应用层完成后再构建对应的公共层,因此50%的表直接下游表数<=1,这其中包含无效的和没有依赖的表,大部分属于应用层研发;第二个问题是公共数据在各团队分布不合理。因为淘气的数据团队庞大,各个数据团队会建立相应的工程,虽然有统一的工程,其比例分布不合理。

图片12.png

接下来是应用层,时间周期。应用层引用公共层的比例持续下降,引用内部的比例逐渐上升,以此逻辑分析,可以得出,应用层可以内建公共层复用性的数据表。为了验证以上逻辑分析,取一次数据剖析:应用层下游复用节点很多,达到17.63%,这一部分复用节点很高。最后是横向跨团队协作的问题,可以看出应用层跨集市依赖的比例较高。

图片13.png 

二、问题分析

首先对问题产生的流程进行简单介绍。在互联网研发过程中,接到一个需求后可直接在 ODS 里直出,等到有复用性时才会去做对应的公共层。当有复用性的指标时,才会做 DWS 层。为了快速支持业务会引用应用层,最后产生快捷式依赖。后面公共层被优化的情况下应用层研发的主导性提升,会主动构建 DWD 和 DWS ,规范性和体系性会出现问题。为了快速规避工程需要的要求会在应用层内自建。当然数仓未来要往智能化方式发展,机器产生的脚本会逐渐增加,会有一些导出、自动化报表的任务。还有一些不在规范体系中的脚本和任务。将以上问题汇总,主要的问题如下:1、系统临时报表多,只增不删。这对于研发没有影响,但对于数据地图有90%的表会检索不到,对消费者会有影响;2、命名不规范;3、 CDM 过度设计。为了快速支持业务,同时应用层满足公共层规范的要求,因此会硬性拆分公共层,这没有公共层复用性的要求;4、 ADS 重复建设;5、 ADS 跨集市依赖;6、 ADS 共性未下沉,有的引用没有做下沉;7、 ADS 穿透依赖 ODS ,直接引用 ODS ,因为复用性本身存在。

模型产生问题是不可避免的,在满足效率的情况下会弱化规范性和整体性从而产生问题。

图片14.png

问题可以分为三类:规范性的问题;公共层复用性的问题和应用层效率的问题。规范性有两个问题。阿里在2014年就提出了 onedata 的规范管控问题,但其对应的工具管控能力较弱,未能植入到整个开发流程中。再有新员工入职培训对于 onedata 认知也需要一定周期,因此整个研发周期对于 onedata 也要有一个认知过程。 CDM 过度设计的问题在于公共层和设计层研发分工协作不明确,下层工作效率低,因此有压力的情况下公共层会快速自建。由于公共层研发是为了未来扩展性设计,因此会出现过度设计。再者是重复建设的问题。应用层呈倒三角模型,在体系中表量较多导致复杂性增多。在量多时研发要对全量去重,对人来说是一个巨大挑战,因此其对于已有应用层没有提感。背后的问题是缺少一套应用层集市的架构部分, onedata 在2014年核心提出解决公共层规范性的问题,但这部分规范还是被弱化了的。跨集市依赖的问题是如果被依赖,那么应用层会变成公共层的属性,因此会带有公共层的规范性要求和效率,所以公共层缺少依赖管控。即使有分工沉淀, ADS 和 DWS 也会因为分工协作的问题导致下沉机制不清晰。 ADS 共性未下沉有两个逻辑:一是协作的问题;另外是边界的问题。 ADS 和 DWS 本质都为汇总表,但边界不清晰。 ADS 穿透到 ODS 部分分为研发快速相应业务和核心 ODM 模型未被感知。将以上原因归类,总体可分为四个方面:1、架构规范2、流程机制3、产品工具4、研发能力。

图片15.png

下面分析模型治理遇到的挑战。左边是问题,右边是改进后的。下沉到17节点依赖,把右方节点删除,将不规范的改成规范的。改完之后的流程对外消费的应用层节点没有任何变化,即其带来的业务价值不明显,带来的是长期的数据效率问题。其次是协助过程较复杂,需要 ODS 、 CDM 、 ADS 协作治理,至少在淘系的应用场景中有多团队,这种情况下存在跨团队协作的问题。再次是问题难以根治。将一个节点去除,会有其他人从节点引用。因为模型在互联网中的应用是有生命周期的,因此考虑在模型治理 ROI 较低的情况下,怎样治理更高效。根据以上原因分析制订一个方案。

图片16.png

相关文章
|
存储 安全 数据安全/隐私保护
【计算机网络】第三章 数据链路层(集线器与交换机)
【计算机网络】第三章 数据链路层(集线器与交换机)
|
机器学习/深度学习 存储 NoSQL
Graph RAG: 知识图谱结合 LLM 的检索增强
RAG(Retrieval Argumented Generation)这种基于特定任务/问题的文档检索范式中,我们通常先收集必要的上下文,然后利用具有认知能力的机器学习模型进行上下文学习(in-context learning),来合成任务的答案。这次,我们借助 LLM 的力量,强化下 RAG。
2877 0
Graph RAG: 知识图谱结合 LLM 的检索增强
|
存储 SQL Oracle
Oracle存储过程中如何使用数组(附范例)
Oracle存储过程中如何使用数组(附范例)
|
3月前
|
人工智能 自然语言处理 物联网
MCP+LLM+Agent:企业AI落地的新基建设计
MCP+LLM+Agent构建企业AI黄金三角架构,破解数据孤岛、工具碎片化与决策滞后难题。LLM负责智能决策,Agent实现自动执行,MCP打通数据与工具,助力企业实现从智能思考到业务闭环的跃迁。
|
机器学习/深度学习 自然语言处理 知识图谱
GraphRAG在自然语言处理中的应用:从问答系统到文本生成
【10月更文挑战第28天】作为一名自然语言处理(NLP)和图神经网络(GNN)的研究者,我一直在探索如何将GraphRAG(Graph Retrieval-Augmented Generation)模型应用于各种NLP任务。GraphRAG结合了图检索和序列生成技术,能够有效地处理复杂的语言理解和生成任务。本文将从个人角度出发,探讨GraphRAG在构建问答系统、文本摘要、情感分析和自动文本生成等任务中的具体方法和案例研究。
518 5
|
XML 设计模式 Java
PowerMock的静态方法与私有方法怎么测试?
**PowerMock**是Java单元测试中的增强工具,扩展了Mockito,支持模拟静态方法、构造函数、私有方法和final类,促进更高测试覆盖率。它用于隔离依赖,测试静态方法和私有方法。常见问题包括配置复杂性、过度使用、忽略真实行为模拟和最佳实践。解决方案包括遵循官方文档、谨慎使用、精确模拟和测试后清理。示例展示了如何模拟静态方法,通过添加PowerMock依赖和使用`@RunWith(PowerMockRunner.class)`、`@PrepareForTest`注解,以及`PowerMockito.mockStatic()`进行静态方法模拟。
489 0
|
传感器 机器学习/深度学习 弹性计算
Agent与大模型的区别
本文详细对比了人工智能领域的两个重要概念——Agent和大模型。大模型如GPT-3、BERT等,擅长自然语言处理任务,如文本生成、翻译等;Agent则是自主的软件实体,能够在特定环境中感知、决策并执行任务,如管理日程、控制智能家居等。文章介绍了它们的定义、功能、技术架构及应用场景,并总结了两者的核心差异和未来发展方向。
7128 26
|
存储 算法 大数据
大数据复合分区(Composite Partitioning)
【11月更文挑战第1天】
183 1
|
监控 数据可视化 项目管理
ERP系统中的项目管理与进度跟踪
【7月更文挑战第25天】 ERP系统中的项目管理与进度跟踪
570 2
|
存储 自然语言处理 算法
整合文本和知识图谱嵌入提升RAG的性能
本文介绍了如何结合文本嵌入和知识图谱嵌入来提升RAG(检索式生成模型)的性能。文本嵌入利用Word2Vec、GloVe或BERT等预训练模型捕捉单词的语义和上下文,而知识图谱嵌入则表示实体和关系,以便更好地理解结构化信息。通过结合这两种嵌入,RAG模型能更全面地理解输入文本和知识,从而提高答案检索和生成的准确性。文章通过代码示例展示了如何生成和整合这两种嵌入,强调了它们在增强模型对模糊性和可变性处理能力上的作用。
601 7