用得好的数据才是资产,当数据资产遇上知识图谱(2)

本文涉及的产品
云解析DNS-重点域名监控,免费拨测 20万次(价值200元)
简介: 用得好的数据才是资产,当数据资产遇上知识图谱

3.3 任务编排E-R能力

同样的,通过DMS的任务编排进功能行一个常见的ETL任务的开发,创建一个huiyuan_df(简称df表),使用任务编排功能每天0点定时清理df的表,并从t2表抽取数据写入到df表。

image.png

通过上述操作模拟了一个数据ETL任务开发的场景,并使用任务编排的调度血缘来构建资产图谱。待数据资产图谱构建完成后,回到DMS上查看对应的增强E-R图,可以看到,除了传统的物理外键,列算子血缘关系外,任务编排的调度血缘的关系也体现到了增强E-R图中。

image.png


3.4 智能探查E-R能力

智能探查(SchemaMatching)是DMS自研的数据识别算法引擎,该引擎可在已有的数据资产中识别元数据和内容数据并自动挖掘数据内潜在的关联关系,并将挖掘到的关系将用于构建增强E-R图。

比如可以发现t1表的user_name和t2表的user_name从元数据和数据内容识别上来看都是用户的会员名,接下来我们将ShcemaMatching引擎挖掘后的结果进行关联。待数据资产图谱构建完成后,回到DMS上查看对应的增强E-R图,可以看到,除了传统的物理外键,列算子血缘关系,调度血缘关系外,通过智能探查的关系也体现到了增强E-R图中。

image.png

小彩蛋

细心的读者可以看到DMS增强E-R图中表的右上角有一些小图标,标识了该数据资产在DMS数据资产图谱中的使用情况。增强E-R还隐藏了更多的图标和功能待您继续发掘。


04 DMS增强E-R的技术能力

DMS的增强E-R与传统E-R的构建方案不同,除了具有传统外键展示能力,在DMS一站式多云多源数据纳管,统一Catalog采集,列算子血缘解析和数据资产图谱构建等能力支持下,可以帮助您挖掘出数据资产之间更多潜在的关联关系。


4.1 多云多源的数据纳管能力

在数据源纳管能力上DMS一直主打的是"多云多源"的能力,除了纳管在阿里云下TP/AP/NOSQL/大数据/文件日志等数据源形态,也支持用户在他云/自建下的各种主流数据源。可以很好的解决企业数据孤岛,一站式安全和稳定地管理企业的所有的数据资产。

image.png


4.2 统一Catalog采集能力

DMS自研的统一元数据采集系统已经稳定的支持了阿里集团内部10多年的元数据采集工作,并作为集团内统一的元数据标准为集团的数据管理和治理等业务提供数据支撑和服务,可以快速稳定地对“多云多源”的元数据进行采集,并将各种数据源的实例/库/表/列进行统一的构建和管理。

image.png


4.3 列算子血缘解析能力

列算子血缘解析器是DMS自研的集多引擎SQL解析,元数据自动获取,字段血缘解析,字段加工算子解析于一体的解析器,具有解析字段关联字段,字段依赖字段,字段影响字段,表关联表,表依赖表,表影响表,字段影响表,表影响字段等能力。基于它可以对用户全量SQL中的数据加工逻辑进行快速的解构并给出结构化的解析结果以及直观的可视化视图。

image.png

image.png


4.4 数据资产知识图谱能力

DMS基于元数据自动挖掘和阿里云Tair for Graph的能力构建了百亿级别的节点和关系的数据资产知识图谱,并结合多种数据资产业务应用场景,提供对应的查询和服务能力,比如,通过查看敏感数据的传递方式,可以避免敏感信息二次加工后泄露;通过查看数据之间的依赖关系,可尽早发现数据变更的风险;通过查看数据之间的关联关系,可辅助构建数仓宽表;通过查看数据之间的加工关系,可查看数据的加工链路;通过查看数据之间的引用关系,可识别数据库中的冷、热资产。

image.png

image.png

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
目录
相关文章
|
SQL 存储 关系型数据库
一文搞懂SQL优化——如何高效添加数据
**SQL优化关键点:** 1. **批量插入**提高效率,一次性建议不超过500条。 2. **手动事务**减少开销,多条插入语句用一个事务。 3. **主键顺序插入**避免页分裂,提升性能。 4. **使用`LOAD DATA INFILE`**大批量导入快速。 5. **避免主键乱序**,减少不必要的磁盘操作。 6. **选择合适主键类型**,避免UUID或长主键导致的性能问题。 7. **避免主键修改**,保持索引稳定。 这些技巧能优化数据库操作,提升系统性能。
1080 4
一文搞懂SQL优化——如何高效添加数据
|
SQL 存储 数据采集
【技术分享】元数据与数据血缘实现思路
【技术分享】元数据与数据血缘实现思路
6711 0
|
8月前
|
存储 人工智能 项目管理
2025年GitHub平台上的十大开源MCP服务器汇总分析
本文深入解析了GitHub上十个代表性MCP(Model Context Protocol)服务器项目,探讨其在连接AI与现实世界中的关键作用。这些服务器实现了AI模型与应用程序、数据库、云存储、项目管理等工具的无缝交互,扩展了AI的应用边界。文中涵盖Airbnb、Supabase、AWS-S3、Kubernetes等领域的MCP实现方案,展示了AI在旅行规划、数据处理、云存储、容器编排等场景中的深度应用。未来,MCP技术将向标准化、安全性及行业定制化方向发展,为AI系统集成提供更强大的支持。
1718 2
2025年GitHub平台上的十大开源MCP服务器汇总分析
|
JSON 前端开发 开发工具
初探在WSL中设置vim前端开发环境
初探在WSL中设置vim前端开发环境
|
存储 程序员 编译器
C/C++堆栈详细分析,新老程序员必会
C/C++堆栈详细分析,新老程序员必会
538 1
|
12月前
|
人工智能 分布式计算 监控
云应用开发平台CAP综合评测:优势与提升空间并存
随着云计算技术的发展,阿里云的云应用开发平台CAP成为开发者构建高效应用的重要工具。本文从CAP快速部署项目体验、空白项目创建体验及与同类产品对比三方面,深入分析其在云应用开发领域的表现,展示了CAP在模板选择、性能测试、二次开发等方面的优点与不足,提出了改进建议,旨在帮助开发者更好地利用CAP进行开发。
|
资源调度 Apache 容器
Vue3使用echarts树图(tree)
本文介绍了如何在 Vue2 项目中使用 Echarts 实现树图(tree)功能。通过按需引入 Echarts 组件和相关依赖,文章详细展示了如何创建一个可自定义配置的树图组件 `TreeChart.vue`,包括树图数据源、容器尺寸、主题色等属性。此外,还提供了在线预览效果及代码示例,帮助读者快速实现树图功能。适用于需要展示层次结构数据的场景。
1639 1
Vue3使用echarts树图(tree)
|
SQL 数据采集 数据可视化