【开源项目推荐】通用SQL数据血缘分析工具—

【开源项目推荐】通用SQL数据血缘分析工具——Sqllineage

2024-01-22 637 发布于广东

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

全局流量管理 GTM，标准版 1个月

公共DNS（含HTTPDNS解析），每月1000万次HTTP解析

云解析 DNS，旗舰版 1个月

简介： 【开源项目推荐】通用SQL数据血缘分析工具——Sqllineage

大家好，我是独孤风，从本周开始，争取每周为大家带来一个优秀的开源项目推荐。

开源项目不仅促进了技术的发展和普及，还为全球范围内的开发者和用户社区建立了一个共享知识、协作和创新的平台。站在巨人的肩膀上才能看的更远，我们平时也应该多多关注开源项目，不仅学习其丰富的知识，也要找机会为开源事业做出自己的贡献。

话不多说，今天为大家推荐的开源项目名为SQLLineage。

SQLLineage 是一个使用 Python 开发的 SQL 血缘分析工具。它专注于提供 SQL 查询的血缘关系和依赖关系的深入分析。

Github首页地址为：https://github.com/reata/sqllineage

目前标星891，最新版本是v1.4.8，主要开发语言为Python 。

一、概述

简单来说SQLLineage 是一SQL血缘分析工具，而由于SQL在数据分析中的通用性，SQLLineage 是一数据血缘分析工具。

数据血缘（Data Lineage），也有翻译为数据沿袭，都数据血缘（Data Lineage）是指追踪数据从其源头到目的地的路径，包括它在整个数据生命周期中的流动、转换和使用情况。数据血缘的核心目的是提供对数据流动和变化的完整可视化，从而帮助组织理解数据的来源、经过的处理步骤以及最终如何被利用。

数据血缘是元数据管理的重要组成部分，通过收集获取元数据可以分析生成数据血缘，这样可以增加数据透明度，便于审计和合规，也就是说数据血缘在数据安全，数据管理领域意义重大。

而SQLLineage可以通过多SQL的分析来快速的了解血缘的来龙去脉，所以说是一个数据血缘的分析神器。

我们假设有这样的一个SQL。

通过SQLLineage可以快速的分析出表级别的血缘。

也可以分析出列级别的血缘。

这样的话，数据的前后关系就一目了然了。

同时SQLLineage还支持多种SQL语法的解析器，这不管是我们直接拿来用，还是分析其代码都非常的有帮助。

二、主要特性

SQLLineage 还提供了如下的丰富的功能支持。

简化 SQL 解析: SQLLineage 提供了一个简单易用的接口来理解 SQL 查询的源和目标表，无需担心复杂的 SQL 解析过程。

高效的解析库: 使用 sqlfluff 和 sqlparse 等库来解析 SQL 命令，分析 AST，并使用 networkx 图形库存储血缘信息。

易于安装和使用: 可以通过 PyPI 快速安装，并通过简单的命令行操作来解析 SQL 查询。

一些更高级的用法：

处理多个 SQL 语句: 可以分析包含多个 SQL 语句的查询，识别中间表。
详细血缘结果: 提供详细的血缘分析结果，每个 SQL 语句的血缘信息都可以显示出来。
方言意识: 支持不同的 SQL 方言，以适应不同的关键词和语法。
列级血缘: 支持列级血缘分析，展示所有列的血缘路径。
血缘可视化: 支持血缘结果的图形可视化，可以在浏览器中查看表级和列级血缘的有向无环图（DAG）表示。

三、安装部署与使用

SQLLineage 由Python开发而成，所以可以非常方便的使用Python相关组件进行安装。

安裝

可以直接使用pip安装

pip install sqllineage

也可以通过github来安装

pip install git+https://github.com/reata/sqllineage.git

分析

有两种方式，去解析sql。可以用-e直接分析一个sql语句，这里分析出了源表和目标表:

$ sqllineage -e "insert into db1.table1 select * from db2.table2"
Statements(#): 1
Source Tables:
    db2.table2
Target Tables:
    db1.table1

也可以用-f来直接分析一个sql文件:

$ sqllineage -f foo.sql
Statements(#): 1
Source Tables:
    db1.table_foo
    db1.table_bar
Target Tables:
    db2.table_baz

对于连续的两个sql也可以进行分析:

$ sqllineage -e "insert into db1.table1 select * from db2.table2; insert into db3.table3 select * from db1.table1;"
Statements(#): 2
Source Tables:
    db2.table2
Target Tables:
    db3.table3
Intermediate Tables:
    db1.table1

可以用-v指令来看每一个sql的执行结果。

$ sqllineage -v -e "insert into db1.table1 select * from db2.table2; insert into db3.table3 select * from db1.table1;"
Statement #1: insert into db1.table1 select * from db2.table2;
    table read: [Table: db2.table2]
    table write: [Table: db1.table1]
    table cte: []
    table rename: []
    table drop: []
Statement #2: insert into db3.table3 select * from db1.table1;
    table read: [Table: db1.table1]
    table write: [Table: db3.table3]
    table cte: []
    table rename: []
    table drop: []
==========
Summary:
Statements(#): 2
Source Tables:
    db2.table2
Target Tables:
    db3.table3
Intermediate Tables:
    db1.table1

指定分析器

下面的例子，可以使用 --dialect=postgres关键字来指定要使用的分析引擎:

$ sqllineage -e "insert into analyze select * from foo;"
Statements(#): 1
Source Tables:
    <default>.foo
Target Tables:
$ sqllineage -e "insert into analyze select * from foo;" --dialect=ansi
Statements(#): 1
Source Tables:
    <default>.foo
Target Tables:
    <default>.analyze
$ sqllineage -e "insert into analyze select * from foo;" --dialect=postgres
...
sqllineage.exceptions.InvalidSyntaxException: This SQL statement is unparsable, please check potential syntax error for SQL

提示：用这个命令sqllineage --dialects 看看都有哪些分析器。

列级血缘

可以分析列级血缘，比如下面的sql。

INSERT OVERWRITE TABLE foo
SELECT a.col1,
       b.col1     AS col2,
       c.col3_sum AS col3,
       col4,
       d.*
FROM bar a
         JOIN baz b
              ON a.id = b.bar_id
         LEFT JOIN (SELECT bar_id, sum(col3) AS col3_sum
                    FROM qux
                    GROUP BY bar_id) c
                   ON a.id = sq.bar_id
         CROSS JOIN quux d;
INSERT OVERWRITE TABLE corge
SELECT a.col1,
       a.col2 + b.col2 AS col2
FROM foo a
         LEFT JOIN grault b
              ON a.col1 = b.col1;

可以使用-l关键字来进行列级血缘分析

$ sqllineage -f foo.sql -l column
<default>.corge.col1 <- <default>.foo.col1 <- <default>.bar.col1
<default>.corge.col2 <- <default>.foo.col2 <- <default>.baz.col1
<default>.corge.col2 <- <default>.grault.col2
<default>.foo.* <- <default>.quux.*
<default>.foo.col3 <- c.col3_sum <- <default>.qux.col3
<default>.foo.col4 <- col4

可视化

最后可以用下面的指令来启动一个web浏览器，进行血缘展示。

sqllineage -g -f foo.sql

赶紧体验一下吧~

【开源项目推荐】通用SQL数据血缘分析工具——Sqllineage

一、概述

二、主要特性

三、安装部署与使用

安裝

分析

指定分析器

列级血缘

可视化

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【开源项目推荐】通用SQL数据血缘分析工具——Sqllineage

一、概述

二、主要特性

三、安装部署与使用

安裝

分析

指定分析器

列级血缘

可视化

热门文章

最新文章

相关课程

相关电子书

相关实验场景