Flink SQL 的数据脱敏解决方案

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: Flink SQL 的数据脱敏解决方案,支持面向用户级别的数据脱敏访问控制,即特定用户只能访问到脱敏后的数据。

Flink SQL 的数据脱敏解决方案,支持面向用户级别的数据脱敏访问控制,即特定用户只能访问到脱敏后的数据。此方案是实时领域Flink的解决思路,类似于离线数仓 Hive 中 Ranger Column Masking 方案。

一、基础知识

1.1 数据脱敏

数据脱敏(Data Masking)是一种数据安全技术,用于保护敏感数据,以防止未经授权的访问。该技术通过将敏感数据替换为虚假数据或不可识别的数据来实现。例如可以使用数据脱敏技术将信用卡号码、社会安全号码等敏感信息替换为随机生成的数字或字母,以保护这些信息的隐私和安全。

1.2 业务流程

下面用订单表orders的两行数据来举例,示例数据如下:

1.2.1 设置脱敏策略

管理员配置用户、表、字段、脱敏条件,例如下面的配置。

Data mask example conditions.png

1.2.2 用户访问数据

当用户在Flink上查询orders表的数据时,会在底层结合该用户的脱敏条件重新生成 SQL,即让数据脱敏生效。
当用户 A 和用户 B 在执行下面相同的 SQL 时,会看到不同的结果数据。

SELECT * FROM orders

用户A查看到的结果数据如下customer_name字段的数据被全部掩盖掉。

Data mask-masked with customer_name after mask.png

用户 B 查看到的结果数据如下customer_name字段的数据只会显示前 4 位,剩下的用 x 代替。

Data mask-masked with customer_name after mask_show_first_4.png

二、Hive 数据脱敏解决方案

在离线数仓工具 Hive 领域,由于发展多年已有 Ranger 来支持字段数据的脱敏控制,详见参考文献【1】
下图是在 Ranger 里配置 Hive 表数据脱敏条件的页面,供参考。

Hive-Ranger data mask.png

但由于 Flink 实时数仓领域发展相对较短,Ranger 还不支持 Flink SQL,以及依赖 Ranger 的话会导致系统部署和运维过重,因此开始自研实时数仓的数据脱敏解决工具。当然本文中的核心思想也适用于 Ranger 中,可以基于此较快开发出 ranger-flink 插件。

三、Flink SQL 数据脱敏解决方案

3.1 解决方案

3.1.1 Flink SQL 执行流程

根据 Flink 1.16 修正和简化后的执行流程如下图所示。
FlinkSQL simple-execution flowchart.png

CalciteParser.parse()处理后会得到一个 SqlNode 类型的抽象语法树,本文会针对此抽象语法树来组装脱敏条件后来生成新的 AST,以实现数据脱敏控制。

3.1.2 Calcite 对象继承关系

下面章节要用到 Calcite 中的 SqlNode、SqlCall、SqlIdentifier、SqlJoin、SqlBasicCall 和 SqlSelect 等类,此处进行简单介绍以及展示它们间继承关系,以便读者阅读本文源码。

序号 介绍
1 SqlNode A SqlNode is a SQL parse tree.
2 SqlCall A SqlCall is a call to an SqlOperator operator.
3 SqlIdentifier A SqlIdentifier is an identifier, possibly compound.
4 SqlJoin Parse tree node representing a JOIN clause.
5 SqlBasicCall Implementation of SqlCall that keeps its operands in an array.
6 SqlSelect A SqlSelect is a node of a parse tree which represents a select statement, the parent class is SqlCall

Calcite SqlNode diagrams.png

3.1.3 解决思路

针对输入的 Flink SQL,在CalciteParser.parse()进行语法解析后生成抽象语法树(Abstract Syntax Tree,简称 AST)后,采用自定义Calcite SqlBasicVisitor的方法遍历AST中的所有SqlSelect,获取到里面的每个输入表。如果输入表中字段有配置脱敏条件,则针对输入表生成子查询语句,并把脱敏字段改写成CAST(脱敏函数(字段名) AS 字段类型) AS 字段名,再通过CalciteParser.parseExpression()把子查询转换成 SqlSelect,并用此 SqlSelect 替换原 AST 中的输入表来生成新的 AST,最后得到新的 SQL 来继续执行。

FlinkSQL data mask solution.png

3.2 详细方案

3.2.1 解析输入表

通过对Flink SQL 语法的分析和研究,最终出现输入表的只包含以下两种情况:

  1. SELECT 语句的 FROM 子句,如果是子查询,则递归继续遍历。
  2. SELECT ... JOIN 语句的 Left 和 Right 子句,如果是多表 JOIN,则递归查询遍历。

因此,下面的主要步骤会根据 FROM 子句的类型来寻找输入表。

3.2.2 主要步骤

主要通过 Calcite 提供的访问者模式自定义 DataMaskVisitor 来实现,遍历 AST 中所有的 SqlSelect 对象用子查询替换里面的输入表。

下面详细描述替换输入表的步骤,整体流程如下图所示。

Data mask-rewrite the main process.png

  1. 遍历 AST 中 SELECT 语句。
  2. 判断是否自定义的 SELECT 语句(由下面步骤 10 生成),是则跳转到步骤 11,否则继续步骤 3。
  3. 判断 SELECT 语句中的 FROM 类型,按照不同类型对应执行下面的步骤 4、5、6 和 11。
  4. 如果 FROM 是 SqlJoin 类型,则分别遍历其左 Left 和 Right 右节点,即执行当前步骤 4 和步骤 7。由于可能是三张表及以上的 Join,因此进行递归处理,即针对其左 Left 节点跳回到步骤 3。
  5. 如果 FROM 是 SqlIdentifier 类型,则表示是表。但是输入 SQL 中没有定义表的别名,则用表名作为别名。跳转到步骤 8。
  6. 如果 FROM 是 SqlBasicCall 类型,则表示带别名。但需要判断是否来自子查询,是则跳转到步骤 11 继续遍历AST,后续步骤 1 会对子查询中的 SELECT 语句进行处理。否则跳转到步骤 8。
  7. 递归处理 Join 的右节点,即跳回到步骤3。
  8. 遍历表中的每个字段,如果某个字段有定义脱敏条件,则把改字段改写成格式CAST(脱敏函数(字段名) AS 字段类型) AS 字段名,否则用原字段名。
  9. 针对步骤 8 处理后的字段,构建子查询语句,形如 (SELECT 字段名1, 字段名2, CAST(脱敏函数(字段名3) AS 字段类型) AS 字段名3、字段名4 FROM 表名) AS 表别名
  10. 对步骤 9 的子查询调用CalciteParser.parseExpression()进行解析,生成自定义 SELECT 语句,并替换掉原 FROM。
  11. 继续遍历 AST,找到里面的 SELECT 语句进行处理,跳回到步骤 1。

3.2.3 Hive及Ranger兼容性

在 Ranger 中,默认的脱敏策略的如下所示。通过调研发现 Ranger 的大部分脱敏策略是通过调用 Hive 自带或自定义的系统函数实现的。

序号 策略名 策略说明 Hive系统函数
1 Redact 用x屏蔽字母字符,用n屏蔽数字字符 mask
2 Partial mask: show last 4 仅显示最后四个字符,其他用x代替 mask_show_last_n
3 Partial mask: show first 4 仅显示前四个字符,其他用x代替 mask_show_first_n
4 Hash 用值的哈希值替换原值 mask_hash
5 Nullify 用NULL值替换原值 Ranger自身实现
6 Unmasked 原样显示 Ranger自身实现
7 Date: show only year 仅显示日期字符串的年份 mask
8 Custom Hive UDF来自定义策略

由于 Flink 支持 Hive Catalog,在 Flink 能调用 Hive 系统函数。 因此,本方案也支持在 Flink SQL 配置 Ranger 的脱敏策略。

四、用例测试

用例测试数据来自于 CDC Connectors for Apache Flink【4】官网,本文给orders表增加一个 region 字段,同时增加'connector'='print'类型的 print_sink 表,其字段和orders表的一样。

下载源码后,可通过 Maven 运行单元测试。

$ cd flink-sql-security
$ mvn test

详细测试用例可查看源码中的单测RewriteDataMaskTestExecuteDataMaskTest,下面只描述两个案例。

4.1 测试 SELECT

4.1.1 输入 SQL

用户 A 执行下述 SQL:

SELECT order_id, customer_name, product_id, region FROM orders

4.1.2 根据脱敏条件重新生成SQL

  1. 输入 SQL 是一个简单 SELECT 语句,其 FROM 类型是SqlIdentifier,由于没有定义别名,用表名orders作为别名。
  2. 由于用户A针对字段customer_name定义脱敏条件 MASK(对应函数是脱敏函数是mask),该字段在流程图中的步骤 8 中被改写为CAST(mask(customer_name) AS STRING) AS customer_name,其余字段未定义脱敏条件则保持不变。
  3. 然后在步骤 9 的操作中,表名orders被改写成如下子查询,子查询两侧用括号()进行包裹,并且用 AS 别名来增加表别名。
(SELECT
     order_id,
     order_date,
     CAST(mask(customer_name) AS STRING) AS customer_name,
     product_id,
     price,
     order_status,
     region
FROM 
    orders
) AS orders

4.1.3 输出 SQL 和运行结果

最终执行的改写后SQL如下所示,这样用户A查询到的顾客姓名customer_name字段都是掩盖后的数据。

SELECT
    order_id,
    customer_name,
    product_id,
    region
FROM (
    SELECT 
         order_id,
         order_date,
         CAST(mask(customer_name) AS STRING) AS customer_name,
         product_id,
         price,
         order_status,
         region
    FROM 
         orders
     ) AS orders

4.2 测试 INSERT-SELECT

4.2.1 输入 SQL

用户 A 执行下述 SQL:

INSERT INTO print_sink SELECT * FROM orders

4.2.2 根据脱敏条件重新生成 SQL

通过自定义 Calcite DataMaskVisitor 访问生成的 AST,能找到对应的 SELECT 语句是SELECT order_id, customer_name, product_id, region FROM orders

针对此 SELECT 语句的改写逻辑同上,不再阐述。

4.2.3 输出 SQL 和运行结果

最终执行的改写后 SQL 如下所示,注意插入到print_sink表的customer_name字段是掩盖后的数据。

INSERT INTO print_sink (
    SELECT 
        * 
    FROM (
        SELECT 
            order_id, 
            order_date, 
            CAST(mask(customer_name) AS STRING) AS customer_name, 
            product_id, 
            price, 
            order_status, 
            region 
        FROM 
            orders
    ) AS orders
)

五、参考文献

  1. Apache Ranger Column Masking in Hive
  2. FlinkSQL字段血缘解决方案及源码
  3. 从SQL语句中解析出源表和结果表
  4. HiveQL—数据脱敏函数

查看更多技术内容


更多内容

img


活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
0 元试用 实时计算 Flink 版(5000CU*小时,3 个月内)
了解活动详情:https://free.aliyun.com/?pipCode=sc

image.png

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
1天前
|
SQL 安全 数据处理
揭秘数据脱敏神器:Flink SQL的神秘力量,守护你的数据宝藏!
【9月更文挑战第7天】在大数据时代,数据管理和处理尤为重要,尤其在保障数据安全与隐私方面。本文探讨如何利用Flink SQL实现数据脱敏,为实时数据处理提供有效的隐私保护方案。数据脱敏涉及在处理、存储或传输前对敏感数据进行加密、遮蔽或替换,以遵守数据保护法规(如GDPR)。Flink SQL通过内置函数和表达式支持这一过程。
9 2
|
1天前
|
SQL 大数据 数据处理
奇迹降临!解锁 Flink SQL 简单高效的终极秘籍,开启数据处理的传奇之旅!
【9月更文挑战第7天】在大数据处理领域,Flink SQL 因其强大功能与简洁语法成为开发者首选。本文分享了编写高效 Flink SQL 的实用技巧:理解数据特征及业务需求;灵活运用窗口函数(如 TUMBLE 和 HOP);优化连接操作,优先采用等值连接;合理选择数据类型以减少计算资源消耗。结合实际案例(如实时电商数据分析),并通过定期性能测试与调优,助力开发者在大数据处理中更得心应手,挖掘更多价值信息。
7 1
|
7天前
|
Java 网络架构 数据格式
Struts 2 携手 RESTful:颠覆传统,重塑Web服务新纪元的史诗级组合!
【8月更文挑战第31天】《Struts 2 与 RESTful 设计:构建现代 Web 服务》介绍如何结合 Struts 2 框架与 RESTful 设计理念,构建高效、可扩展的 Web 服务。Struts 2 的 REST 插件提供简洁的 API 和约定,使开发者能快速创建符合 REST 规范的服务接口。通过在 `struts.xml` 中配置 `<rest>` 命名空间并使用注解如 `@Action`、`@GET` 等,可轻松定义服务路径及 HTTP 方法。
22 0
|
7天前
|
测试技术 Java
全面保障Struts 2应用质量:掌握单元测试与集成测试的关键策略
【8月更文挑战第31天】Struts 2 的测试策略结合了单元测试与集成测试。单元测试聚焦于单个组件(如 Action 类)的功能验证,常用 Mockito 模拟依赖项;集成测试则关注组件间的交互,利用 Cactus 等框架确保框架拦截器和 Action 映射等按预期工作。通过确保高测试覆盖率并定期更新测试用例,可以提升应用的整体稳定性和质量。
16 0
|
7天前
|
数据库 Java 监控
Struts 2 日志管理化身神秘魔法师,洞察应用运行乾坤,演绎奇幻篇章!
【8月更文挑战第31天】在软件开发中,了解应用运行状况至关重要。日志管理作为 Struts 2 应用的关键组件,记录着每个动作和决策,如同监控摄像头,帮助我们迅速定位问题、分析性能和使用情况,为优化提供依据。Struts 2 支持多种日志框架(如 Log4j、Logback),便于配置日志级别、格式和输出位置。通过在 Action 类中添加日志记录,我们能在开发过程中获取详细信息,及时发现并解决问题。合理配置日志不仅有助于调试,还能分析用户行为,提升应用性能和稳定性。
19 0
|
7天前
|
Java 测试技术 容器
从零到英雄:Struts 2 最佳实践——你的Web应用开发超级变身指南!
【8月更文挑战第31天】《Struts 2 最佳实践:从设计到部署的全流程指南》深入介绍如何利用 Struts 2 框架从项目设计到部署的全流程。从初始化配置到采用 MVC 设计模式,再到性能优化与测试,本书详细讲解了如何构建高效、稳定的 Web 应用。通过最佳实践和代码示例,帮助读者掌握 Struts 2 的核心功能,并确保应用的安全性和可维护性。无论是在项目初期还是后期运维,本书都是不可或缺的参考指南。
15 0
|
2月前
|
SQL 存储 监控
SQL Server的并行实施如何优化?
【7月更文挑战第23天】SQL Server的并行实施如何优化?
52 13
|
2月前
|
SQL
解锁 SQL Server 2022的时间序列数据功能
【7月更文挑战第14天】要解锁SQL Server 2022的时间序列数据功能,可使用`generate_series`函数生成整数序列,例如:`SELECT value FROM generate_series(1, 10)。此外,`date_bucket`函数能按指定间隔(如周)对日期时间值分组,这些工具结合窗口函数和其他时间日期函数,能高效处理和分析时间序列数据。更多信息请参考官方文档和技术资料。
|
2月前
|
SQL 存储 网络安全
关系数据库SQLserver 安装 SQL Server
【7月更文挑战第26天】
43 6

热门文章

最新文章

相关产品

  • 实时计算 Flink版
  • 下一篇
    DDNS