8.DataWorks 数据安全介绍及实践(二)|学习笔记

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
DataWorks Serverless资源组免费试用套餐,300CU*H 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习8.DataWorks 数据安全介绍及实践

开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:8.DataWorks 数据安全介绍及实践】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1234


8.DataWorks 数据安全介绍及实践(二)

三、数据保护伞最佳实践

1、数据保护伞-安全、智能、合规

基于数据保护法,如何能够构建企业数据安全的最佳实践?数据保护伞要回答的是4个问题。这四个问题是从事前、事中、事后3个方面进行的。

(1)首先事前,数据发现,要回答的问题是企业到底有哪些敏感数据,而这些敏感数据又分布在哪里?那这里采用的技术就是它对应的产品功能模块是属于数据保护模块分类分级功能。

(2)第二个问题是在事中数据使用过程中的数据保护,需要回答的问题是隐私数据是如何保护的?如何做到数据可用不可见?这里采用的技术是数据保护伞的数据脱敏技术。

(3)对于事后,第一个是监控和审计,要回答的问题是谁在用什么方式使用数据,这是第一层。第二层这些使用有哪些是有风险的数据操作,事后还有另外一个方面就是数据源泄露以后,怎么找到泄露的原因,就是谁泄露的数据?它所采用的技术就是数据保护伞,功能中的数据水印功能。

2、数据保护伞-智能、自动分类分级

首先第一个是事前的自动的分类分级功能,功能就是数据保护伞的核心优势在哪里?提供比较丰富的识别规则的配置方式,首先内置50种个人敏感信息的识别模型,都是常见的,比如手机号身份证号、银行卡号,这种都是比较常见的,就可以直接引用就好,不用再自己配置规则或者是写正则。除此之外,可能还有自定义的识别的功能,比如可以自己定义正则表达式,可以自己定义枚举的类型,另一方面还可以自己训练识别模型,第三点可以自己定义元数据识别,就是有一些类型,它的内容特征不是很明显,像工资信息这种就是数字,它没有内容特征怎么办?在建表有比较特殊的命名规范,或者手里有列表,这时就可以定义指定哪个project的哪个表的哪一列,就是这种类型的敏感数据,这个就叫自定义元数据识别。第四点就是在定义这些之外,可以根据定义的这些规则做一定的血缘扩散,就新建一张表可能并没有匹配到之前的这些敏感数据规则,但是它的源表命中了其中某一种的敏感数据类型,也可以扩散到新建的表中,这是数据保护伞核心的竞争力。在此基础上,再做的分级透明水印等等的,并且可以将这些统计的结果展示在属于保护伞的页面上。

3、数据保护伞-数据脱敏

数据使用过程中的数据安全保护,也就是需要做到数据的可用不可见。数据通信功能非脱敏功能依赖的还是在的引擎层,就是包括maxcompute,emr,holo其他的引擎,这些数据它的访问是汇集在大数据平台,也就是dataworks,不管是在数据开发,数据查询迁移,数据下载,各个场景用户都可以在数据保护伞页面进行灵活的配置,可以配置需要对哪一种类型的敏感数据进行什么样的脱密,也可以对什么场景进行脱敏。根据常见的使用场景,数据保护伞主要是提供遮盖,hash,假名三种脱敏方式,遮盖主要用在BI场景下,就是分析数据,查看这一列是什么数据,这种情况就可以把它信息都遮盖掉。但是对于这种etl场景,也就是需要发布生产任务,需要能把这几个列给抓起来,不需要知道数据特征是什么,这种场景是非常适合用hash脱敏,到可以把原始的手机号脱敏成一串hash值,但是对于算法模型,它的要求比较高,就是需要查看到数据是什么数据,而且还需要查看到这个数据它的数据特征是什么,不然没办法抽特征,在这种场景下就非常适合用假名脱敏这种方式,就是原来181的数据,手机号就被透明成另外一个假的手机号,非常适合用于算法模型的场景。做到数据的可用不可见数据脱敏功能。

4、数据保护伞-操作风险识别

事后的功能就是对于操作数据的审计,数据保护伞大概是分成三种,原始的数据,谁在什么时间点操作什么sql,这种数据是可以到的,就是所有的记录能可以得到,在此基础上可能提供,行为检测,自定义操作风险的就是规则,内置有专家模型等等,根据操作特征,环境历史账号等等,判断出哪些是正常操作板,哪些是可能会有问题的操作。

5、数据保护伞-数据水印溯源

发生数据泄露,数据是谁泄露的?对于不同的引擎,大部分都汇聚到大数据平台,也就是 dataworks。在不同的场景下,不管是下载数据,它文件的数据下载,还是通过比如代码或者是各种方式把数据导出,或者就查询,拍张照片,数据泄露,不管是哪一种方式,就是查询出的数据,都会嵌入数据水印,并且生成操作数据库,这样当有数据被泄露,拿着这份数据回到数据保护伞的页面,可以查询的操作数据库,可以帮回溯出数据可能是谁写什么sql,在什么时间点写的sql,谁泄露这份数据。保护伞它的主要功能,以及它如何跟企业的制度运营相结合,形成企业的数据安全的最佳实践。


四、数据保护伞操作示例

具体怎样使用产品帮助企业收到数据安全的保护。

1、现在看到的就是数据保护伞的页面,先介绍自动化分类分级的功能。

2、可以用它配置的分级策略,还有敏感数据识别策略,自动识别出project下面存在哪些类型的敏感数据,并且向这些标打到数据,在后面的管控,脱敏等等去使用。分级页面支持可以分9级,可以根据自己企业内部的规范定义的分级,一般情况下是分4级的,就是公开内部敏感机密,点击页面右上角的新建分级,新建敏感分析,点击确定。

3、在页面还可以进行分级信息的管理,比如拖拽可以改变每个分级之间的顺序。另外就是可以点击删除。

4、也可以点击编辑,可以把其他其他分级下面挂靠的规则挂靠到这个分级下面,比如认为公司名就是敏感的,把它挂靠到分级下面。

5、新建数据识别规则,数据保护伞是支持比较丰富的配置方式,一共支持的是5种,那先以其中一种作为样例说明怎么进行配置,点击右侧的新建按钮,现在新建邮箱,它属于个人信息,点击按模板添加,数据保护伞大概支持40多种,就是内置的识别模型,这种都是比较常见的个人隐私数据的类型,比如邮箱姓名,选择邮箱,因为经过多次的优化训练,所以它整体准确率要高很多。可以点击的测试链接进行简单的测试,比如现在输入123。肯定是没有命中。

6、输入自己的邮箱,这样就是命中了,做简单的测试,点击下一步并且点击保存生效。

7、现在是数据开发同学,点击进入数据开发页面,新建一张表,表是刚才的邮箱数据,点击运行,就是表跑完,大概在一两分钟的时间内,它就会出现在数据发现页面,就是可以在这里到叫邮箱的,点击进去,可以到是刚才的表里面邮箱。

8、先自定义test,公开分级,支持正则式匹配。可以测试,写123数字,没有命中,写6位数字,命中,内容还有另外的,一种是像词库枚举类型的,就是可以上传文件,可以在数据样本管理页面上传文件,只要匹配就是上传的任何一行内容,都认为是匹配这种类型的敏感数据。还有一种就是可以自己定义数据识别模型,在这里进行引用。第五种是内容特征,内容没有任何特征,比如公司金额这种的内容没有什么特征,但是知道它是哪张表哪个列组,存的是工资金额,比如现在配置*, *payment,意思就是所有project下面的所有表,它列名只要是payment,那就认为它命中这种类型的敏感数据,一样的就点击下一步,保存生效。

9、在数据保护伞页面上点击数据脱敏管理页面,可以配置脱敏规则,比如新建一条规则,还是那个邮箱,先看一下掩盖的效果,再点击生效,在数据开发访问数据,它就是脱敏的。可以到邮箱它已经被掩盖掉。

10、支持三种比较常见的就是假名,hash,掩盖,都可以自己配置,假设现在用假名,安全域随便选,点击保存,生效,这时再查这行数据,它就会被假名脱敏掉。可以到还是邮箱,但是它已经是假的邮箱。

11、配置特权账号,这些账号可以配置对哪些账号,对于哪一个规则访问,什么时间点访问,它访问的是明文数据,做到数据的可用不可见,数据透明管理。

12、事后的审计和监控,先点击数据访问页面。换账号,点击数据访问页面,可以到就是它有访问的明细,上面可以筛选,访问量,访问人数的统计,可以再点击明细记录,就是它可以记录访问账号,就是它访问哪个project下面的哪一种类型的敏感数据。

13、可以点击明细进去,到它在什么时间点查询哪个表的哪个列,它写的sql是什么样的sql。

14、最底层的那一层是全量对敏感数据的访问记录,可以到谁在什么时间点访问什么样的数据,用什么样的sql访问的,这第一层。第二层就是数据风险,就是需要到哪些是风险。判断风险有很多种方式,第一种方式是在查看时就标记一下,就认为这一行它是有风险的,标记为风险数据。15、第二种就是海量的数据怎么识别?可以在风险识别管理,新建规则,就可以有常见的匹配项,比如认为对星座对手机号,对手机号这种类型只要存在比较访问的,就认为它是有问题的。或者是它的访问时间是在下班时间,就认为它是有问题的,这些有比较常见的匹配筛选的项目,点击保存。

16、生效,就会自动的匹配数据访问页面符合配置的规则的那些数据,这些数据都会展示在数据风险页面。可以到它是命中哪一条敏感数据,就是哪一条风险规则,还可以访问时间,辅助的判断。

image.png

17、线下的流程,就是制定制度,指定制度,产品识别出这些风险,那么运营人员就需要介入,通过一些现象的方式看是否真的有风险,如果确定有风险,在这里进行标记,比如非工作时间访问,确定。

image.png18、数据审计页面就会对的所有的风险总数已经处理的,没有处理的进行统计,包括它是按照类型分级标签对它进行统计。这就是第三个部分事后的监控和审计。

image.png

19、回到刚才那个账号,第四个功能,也是事后的数据溯源的功能,假设现在有一份数据泄露,怎么能查找到这份数据可能是谁的,哪次操作泄露的?怎么配置?首先数据安全管理员要在数据脱敏管理这里进行配置,现在假设选择手机号,选择hash这种方式嵌入数据水印,点击保存,使它生效。

20、假设现在是数据开发同学,现在查询手机号数据。Phone 这列是手机号,因为现在不到原文,先点击下载,这时把脱敏关掉,原始数据。可以到一列手机号

image.png

21、假设这份数据泄露,回到数据溯源页面,拿到这份被泄露的数据,新建数据溯源的任务,把刚才下载的那个文件,就是假设泄露的文件把它上传,点击开始溯源。

22、点击查看详情,下面列出可能的泄漏源,右上角有账号名,是在9:19做的这次操作项目,就是在那个数据开发的项目下面,操作的命令就是从水印 testdata 这张表select。

image.png

23、有很多情况下拿到的数据可能没有这么完整,那么溯源出的结果可能会有各种可能性,会给出可能性的列表,大概可能是哪些操作引起的泄漏,可能性大概有多大?这就是第三个功能,数据溯源的功能

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
4月前
|
安全 网络安全 数据库
“小红书基于零信任的数据安全落地实践”演讲实录
11月,为期两天的FCIS 2023网络安全创新大会(以下简称:“FCIS 2023大会”)在上海张江科学会堂圆满落幕。来自全球的数十位网络安全人物、企业安全负责人、技术大拿、研究学者等发表主题演讲,累计线下参会观众突破6000人次。 在主论坛E-Tech企业安全实践分享中,亿格云行业标杆客户「小红书安全技术负责人、首席数据官」周达发表了“基于零信任的数据安全建设实践”的主题演讲。分别从办公场景下的数据安全挑战、小红书全链路零信任体系和安全思考与展望三方面详细阐述。
|
29天前
|
Prometheus DataWorks Cloud Native
DataWorks产品使用合集之如何把控数据安全
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
SQL 运维 DataWorks
Flink CDC在阿里云DataWorks数据集成应用实践
本文整理自阿里云 DataWorks 数据集成团队的高级技术专家 王明亚(云时)老师在 Flink Forward Asia 2023 中数据集成专场的分享。
1372 2
Flink CDC在阿里云DataWorks数据集成应用实践
|
12月前
|
SQL 数据采集 分布式计算
基于DataWorks+MaxCompute的公共电影票房数据预处理实践
本次实验对春节档每日票房的数据进行预处理,主要是数据清洗(例如空值过滤,条件筛选),数据转换(例如含有相同属性的两条数据合并为一条数据)。通过本次实验让大家掌握阿里云大数据产品DataWorks及MaxCompute的基本使用。
|
11月前
|
SQL 存储 分布式计算
基于MaxCompute+DataWorks离线同步某电商用户购买记录实践
本次实验使用DataWorks的DDL模式新建数据表,然后将保存在本地的某用户购买记录同步到MaxCompute数仓中,本实验采用的是增量数据同步,每次同步过来的数据会直接存储在MaxCompute中,不会覆盖之前的数据。
|
11月前
|
SQL 分布式计算 DataWorks
基于DataWorks的企业订单数据上云实现数据可视化实践
基于DataWorks的企业订单数据上云实现数据可视化实践
|
12月前
|
SQL 分布式计算 DataWorks
基于DataWorks+MaxCompute的企业本地数据上云实践
基于DataWorks+MaxCompute的企业本地数据上云实践
|
10月前
|
监控 安全 大数据
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第七章数据安全篇
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第七章数据安全篇
116 0
|
存储 数据采集 DataWorks
2万字揭秘阿里巴巴数据治理平台DataWorks建设实践
阿里巴巴一直将数据作为自己的核心资产与能力之一,从最早的淘宝、天猫等电商业务,到后续的优酷、高德、菜鸟等板块,DataWorks、MaxCompute、Hologres等产品用一套技术体系来支持不同业务的发展与创新,为企业带来整体的“数据繁荣”。 数据繁荣为我们带来了红利,同时也带动了各类数据治理需求的井喷,特别是降本等需求的不断出现,阿里云DataWorks团队将13年的产品建设经验整理成最佳实践,从数据生产规范性治理、数据生产稳定性治理、数据生产质量治理、数据应用提效治理、数据安全管控治理、数据成本治理、数据治理组织架构及文化建设等7个方面为大家揭秘数据治理平台建设实践
27412 11
2万字揭秘阿里巴巴数据治理平台DataWorks建设实践
|
SQL 存储 自然语言处理
阿里云 DataWorks 智能数据建模(二)| 学习笔记
快速学习阿里云 DataWorks 智能数据建模
1088 0
阿里云 DataWorks 智能数据建模(二)| 学习笔记

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    71
  • 2
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    79
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    88
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    62
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    65
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    68
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    86
  • 8
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    114
  • 9
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    67
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    77