9.数据保护伞使用介绍|学习笔记-阿里云开发者社区

9.数据保护伞使用介绍|学习笔记

2022-11-13 819

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习9.数据保护伞使用介绍

开发者学堂课程【DataWorks一站式大数据开发治理平台精品课程：9.数据保护伞使用介绍】与课程紧密联系，让用户快速学习知识

课程地址：https://developer.aliyun.com/learning/course/81/detail/1246

9.数据保护伞使用介绍

内容介绍：

一、数据保护伞的入口

二、数据保护伞的功能

三、数据发现

四、数据分级管理

五、数据识别规则

六、规则案例

七、自生成数据识别模型

八、用户管理

九、数据访问

十、数据风险

十一、水印功能

一、数据保护伞的入口

直接根据域名进入:https://dsg.data.aliyun.com/index.htm#/leadingPage

数据保护伞是 dataworks 一个子模块，dataworks 的全部产品里面的数据治理找到数据保护伞的入口。

二、数据保护伞的功能

数据保护伞从数据发现、数据保护、监控审计、溯源四个方面，事前、事中、事后全流程对企业核心数据进行保护;

第一: 数据保护伞可以自动分辨出那些是敏感数据，以及敏感数据分别分部在哪里?

第二：数据保护伞的脱敏功能在保证数据开发、数据分析同学去使用数据同时，能做到数据的可用不可见。

第三：数据保护伞可以记录谁在什么时间、什么方式试用了什么数据,并且可以帮助企业识别出那些是有风险的数据操作。

第四：在企业发生数据泄露后，数据保护伞的数据水印功能可以帮助企业排查谁在那次操作中泄露的。

三、数据发现

事前分级分类功能:

企业可以根据自己的数据安全管理规范，来灵活的配置自己分级策略和对应的敏感数据识别规则，后面数据保护伞会根据匹配值的规则自动扫描最终的结果在数据发现页面展示。在数据发现界面看到一-些数据统计信息和对应的明细信息。

四、数据分级管理

最多可以设置8个级别，-般设置公开、内部、敏感、机密等级别，通过拖拽实现等级的改变,通过编辑按钮可以将一些敏感数据识别规则挂号到这个分级下，从而可以实现敏感数据的分级管理。此页面只有自己创建的可以删除，可操作它的按钮改变它的级别，往上下拖动。

五、数据识别规则

可以从规则界面进入数据识别规则，规则主要包括4个功能。

1、数据识别规则主要包括模板添加和自定义添加，每一个模板添加到后面都有自己的算法支持。

2、数据数据规则支持内容扫描和字段扫描，可以定义正则，使用固定特征的数据比如: id ，用正则配置id的六位数字的命中规则\d{6} 。

像IDID的6位数字，可以根据到d大括号的6来进行用正的表达式表示测算扫描规则。

3、字段扫描规则，格式一般是项目名点表名点列名。如果是开发项目，后面要带上dav，在这段扫描规则中支持正则表达通配符。

4、对一些枚举值:比如说疾病类型、领导人它是一些词库，是一些有限的枚举值的集合在数据样本管理，上传后在配置规则里选择内容扫描，下拉框能展现添加的。

六、规则案例

先创建规则，后面开发同学有创建的表，是可以实时识别出来的： create table lzztest08286 as select ’jiaxi（@ alibaba-inc.com‘；

创建一个表，通过字段扫描识别数据，根据数据脱敏规则来对数据进行脱敏。

1、配置脱敏规则

（1）HASH

（2）假名:可以保证数据的特征不变。

（3）遮蔽:以*遮蔽

支持安全域，这个安全域的意思是，同一个安全域内，相同的值会被脱敏成同一个值;不同的安全域内，相同的值会被脱敏成不同的值，比如1880000000在安全域1都会被脱敏成1881111111,但在安全域2都会被脱敏成1882222222。

目前hash和假名支持水印和安全域。

（4）到数据开发界面将全局脱敏按钮打开，注意: 一定要手动开启生效按钮。在dataworks的设置界面找到相应的按钮，以下是操作后能达到的一个效果。

2.先处理一个表，数据保护伞，新建规则，在模板规则里面选择个人信息添加自定义，选择分级为八级，字段扫描。输入lzz_test _dev.lzztest111222.*。这样就做了一个数据的识别。

3.现在做数据脱敏，对数据识别规则，选择刚刚的脱敏规则，脱敏方式遮盖，前一后一，保存。

4.打开相应的按钮，来创建表。现在表创建成功了，查看效果有没有达到，先确认的全局有没有打开，现在是打开的。

5.查询看看效果。已经达到设置的一个效果。

2、手动修改数据

如果觉得数据不是非常准，也可以手动的修改。可以批量剔除，批量恢复，也可以修改规则名，规则。

七、自生成数据识别模型

1、新建模型

（1）选中的样本列数据需超过10行，并且不能存在中文字符，否则无法开始训练。选择的样本字段中存在中文字符，或数据长度小于4或者大于40。要注意的是选择样本时，可以输入项目名，后面选择的表名相应的列。

（2）训练完成后-单击编辑按钮-弹出评估页面，如果下一步添加成功时，它就会出现一个状态，就是训练中的状态剩余的多少时间。训练中的建模无法删除，可以先终止再删除以上线使用的模型无法删除，可以删除规则再删除模型。

2、评估页面

（1）在自动生成数据模型的界面，可以编辑，编辑之后可以会弹出相应的评估页面，评估页面是默认展示实例的结果的，它会给一个相应的准确率，如果觉得可以，可以直接确定创建，如果觉得没有达到要的效果，可以重新训练。

（2）默认给出10个列的识别结果，您可以自行判断调整识别结果。如果准确率可以接受，可点击确定创建,模型即创建完毕;如果误报较多，可调整十个列的识别结果后，单击重新训练，进入第二次训练流程。（3）一般情况下，需要2-3次训练过程,方可获得比较理想的模型效果。

（4）创建成功时，可以前往数据识别规则创建规则，也可以直接进入的规则界面，直接创建，在创建时，数据识别规则选择刚刚创建的模型名称，点击确认。

八、用户管理

可以在规则下面新建用户组，在建立用户组时选择数据原型，文本时要是账号的形式，已经把demo2账号加入到数据添加组成员里，在数据脱敏这可以设计一个白名单，设置白名单达到效果就是上面设置的脱敏规则已经设置好了，如果把它添加白名单里面，它达不到一个脱敏的效果的。查询的结果就是设置的脱敏的规则，如果设到黑名单里面就会出现一个所有的内容都是展现出来对的，不会出现一个脱敏的效果。

九、数据访问

1、数据保护伞对数据资产数后的保护:

这里支持敏感数据全量访问记录并且可以指定一些数据的识别规则，并且可以自动识别出哪些数据是存在风险操作。

2、在前面配置规则后在第二天敏感信息的访问记录会在这里展现，我们一般可以看到2种类型的记录:

（1）第一种:一些sq|的操作select..

（2）第二种:通过 tunnel 下载数据

数据访问一般在界面可以手动去标记，把它标记为风险数据，就是在详情里面可以查询操作，哪些数据是存在风险的，一般是两种类型的sql的查询和一种是tunnel下载数据的操作。

十、数据风险

数据风险界面，在数据风险界面可以批量操作这些数据有没有风险，把它标记为风险或者是标记无风险，在标记风险时，可以设置相应的关键字。下面的界面就是怎么创建风险规则，创建风险规则时可以配置规则指明哪个规则类型，哪个等级，也可以默认选择全部的类型。

十一、水印功能

1、查询出来后---点击下载

2、回到数据数据源界面创建溯源任务---将刚刚下载的数据导入进去

目前只有hash和假名没有水印的入口，可以在规新建规则打开相应的路口，相应的按钮，在数据溯源里面上传的数据，上传数据时开始开始回流，开始溯源，溯源成功就会出现相应的检查的详情，能看到操作者是谁，在什么时间做了什么样的命令，可以帮助企业更快速的查找输出数据，可能泄露的数据。