9.数据保护伞使用介绍|学习笔记

简介: 快速学习9.数据保护伞使用介绍

开发者学堂课程【DataWorks一站式大数据开发治理平台精品课程:9.数据保护伞使用介绍】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1246


9.数据保护伞使用介绍

内容介绍:

一、数据保护伞的入口

二、数据保护伞的功能

三、数据发现

四、数据分级管理

五、数据识别规则

六、规则案例

七、自生成数据识别模型

八、用户管理    

九、数据访问

十、数据风险

十一、水印功能

一、数据保护伞的入口

直接根据域名进入:https://dsg.data.aliyun.com/index.htm#/leadingPage

数据保护伞是 dataworks 个子模块,dataworks 的全部产品里面的数据治理找到数据保护伞的入口。

二、数据保护伞的功能

数据保护伞从数据发现、数据保护、监控审计、溯源四个方面,事前、事中、事后全流程对企业核心数据进行保护;

第一: 数据保护伞可以自动分辨出那些是敏感数据,以及敏感数据分别分部在哪里?

第二数据保护伞的脱敏功能在保证数据开发、数据分析同学去使用数据同时,能做到数据的可用不可见

第三数据保护伞可以记录谁在什么时间、什么方式试用了什么数据,并且可以帮助企业识别出那些是有风险的数据操作

第四在企业发生数据泄露后,数据保护伞的数据水印功能可以帮助企业排查谁在那次操作中泄露的

三、数据发现

事前分级分类功能:

企业可以根据自己的数据安全管理规范,来灵活的配置自己分级策略和对应的敏感数据识别规则,后面数据保护伞会根据匹配值的规则自动扫描最终的结果在数据发现页面展示。在数据发现界面看到一-些数据统计信息和对应的明细信息。


四、数据分级管理

最多可以设置8个级别,-般设置公开、内部、敏感、机密等级别,通过拖拽实现等级的改变,通过编辑按钮可以将一些敏感数据识别规则挂号到这个分级下,从而可以实现敏感数据的分级管理。此页面只有自己创建的可以删除,可操作它的按钮改变它的级别,往上下拖动。


五、数据识别规则

可以从规则界面进入数据识别规则,规则主要包括4个功能。

1、数据识别规则主要包括模板添加和自定义添加,每一个模板添加到后面都有自己的算法支持。

2、数据数据规则支持内容扫描和字段扫描,可以定义正则,使用固定特征的数据比如: id ,用正则配置id的六位数字的命中规则\d{6}

像IDID的6位数字,可以根据到d大括号的6来进行用正的表达式表示测算扫描规则。

3、字段扫描规则,格式一般是项目名点表名点列名。如果是开发项目,后面要带上dav,在这段扫描规则中支持正则表达通配符。

4、对一些枚举值:比如说疾病类型、领导人它是一些词库,是一些有限的枚举值的集合在数据样本管理上传后在配置规则里选择内容扫描,下拉框能展现添加的。

image.png


六、规则案例

先创建规则,后面开发同学有创建的表,是可以实时识别出来的: create table lzztest08286 as select ’jiaxi(@ alibaba-inc.com‘

创建一个表,通过字段扫描识别数据,根据数据脱敏规则来对数据进行脱敏。

1、配置脱敏规则

(1)HASH

2假名:可以保证数据的特征不变。

(3)遮蔽:以*遮蔽

支持安全域,这个安全域的意思是,同一个安全域内,相同的值会被脱敏成同一个值;不同的安全域内,相同的值会被脱敏成不同的值,比如1880000000在安全域1都会被脱敏成1881111111,但在安全域2都会被脱敏成1882222222

目前hash和假名支持水印和安全域。

(4)到数据开发界面将全局脱敏按钮打开,注意: 定要手动开启生效按钮。在dataworks的设置界面找到相应的按钮,以下是操作后能达到的一个效果。

image.png

2.先处理一个表, 数据保护伞,新建规则,在模板规则里面选择个人信息添加自定义,选择分级为八级,字段扫描。输入lzz_test _dev.lzztest111222.*。这样就做了一个数据的识别。

image.png

3.现在做数据脱敏,对数据识别规则,选择刚刚的脱敏规则,脱敏方式遮盖,前一后一,保存。

image.png

4.打开相应的按钮,来创建表。现在表创建成功了,查看效果有没有达到,先确认的全局有没有打开,现在是打开的。

image.png

5.查询看看效果。已经达到设置的一个效果。

image.png

2、手动修改数据

如果觉得数据不是非常准也可以手动的修改。可以批量剔除,批量恢复,也可以修改规则名,规则。


七、自生成数据识别模型

1、新建模型

(1)选中的样本列数据需超过10行,并且不能存在中文字符,否则无法开始训练。选择的样本字段中存在中文字符,或数据长度小于4或者大于40。要注意的是选择样本,可以输入项目名,后面选择的表名相应的列。

(2)训练完成后-单击编辑按钮-弹出评估页面,如果下一步添加成功,它就会出现一个状态,就是训练中的状态剩余的多少时间。训练中的建模无法除,可以先终止再删除以上线使用的模型无法删除,可以删除规则再删除模型

2评估页面

(1)在自动生成数据模型的界面,可以编辑,编辑之后可以会弹出相应的评估页面,评估页面是默认展示实例的结果的,它会给一个相应的准确率,如果觉得可以,可以直接确定创建,如果觉得没有达到要的效果,可以重新训练。

(2)默认给出10个列的识别结果,您可以自行判断调整识别结果。如果准确率可以接受,可点击确定创建,模型即创建完毕;如果误报较多,可调整十个列的识别结果后,单击重新训练,进入第二次训练流程。(3)一般情况下,需要2-3次训练过程,方可获得比较理想的模型效果。

(4)创建成功,可以前往数据识别规则创建规则,也可以直接进入的规则界面,直接创建,在创建,数据识别规则选择刚刚创建的模型名称,点击确认。


八、用户管理

可以在规则下面新建用户组,在建立用户组选择数据原型,文本要是账号的形式,已经把demo2账号加入到数据添加组成员里,在数据脱敏这可以设计一个白名单,设置白名单达到效果就是上面设置的脱敏规则已经设置好了,如果把它添加白名单里面,它达不到一个脱敏的效果的。查询的结果就是设置的脱敏的规则,如果设到黑名单里面就会出现一个所有的内容都是展现出来对的,不会出现一个脱敏的效果。

九、数据访问

1、数据保护伞对数据资产数后的保护:

这里支持敏感数据全量访问记录并且可以指定些数据的识别规则,并且可以自动识别出哪些数据是存在风险操作。

2、在前面配置规则后在第二天敏感信息的访问记录会在这里展现, 我们一般可以看到2种类型的记录:

(1)种:一些sq|的操作select..

(2)第二种:通过 tunnel 下载数据

数据访问一般在界面可以手动去标记,把它标记为风险数据,就是在详情里面可以查询操作,哪些数据是存在风险的,一般是两种类型的sql的查询和一种是tunnel下载数据的操作。


十、数据风险

数据风险界面,在数据风险界面可以批量操作这些数据有没有风险,把它标记为风险或者是标记无风险,在标记风险,可以设置相应的关键字。下面的界面就是怎么创建风险规则,创建风险规则可以配置规则指明哪个规则类型,哪个等级,也可以默认选择全部的类型。

image.png


十一、水印功能

1、查询出来后---点击下载

2、回到数据数据源界面创建溯源任务---将刚刚下载的数据导入进去

目前只有hash和假名没有水印的入口,可以在规新建规则打开相应的路口,相应的按钮,在数据溯源里面上传的数据,上传数据开始开始回流,开始溯源,溯源成功就会出现相应的检查的详情,能看到操作者是谁,在什么时间做了什么样的命令,可以帮助企业更快速的查找输出数据,可能泄露的数据。

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
相关文章
|
22天前
|
Python Windows
Python 3.14 安装教程:详细步骤+自定义路径+环境变量配置(64位)
Python是简单易学、开源免费的面向对象编程语言。本文详解Python 3.14在64位Windows系统的安装全流程:下载解压、管理员运行、配置PATH与安装路径、创建IDLE桌面快捷方式,并通过启动交互界面验证安装成功。(239字)
|
4月前
|
SQL 人工智能 自然语言处理
人人都能实施的智能问数,中小用户也能玩得转的 Text2SQL
润乾NLQ以“规则翻译”替代大模型“黑盒猜测”,将自然语言精准转为数据库指令,实现零幻觉、低成本、高可靠的智能问数。无需AI专家和GPU集群,普通团队也能快速部署,让数据查询像查字典一样准确可控,真正赋能中小企业实现安全、透明、可管理的BI分析。
|
9月前
|
SQL 人工智能 自然语言处理
数据 + 模型 驱动 AI Native 应用发展
随着人工智能技术的飞速发展,从生成式人工智能(GenAI)到自主代理人工智能(Agentic AI)的演进,企业面临着构建 AI Native 应用的机遇与挑战。本文将深入探讨 AI 开发模式的转变、企业应用的挑战以及技术架构和开发工具的应用,旨在为读者提供一个全面的视角,以理解如何利用数据和模型驱动 AI Native 应用的发展。
398 0
|
9月前
|
JSON 监控 API
亚马逊Amazon商品详情API接口解析,josn数据参考
亚马逊商品详情API接口助力开发者高效获取商品信息,返回结构清晰的JSON数据,涵盖价格、描述、图片等关键字段。本文详解API调用方法与JSON格式,助您快速掌握商品数据抓取技巧,提升开发效率,适用于电商、数据分析等领域。
|
人工智能 前端开发 Java
基于开源框架Spring AI Alibaba快速构建Java应用
本文旨在帮助开发者快速掌握并应用 Spring AI Alibaba,提升基于 Java 的大模型应用开发效率和安全性。
3105 54
基于开源框架Spring AI Alibaba快速构建Java应用
|
分布式计算 DataWorks 数据处理
"DataWorks高级技巧揭秘:手把手教你如何在PyODPS节点中将模型一键写入OSS,实现数据处理的完美闭环!"
【10月更文挑战第23天】DataWorks是企业级的云数据开发管理平台,支持强大的数据处理和分析功能。通过PyODPS节点,用户可以编写Python代码执行ODPS任务。本文介绍了如何在DataWorks中训练模型并将其保存到OSS的详细步骤和示例代码,包括初始化ODPS和OSS服务、读取数据、训练模型、保存模型到OSS等关键步骤。
852 3
|
SQL 分布式计算 大数据
湖仓融合:MaxComputee与Hologres基于OpenLake的湖上解决方案
本次主题探讨湖仓融合:MaxCompute与Hologres基于OpenLake的湖上解决方案。首先从数据湖和数据仓库的历史及业界解决方案出发,分析湖仓融合的两种思路;接着针对国内问题,介绍阿里云如何通过MaxCompute和Hologres解决湖仓融合中的挑战,特别是在非结构化数据处理方面的能力。最后,重点讲解Object Table为湖仓增添了SQL生态的非结构化数据处理能力,提升数据处理效率和安全性,使用户能够在云端灵活处理各类数据。
|
存储 安全 API
使用Ollama和Open WebUI管理本地开源大模型
Open WebUI 是一个功能丰富且用户友好的自托管 Web 用户界面(WebUI),它被设计用于与大型语言模型(LLMs)进行交互,特别是那些由 Ollama 或与 OpenAI API 兼容的服务所支持的模型。Open WebUI 提供了完全离线运行的能力,这意味着用户可以在没有互联网连接的情况下与模型进行对话,这对于数据隐私和安全敏感的应用场景尤为重要。
ACE
|
SQL 分布式计算 数据处理
如何创建2024云栖Openlake测试项目和配置环境
2024年云栖大会,MaxCompute 多项重磅产品新功能邀测发布,新特性包括 支持OpenLake的湖仓一体2.0、Object Table支持SQL或MaxFrame处理非结构化数据、Delta Table增量表格式、基于增量物化视图的增量计算、MCQA2.0 SQL引擎查询加速等。其相关特性将在中国区 公共云 北京、上海、杭州、深圳Region 上线开放试用。本文以最佳实践的方式,帮助您创建MaxCompute和周边产品 在Openlake解决方案demo中需要准备的实例、项目和开发环境,并完成配置。欢迎您玩转云栖邀测demo,体验新功能。
ACE
1432 8