数据脱敏技术

简介: 【4月更文挑战第24天】数据脱敏可以划分为静态数据脱敏(Static Data Masking, SDM)和动态数据脱敏(Dynamic Data Masking, DDM)技术。

数据脱敏是一种采用专门的脱敏算法对敏感数据进行变形、屏蔽、替换、随机化、加密,并将敏感数据转化为虚构数据的技术。按照作用位置、实现原理,数据脱敏可以划分为静态数据脱敏(Static Data Masking, SDM)和动态数据脱敏(Dynamic Data Masking, DDM)技术


静态脱敏一般用于非生产环境,在不能将敏感数据存储于非生产环境的场合中,通过脱敏程序转换生产数据,使数据内容及数据间的关联能够满足测试、开发中的问题排查需要,也可以进行数据分析、数据挖掘等分析活动。而动态脱敏通常用于生产环境,在敏感数据被低权限用户访问时对其进行脱敏,并能够根据策略执行相应的脱敏方法。静态脱敏与动态脱敏的区别在于是否在使用敏感数据时才进行脱敏,这个区别影响了脱敏规则对应的脱敏算法、脱敏策略以及脱敏操作的执行位置。


静态脱敏技术原理主要是通过内置规则来自动识别敏感数据,通过内置的脱敏算法对数据进行漂白。针对数据库的脱敏技术使用两种方法来识别敏感数据,第一种是通过人工指定,比如通过正则表达式来指定敏感数据的格式;第二种为自动识别,该方式是基于敏感数据的特征来进行自动识别的,此方式一般不需要用户编写正则表达式的格式来指定敏感数据,而是基于聚类算法,自动对数据进行识别和分类。常规的静态脱敏用来识别一些涉及个人隐私的敏感数据,比如信用卡号、ID、手机号、电子邮箱、IP地址、住址等。


识别出敏感数据之后,就需要使用脱敏算法来进行脱敏。在比较常见的数据脱敏系统中,都内置了丰富和高效率的脱敏算法。算法的选择一般是通过手工指定,对常见数据如姓名、证件号、银行账户、金额、日期、住址、电话号码、Email地址、车牌号、车架号、企业名称、工商注册号、组织机构代码、纳税人识别号等敏感数据进行脱敏。常用的内置脱敏算法有同义替换、部分数据遮蔽、混合屏蔽和可逆脱敏等。


动态脱敏通常适用于大数据应用环境。在大数据环境中,面对海量、异构、需要实时处理的数据,如何能够在不影响数据使用的条件下,在用户层面实现数据屏蔽、加密、隐藏、审计或内容封锁是动态脱敏技术的目标。动态脱敏根据安全等级要求,按照用户角色、职责和其他规则对敏感数据进行变换。动态脱敏技术对大数据应用的合规性来说至关重要。


动态数据脱敏技术目前主流的实现机制是基于代理的实现机制。用户的数据请求被代理实时在线拦截并经脱敏后返回。这种机制的脱敏判断是在数据容器外实现的,对用户及应用程序完全透明,因而能够适用于非关系型数据库,如大数据环境。

上图展示了动态脱敏技术原理。外部有三类数据请求来源,分别是内部应用系统、外部应用系统(如报表)和数据管理应用(迁移、备份等)。动态数据代理请求系统对数据的请求来源进行识别,针对内部应用执行bypaas查询,不进行脱敏运算。对于报表类或其他业务类请求,针对不同的数据库类型采用不同的脱敏算法,经过代理请求系统返回的数据即是脱敏后的数据。假设后端访问的是关系型数据库,代理请求系统将执行的SQL请求进行变形,执行内置的脱敏函数,对返回的数据进行脱敏,返回合规的脱敏后的数据。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
9天前
|
安全 算法 数据管理
数据安全产品之认识数据脱敏系统
数据脱敏是一种信息安全技术,它通过将敏感信息转换成无实际意义的数据,同时保持原始数据的格式、类型和业务逻辑,以确保数据在使用过程中的安全性和合规性。数据脱敏的目的是保护个人隐私和企业敏感信息,防止数据在非生产环境中泄露或被不当使用。
14 0
|
6月前
|
安全 算法 大数据
数据脱敏,顾名思义就是对敏感数据进行变形处理
数据脱敏,顾名思义就是对敏感数据进行变形处理
51 2
|
8月前
|
数据采集 SQL 数据可视化
Dataphin数据探查助力快速了解数据概貌,更早识别潜在风险
在日常数据加工处理工作中,不同角色(运营、开发、数据分析师、业务人员等)尝尝会面临一个共同问题:数据是否可用?在数据量大、数据可信度不高的情况下,常常需要花费大量时间精力对数据进行校验,了解数据概貌并评估数据是否可用,也就是需要进行所谓的“数据探查”工作。因此,Dataphin 特别推出“数据探查”功能,只需要进行简单的配置,就可以周期性地执行探查任务并产出内容丰富、结果准确的可视化探查报告。此外,也可以保留历史的数据探查结果,便于结合历史数据进行对比分析,不仅降低了操作门槛,也能解放人力,提升工作效率。
246 0
|
11月前
|
前端开发 数据处理 数据安全/隐私保护
【项目数据优化一】敏感数据脱敏处理
【项目数据优化一】敏感数据脱敏处理
355 1
|
Java 关系型数据库 MySQL
数据脱敏的 3 种常见方案,好用到爆!
数据脱敏的 3 种常见方案,好用到爆!
651 0
数据脱敏的 3 种常见方案,好用到爆!
|
安全 调度 数据安全/隐私保护
数据安全最佳实践(6):敏感数据实时识别与批量保护【Dataphin V3.9】
在DataphinV3.9版本中,我们支持了敏感数据实时识别的能力,能够实时发现敏感数据并进行保护,形成了手动上传+周期识别+实时识别的完整敏感数据识别体系。 同时,我们在DataphinV3.9版本中,支持了给敏感数据批量配置脱敏策略,可以给没有单独配置脱敏策略的敏感数据进行批量的脱敏保护,从而确保敏感数据不泄露。
数据安全最佳实践(6):敏感数据实时识别与批量保护【Dataphin V3.9】
|
存储 SQL 算法
数据脱敏技术与应用
数据脱敏技术与应用
数据脱敏技术与应用
|
数据采集 大数据 数据安全/隐私保护
数据预处理-数据脱敏-身份证脱敏代码|学习笔记
快速学习数据预处理-数据脱敏-身份证脱敏代码
580 0
数据预处理-数据脱敏-身份证脱敏代码|学习笔记
|
数据采集 大数据 数据安全/隐私保护
数据预处理-数据脱敏-手机号码脱敏代码|学习笔记
快速学习数据预处理-数据脱敏-手机号码脱敏代码
440 0
|
数据采集 消息中间件 大数据
数据预处理-数据脱敏总结|学习笔记
快速学习数据预处理-数据脱敏总结
250 0