数据脱敏技术

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 【4月更文挑战第24天】数据脱敏可以划分为静态数据脱敏(Static Data Masking, SDM)和动态数据脱敏(Dynamic Data Masking, DDM)技术。

数据脱敏是一种采用专门的脱敏算法对敏感数据进行变形、屏蔽、替换、随机化、加密,并将敏感数据转化为虚构数据的技术。按照作用位置、实现原理,数据脱敏可以划分为静态数据脱敏(Static Data Masking, SDM)和动态数据脱敏(Dynamic Data Masking, DDM)技术


静态脱敏一般用于非生产环境,在不能将敏感数据存储于非生产环境的场合中,通过脱敏程序转换生产数据,使数据内容及数据间的关联能够满足测试、开发中的问题排查需要,也可以进行数据分析、数据挖掘等分析活动。而动态脱敏通常用于生产环境,在敏感数据被低权限用户访问时对其进行脱敏,并能够根据策略执行相应的脱敏方法。静态脱敏与动态脱敏的区别在于是否在使用敏感数据时才进行脱敏,这个区别影响了脱敏规则对应的脱敏算法、脱敏策略以及脱敏操作的执行位置。


静态脱敏技术原理主要是通过内置规则来自动识别敏感数据,通过内置的脱敏算法对数据进行漂白。针对数据库的脱敏技术使用两种方法来识别敏感数据,第一种是通过人工指定,比如通过正则表达式来指定敏感数据的格式;第二种为自动识别,该方式是基于敏感数据的特征来进行自动识别的,此方式一般不需要用户编写正则表达式的格式来指定敏感数据,而是基于聚类算法,自动对数据进行识别和分类。常规的静态脱敏用来识别一些涉及个人隐私的敏感数据,比如信用卡号、ID、手机号、电子邮箱、IP地址、住址等。


识别出敏感数据之后,就需要使用脱敏算法来进行脱敏。在比较常见的数据脱敏系统中,都内置了丰富和高效率的脱敏算法。算法的选择一般是通过手工指定,对常见数据如姓名、证件号、银行账户、金额、日期、住址、电话号码、Email地址、车牌号、车架号、企业名称、工商注册号、组织机构代码、纳税人识别号等敏感数据进行脱敏。常用的内置脱敏算法有同义替换、部分数据遮蔽、混合屏蔽和可逆脱敏等。


动态脱敏通常适用于大数据应用环境。在大数据环境中,面对海量、异构、需要实时处理的数据,如何能够在不影响数据使用的条件下,在用户层面实现数据屏蔽、加密、隐藏、审计或内容封锁是动态脱敏技术的目标。动态脱敏根据安全等级要求,按照用户角色、职责和其他规则对敏感数据进行变换。动态脱敏技术对大数据应用的合规性来说至关重要。


动态数据脱敏技术目前主流的实现机制是基于代理的实现机制。用户的数据请求被代理实时在线拦截并经脱敏后返回。这种机制的脱敏判断是在数据容器外实现的,对用户及应用程序完全透明,因而能够适用于非关系型数据库,如大数据环境。

上图展示了动态脱敏技术原理。外部有三类数据请求来源,分别是内部应用系统、外部应用系统(如报表)和数据管理应用(迁移、备份等)。动态数据代理请求系统对数据的请求来源进行识别,针对内部应用执行bypaas查询,不进行脱敏运算。对于报表类或其他业务类请求,针对不同的数据库类型采用不同的脱敏算法,经过代理请求系统返回的数据即是脱敏后的数据。假设后端访问的是关系型数据库,代理请求系统将执行的SQL请求进行变形,执行内置的脱敏函数,对返回的数据进行脱敏,返回合规的脱敏后的数据。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
21小时前
|
存储 数据采集 监控
云上数据安全保护:敏感日志扫描与脱敏实践详解
随着企业对云服务的广泛应用,数据安全成为重要课题。通过对云上数据进行敏感数据扫描和保护,可以有效提升企业或组织的数据安全。本文主要基于阿里云的数据安全中心数据识别功能进行深入实践探索。通过对商品购买日志的模拟,分析了如何使用阿里云的工具对日志数据进行识别、脱敏(3 种模式)处理和基于 StoreView 的查询脱敏方式,从而在保障数据安全的同时满足业务需求。通过这些实践,企业可以有效降低数据泄漏风险,提升数据治理能力和系统安全性。
|
13天前
|
数据安全/隐私保护 数据格式
数据安全必备:三种实用的数据脱敏技术
在数字化时代,数据安全和隐私保护成为了企业和个人关注的焦点。数据脱敏作为一种有效的数据保护手段,能够降低数据泄露的风险,保护用户隐私。本文将介绍三种常见的数据脱敏方案,帮助您在实际工作中选择合适的脱敏技术。
28 2
|
13天前
|
数据安全/隐私保护 数据格式
高效的数据脱敏策略
在数字化时代,数据安全和隐私保护变得尤为重要。数据脱敏作为一种有效的数据保护手段,可以帮助企业降低数据泄露风险,同时遵守相关的法律法规。本文将介绍三种常见的数据脱敏方案,为您提供实用的技术干货。
25 1
|
1月前
|
Java fastjson Apache
【数据安全】数据脱敏方案总结
【数据安全】数据脱敏方案总结
75 1
|
1月前
|
数据处理 Python
ChatGPT在综合数据处理中的应用(数据脱敏处理)
ChatGPT在综合数据处理中的应用(数据脱敏处理)
|
5月前
|
数据处理 数据安全/隐私保护
JeecgBoot 中如何对敏感信息进行脱敏处理?
数据脱敏即将一些敏感信息通过加密、格式化等方式处理,展示给用户一个新的或是格式化后的信息,避免了敏感信息的暴露。
60 1
|
6月前
|
安全 算法 数据管理
数据安全产品之认识数据脱敏系统
数据脱敏是一种信息安全技术,它通过将敏感信息转换成无实际意义的数据,同时保持原始数据的格式、类型和业务逻辑,以确保数据在使用过程中的安全性和合规性。数据脱敏的目的是保护个人隐私和企业敏感信息,防止数据在非生产环境中泄露或被不当使用。
203 0
|
安全 算法 大数据
数据脱敏,顾名思义就是对敏感数据进行变形处理
数据脱敏,顾名思义就是对敏感数据进行变形处理
164 2
|
前端开发 数据处理 数据安全/隐私保护
【项目数据优化一】敏感数据脱敏处理
【项目数据优化一】敏感数据脱敏处理
463 1
|
安全 调度 数据安全/隐私保护
数据安全最佳实践(6):敏感数据实时识别与批量保护【Dataphin V3.9】
在DataphinV3.9版本中,我们支持了敏感数据实时识别的能力,能够实时发现敏感数据并进行保护,形成了手动上传+周期识别+实时识别的完整敏感数据识别体系。 同时,我们在DataphinV3.9版本中,支持了给敏感数据批量配置脱敏策略,可以给没有单独配置脱敏策略的敏感数据进行批量的脱敏保护,从而确保敏感数据不泄露。
数据安全最佳实践(6):敏感数据实时识别与批量保护【Dataphin V3.9】