数据脱敏,顾名思义就是对敏感数据进行变形处理,其目的是保护隐私数据等信息的安全。例如机构和企业收集的个人身份信息、手机号码、银行卡信息等敏感数据。这种操作可以采用专门的脱敏算法对敏感数据进行屏蔽和仿真替换,将敏感数据转化为虚构数据,将个人信息匿名化,为数据的安全使用提供基础保障。
在实际操作中,数据脱敏可以分为静态数据脱敏和动态数据脱敏两种。静态数据脱敏通常会在将生产环境中的敏感数据交付至开发、测试或者外发环境时使用,按照脱敏规则一次性完成大批量数据的变形转换处理。而动态数据脱敏则是在数据使用时才进行脱敏处理,这种方式更为灵活,可以根据实际需求进行数据处理。
此外,对于大数据环境,由于数据结构复杂,包括结构化、非结构化数据等,脱敏操作也相对复杂。在这种情况下,我们可以使用集算器SPL脚本进行脱敏,配合报表的大数据集异步数据加载实现了大数据的即时脱敏数据查询展示。
数据安全中心(Data Security Center,简称DSC)支持静态脱敏和动态脱敏,可以脱敏数据库中的敏感数据。本文介绍如何使用静态脱敏和动态脱敏。https://help.aliyun.com/zh/dsc/user-guide/data-de-identification?spm=a2c4g.11186623.0.i23
静态脱敏
新增并执行脱敏任务
通过新增脱敏任务,指定数据脱敏的范围和规则。
登录数据安全中心控制台。
在左侧导航栏,选择风险治理 > 数据脱敏。
在静态脱敏页签,单击新增脱敏任务。
完成脱敏任务配置。
填写任务基本信息,并单击下一步。
说明
任务名称输入不受限制。
配置脱敏数据的来源文件信息,并单击下一步。
脱敏源为RDS表/PolarDB-X表/MaxCompute表/PolarDB表/OceanBase表/ADB-MySQL表时配置项说明
单击新创建的脱敏任务操作列的启动,执行脱敏任务。
在静态脱敏页签,单击任务状态子页签,查看脱敏任务的执行进度和状态。
数据脱敏https://help.aliyun.com/zh/dsc/user-guide/data-de-identification?spm=a2c4g.11186623.0.i23
掩码屏蔽:将敏感信息替换为星号或其他字符,以防止他人看到真实信息。
替换敏感信息:使用虚假信息替代真实敏感信息。
混淆数据:使用模糊算法或随机字符串对数据进行混淆,使其难以被人理解或读取。
数据脱敏是一种保护隐私的技术,它通过修改、替换、混淆或删除敏感信息,使得数据不能被用来识别个体,但仍保留数据的结构和部分信息,以供正常分析和处理。以下是一些常见的方法进行数据脱敏操作:
替换:将字符或整数值替换为查找或标准模式中的字符或整数值。例如,可以用列表中的随机值替换名字。
混排:在一个记录中交换相同类型的数据元素或者在不同行之间交换同一属性的数据元素。例如,在供应商发票中混排供应商名称,以便将发票上的原始供应商替换为其他有效供应商。
时空变异:把日期前后移动若干天(小到足以保留趋势),足以使它无法识别。
数值变异:应用一个随机因素(正负一个百分比,小到足以保持趋势),重要到足以使它不可识别。
取消或删除:删除不应出现在测试系统中的数据。
随机选择:将部分或全部数据元素替换为随机字符。
加密技术:通过密码代码将可识别、有总义换为不可识别的字符流。
表达式脱敏:将所有值更改为一个表达式的结果。例如用一个简单的表达式将一个大型自由格式数据库字段中的所有值(可能包含机密数据)强制编码为“这是个注释字段”。
键值脱敏:指定的脱敏算法/进程的结果必须是唯一且可重复的,用于数据库键值字段(或类似字段)脱敏。这种类型脱敏对用于测试需要保持数据在组织范围内的完整性极为重要。
在进行数据脱敏时,需要根据具体的应用场景和数据特性,选择合适的脱敏方法和工具。同时,也需要注意保护数据的完整性和可用性,避免因为过度的脱敏处理导致数据失去原有的价值和意义。
对于数据脱敏操作来说,常用的脱敏方法主要有替换、遮盖和加密三种:
需要注意的是,具体选用哪种方法要根据数据的实际场景和个人需求来定,对于不同的字段应该有不同的处理方式。另外,脱敏后的数据可能会影响到模型的效果,因此在使用时要考虑这一点。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。