谈谈数据隐私中的数据屏蔽

简介: 鉴于日益增长的网络威胁和个人数据隐私保护法的实施,企业需要确保私人数据被尽可能少地使用。

鉴于日益增长的网络威胁和个人数据隐私保护法的实施,企业需要确保私人数据被尽可能少地使用。数据屏蔽提供了一种方法来限制私有数据的使用,同时允许企业使用尽可能接近真实数据的数据来测试其系统。

据统计,数据泄露的平均成本为400万美元。这强烈刺激企业投资信息安全解决方案,包括数据屏蔽以保护敏感数据。对于希望遵守个人隐私法或希望在测试环境中使用真实数据的组织来说,数据屏蔽是必须具备的解决方案。

一 什么是数据屏蔽

数据屏蔽也称为数据混淆、数据匿名化或假名化。它是通过使用功能虚构的数据(如字符或其他数据)来替换机密数据的过程。数据屏蔽的主要目的是在企业与第三方共享数据的情况下保护敏感的私人信息。

二 为什么数据屏蔽现在很重要

数据泄露的数量每年都在增加,比如2019年比2018年记录的数据泄露数量增加了54%,因此,组织需要改进他们的数据安全系统。由于以下原因,对数据屏蔽的需求正在增加:

■当组织出于非生产原因决定使用生产数据时,如应用程序测试或业务分析建模,它们需要一份生产数据的副本。

■企业的数据隐私政策也受到了内部人士的威胁。因此,组织在允许内部员工访问时仍应谨慎。根据数据泄露调查,

•79%的首席信息官认为,员工曾意外地将公司数据置于风险之中,61%的首席信息官认为员工是恶意地将公司数据置于风险之中。

•95%的人承认内部安全威胁对他们的组织是一种威胁

•GDPR和CCPA迫使跨国企业加强其数据保护系统,否则组织将不得不支付巨额罚款。

三 如何进行数据屏蔽工作

数据屏蔽过程简单,但有不同的技术和类型。一般来说,组织从识别企业持有的所有敏感数据开始。然后,他们使用算法掩盖敏感数据,并用结构相同但数字不同的数据替换它。我们说的结构相同是什么意思?例如,美国的护照号码是9位数字,个人通常必须与航空公司共享护照信息。当航空公司构建一个模型来分析和测试业务环境时,他们会创建一个不同的9位长的护照ID,或者用字符替换一些数字。

下面是一个数据屏蔽工作的例子:

4ddafef670f68c606831636ca93d273c.png

四 数据屏蔽的类型

•静态数据屏蔽(SDM):在SDM中,原始数据库中的数据被屏蔽,然后复制到测试环境中,这样企业就可以与第三方供应商共享测试数据环境。

•动态数据屏蔽(DDM):在DDM中,不需要第二个数据源来动态存储被屏蔽的数据。原始的敏感数据保留在存储库中,在系统授权后,应用程序可以访问这些数据。数据永远不会暴露给未授权的用户,内容按需实时洗牌,使内容被屏蔽。只有授权用户才能看到真实的数据。反向代理通常用于实现DDM。其他实现DDM的动态方法通常称为动态数据屏蔽。

五 数据屏蔽的技术

有许多数据掩蔽技术,我们根据它们的用例对它们进行分类。

1 适用于测试数据管理

•替换

在替换方法中(顾名思义),业务使用来自提供的或定制的查找文件的随机数据替换原始数据。这是一种伪装数据的有效方法,因为企业保留了数据的真实外观。

•变换

变换是另一种常用的数据掩蔽方法。在变换方法中,就像替换一样,企业用另一个看起来真实的数据替换原始数据,但它们会随机打乱同一列中的实体。

2 数量和日期差异

对于金融和数据驱动的数据集,应用相同的方差来创建新的数据集,在屏蔽数据的同时不会改变数据集的准确性。使用方差创建新数据集也常用于合成数据生成。如果您计划使用此技术保护数据隐私,我们建议您阅读我们关于合成数据生成的全面指南。

•加密加密是最复杂的数据屏蔽算法。用户只有在拥有解密密钥的情况下才能访问数据。

64d47f02ce95186dd11ea769b6d1fe93.png

•字符置乱

这种方法包括随机重新排列字符的顺序。这个过程是不可逆的,因此无法从置乱后的数据中获得原始数据。

3 适合与未经授权的用户共享数据

•取消或删除

用空值替换敏感数据也是企业在数据屏蔽工作中喜欢采用的一种方法。尽管它降低了在其他方法中维护的测试结果的准确性,但当由于模型验证的目的而不掩盖业务时,它是一种更简单的方法。

•掩蔽

在屏蔽方法中,只有部分原始数据被屏蔽。它类似于取消,因为它在测试环境中是无效的。例如,在网上购物中,为了防止欺诈,只向客户显示信用卡号码的后四位。

424979295ad65464feb28e7c6a83421b.png

六 数据屏蔽与合成数据的区别

为了创建符合个人隐私保护法规的测试数据,组织有两种选择:生成合成数据或使用不同算法屏蔽数据。尽管这两种测试技术的目的相同,但每种方法都有不同的好处和风险。数据屏蔽是在数据集中的特定字段中创建真实数据副本的过程。然而,即使组织应用了最复杂和最全面的数据掩盖技术,仍然有很小的机会根据被掩盖数据的趋势识别个人。因此,存在将信息泄露给第三方的风险。

另一方面,合成数据是人工创建的数据,而不是由实际事件生成的数据。它不包含关于个人的真实信息,它是基于业务用于其生产系统的数据模型或消息模型创建的。如果企业正在测试一个全新的应用程序,或者企业认为他们的数据屏蔽不够充分,那么就可以使用合成数据。

七 哪些类型的数据需要数据屏蔽

个人身份信息(PII):任何可能被用来识别特定个人的数据。例如,全名、社会安全号码、驾照号码和护照号码。

受保护的健康信息(PHI): PHI包括人口统计信息、病史、测试和实验室结果、精神健康状况、保险信息以及医疗保健专业人员为确定适当护理而收集的其他数据。

支付卡信息(PCI-DSS):在处理来自信用卡信息时,组织需要遵循一个信息安全标准。

知识产权(IP):知识产权是指思维的创造,如发明创造;文艺作品;设计;以及商业中使用的符号、名称和图像。

八 GDPR中关于数据屏蔽的条款

数据屏蔽是GDPR认可的一种保护个人数据的技术。以下是GDPR鼓励企业使用匿名的相关条款:

第六条第4-e款:“存在适当的保障措施,其中可能包括加密或假名。”

第二十五条第1款:“考虑到目前的技术水平、执行费用、处理的性质、范围、背景和目的,以及处理对自然人的权利和自由所造成的可能性和严重性不同的风险,管制人应,无论是在确定处理方法的时候,还是在处理本身的时候,实施适当的技术和组织措施,如假名,这是为了实现数据保护原则,如数据最小化,,并在处理过程中纳入必要的保障措施,以符合本规例的规定,并保障资料当事人的权利。”

第三十二条第a款:“控制人和处理人应实施适当的技术和组织措施,以确保与风险相适应的安全水平,包括对个人数据进行假名化和加密等适当措施。”

第四十条第2款:“代表管制员或加工者类别的协会和其他机构,可为规定本条例的适用而制定行为守则,或修订或扩展此类守则,例如:d)个人资料的匿名化

第八十九条第1款:为公共利益、科学、历史研究、统计等目的的档案处理,应当采取减少资料、假名等适当保障措施。

九 数据屏蔽的最佳实践

•在将其转移到测试环境之前,确保您已经发现了企业数据库中的所有敏感数据。

•了解敏感数据,并据此确定最合适的数据屏蔽技术。

•使用不可逆方法,这样数据就不能被转换回原始版本。

相关文章
|
存储 网络协议 文件存储
云计算——常见存储类型
云计算——常见存储类型
1569 0
|
5月前
|
人工智能 决策智能
从此刻起,成为智慧体企业——阿里云上的Salesforce亮相云栖
金秋云栖,Salesforce携手阿里云共绘AI CRM新篇章。通过分论坛深度探讨AI+CRM落地路径,发布RAG技术预览与未来路线图,赋能企业实现从数据洞察到智能决策的跃迁,加速中国市场的智能化转型进程。
|
11月前
|
机器学习/深度学习 监控 自动驾驶
《告别低效!Vision Mamba改写图像视频处理规则》
Vision Mamba是一款创新的计算机视觉模型,采用双向状态空间模型(B-SSM)架构,大幅提升视频和图像数据处理的效率与精度。相比传统CNN和ViT,它通过序列化小块处理和时空扫描策略,捕捉全局信息和复杂依赖关系,计算复杂度仅为O(L log L),显著降低计算成本和内存占用。在高分辨率图像和视频处理中,Vision Mamba表现出色,广泛应用于自动驾驶、安防监控和医疗影像分析等领域。尽管尚处初级阶段,其潜力巨大,未来可结合量子计算等技术进一步拓展应用范围,为视觉信息处理带来革命性突破。
523 5
|
7月前
|
人工智能 安全 API
什么是通用人工智能?一文了解2025年AGI技术突破、企业尝试与未来趋势
通用人工智能(AGI)是指具备人类同等认知广度的机器系统,能跨领域学习、推理和解决问题。随着GPT5等模型的突破,AI已能在影视创作、医疗诊断、编程等领域展现强大能力,推动AGI从科幻走向现实。本文深入解析AGI的技术进展、落地应用与伦理挑战,展现其如何重塑产业与社会。
2441 0
|
人工智能 运维 监控
超越传统网络防护,下一代防火墙安全策略解读
超越传统网络防护,下一代防火墙安全策略解读
489 6
|
存储 Web App开发 运维
发布、部署,傻傻分不清楚?从概念到实际场景,再到工具应用,一篇文章让你彻底搞清楚
部署和发布是软件工程中经常互换使用的两个术语,甚至感觉是等价的。然而,它们是不同的! • 部署是将软件从一个受控环境转移到另一个受控环境,它的目的是将软件从开发状态转化为生产状态,使得软件可以为用户提供服务。 • 发布是将软件推向用户的过程,应用程序需要多次更新、安全补丁和代码更改,跨平台和环境部署需要对版本进行适当的管理,有一定的计划性和管控因素。
4862 1
|
Linux
Linux通过QQ邮箱账号使用mailx发送邮件
Linux通过QQ邮箱账号使用mailx发送邮件
727 2
|
前端开发 JavaScript
Ant-design-vue定制主题色
Ant-design-vue定制主题色
|
存储 边缘计算 物联网
未来数据存储技术发展趋势分析
随着数字化时代的到来,数据量不断增长,传统存储技术面临挑战。本文探讨未来数据存储技术的发展趋势,包括分布式存储、云存储、边缘计算等新兴技术的应用前景。
|
NoSQL 前端开发 数据可视化
基于Neo4j的医疗知识图谱展示系统——毕业设计绝佳选择
基于Neo4j的医疗知识图谱展示系统——毕业设计绝佳选择
629 1