鉴于日益增长的网络威胁和个人数据隐私保护法的实施,企业需要确保私人数据被尽可能少地使用。数据屏蔽提供了一种方法来限制私有数据的使用,同时允许企业使用尽可能接近真实数据的数据来测试其系统。
据统计,数据泄露的平均成本为400万美元。这强烈刺激企业投资信息安全解决方案,包括数据屏蔽以保护敏感数据。对于希望遵守个人隐私法或希望在测试环境中使用真实数据的组织来说,数据屏蔽是必须具备的解决方案。
一 什么是数据屏蔽
数据屏蔽也称为数据混淆、数据匿名化或假名化。它是通过使用功能虚构的数据(如字符或其他数据)来替换机密数据的过程。数据屏蔽的主要目的是在企业与第三方共享数据的情况下保护敏感的私人信息。
二 为什么数据屏蔽现在很重要
数据泄露的数量每年都在增加,比如2019年比2018年记录的数据泄露数量增加了54%,因此,组织需要改进他们的数据安全系统。由于以下原因,对数据屏蔽的需求正在增加:
■当组织出于非生产原因决定使用生产数据时,如应用程序测试或业务分析建模,它们需要一份生产数据的副本。
■企业的数据隐私政策也受到了内部人士的威胁。因此,组织在允许内部员工访问时仍应谨慎。根据数据泄露调查,
•79%的首席信息官认为,员工曾意外地将公司数据置于风险之中,61%的首席信息官认为员工是恶意地将公司数据置于风险之中。
•95%的人承认内部安全威胁对他们的组织是一种威胁
•GDPR和CCPA迫使跨国企业加强其数据保护系统,否则组织将不得不支付巨额罚款。
三 如何进行数据屏蔽工作
数据屏蔽过程简单,但有不同的技术和类型。一般来说,组织从识别企业持有的所有敏感数据开始。然后,他们使用算法掩盖敏感数据,并用结构相同但数字不同的数据替换它。我们说的结构相同是什么意思?例如,美国的护照号码是9位数字,个人通常必须与航空公司共享护照信息。当航空公司构建一个模型来分析和测试业务环境时,他们会创建一个不同的9位长的护照ID,或者用字符替换一些数字。
下面是一个数据屏蔽工作的例子:
四 数据屏蔽的类型
•静态数据屏蔽(SDM):在SDM中,原始数据库中的数据被屏蔽,然后复制到测试环境中,这样企业就可以与第三方供应商共享测试数据环境。
•动态数据屏蔽(DDM):在DDM中,不需要第二个数据源来动态存储被屏蔽的数据。原始的敏感数据保留在存储库中,在系统授权后,应用程序可以访问这些数据。数据永远不会暴露给未授权的用户,内容按需实时洗牌,使内容被屏蔽。只有授权用户才能看到真实的数据。反向代理通常用于实现DDM。其他实现DDM的动态方法通常称为动态数据屏蔽。
五 数据屏蔽的技术
有许多数据掩蔽技术,我们根据它们的用例对它们进行分类。
1 适用于测试数据管理
•替换
在替换方法中(顾名思义),业务使用来自提供的或定制的查找文件的随机数据替换原始数据。这是一种伪装数据的有效方法,因为企业保留了数据的真实外观。
•变换
变换是另一种常用的数据掩蔽方法。在变换方法中,就像替换一样,企业用另一个看起来真实的数据替换原始数据,但它们会随机打乱同一列中的实体。
2 数量和日期差异
对于金融和数据驱动的数据集,应用相同的方差来创建新的数据集,在屏蔽数据的同时不会改变数据集的准确性。使用方差创建新数据集也常用于合成数据生成。如果您计划使用此技术保护数据隐私,我们建议您阅读我们关于合成数据生成的全面指南。
•加密加密是最复杂的数据屏蔽算法。用户只有在拥有解密密钥的情况下才能访问数据。
•字符置乱
这种方法包括随机重新排列字符的顺序。这个过程是不可逆的,因此无法从置乱后的数据中获得原始数据。
3 适合与未经授权的用户共享数据
•取消或删除
用空值替换敏感数据也是企业在数据屏蔽工作中喜欢采用的一种方法。尽管它降低了在其他方法中维护的测试结果的准确性,但当由于模型验证的目的而不掩盖业务时,它是一种更简单的方法。
•掩蔽
在屏蔽方法中,只有部分原始数据被屏蔽。它类似于取消,因为它在测试环境中是无效的。例如,在网上购物中,为了防止欺诈,只向客户显示信用卡号码的后四位。
六 数据屏蔽与合成数据的区别
为了创建符合个人隐私保护法规的测试数据,组织有两种选择:生成合成数据或使用不同算法屏蔽数据。尽管这两种测试技术的目的相同,但每种方法都有不同的好处和风险。数据屏蔽是在数据集中的特定字段中创建真实数据副本的过程。然而,即使组织应用了最复杂和最全面的数据掩盖技术,仍然有很小的机会根据被掩盖数据的趋势识别个人。因此,存在将信息泄露给第三方的风险。
另一方面,合成数据是人工创建的数据,而不是由实际事件生成的数据。它不包含关于个人的真实信息,它是基于业务用于其生产系统的数据模型或消息模型创建的。如果企业正在测试一个全新的应用程序,或者企业认为他们的数据屏蔽不够充分,那么就可以使用合成数据。
七 哪些类型的数据需要数据屏蔽
个人身份信息(PII):任何可能被用来识别特定个人的数据。例如,全名、社会安全号码、驾照号码和护照号码。
受保护的健康信息(PHI): PHI包括人口统计信息、病史、测试和实验室结果、精神健康状况、保险信息以及医疗保健专业人员为确定适当护理而收集的其他数据。
支付卡信息(PCI-DSS):在处理来自信用卡信息时,组织需要遵循一个信息安全标准。
知识产权(IP):知识产权是指思维的创造,如发明创造;文艺作品;设计;以及商业中使用的符号、名称和图像。
八 GDPR中关于数据屏蔽的条款
数据屏蔽是GDPR认可的一种保护个人数据的技术。以下是GDPR鼓励企业使用匿名的相关条款:
第六条第4-e款:“存在适当的保障措施,其中可能包括加密或假名。”
第二十五条第1款:“考虑到目前的技术水平、执行费用、处理的性质、范围、背景和目的,以及处理对自然人的权利和自由所造成的可能性和严重性不同的风险,管制人应,无论是在确定处理方法的时候,还是在处理本身的时候,实施适当的技术和组织措施,如假名,这是为了实现数据保护原则,如数据最小化,,并在处理过程中纳入必要的保障措施,以符合本规例的规定,并保障资料当事人的权利。”
第三十二条第a款:“控制人和处理人应实施适当的技术和组织措施,以确保与风险相适应的安全水平,包括对个人数据进行假名化和加密等适当措施。”
第四十条第2款:“代表管制员或加工者类别的协会和其他机构,可为规定本条例的适用而制定行为守则,或修订或扩展此类守则,例如:d)个人资料的匿名化
第八十九条第1款:为公共利益、科学、历史研究、统计等目的的档案处理,应当采取减少资料、假名等适当保障措施。
九 数据屏蔽的最佳实践
•在将其转移到测试环境之前,确保您已经发现了企业数据库中的所有敏感数据。
•了解敏感数据,并据此确定最合适的数据屏蔽技术。
•使用不可逆方法,这样数据就不能被转换回原始版本。