1.何为数据脱敏
(1)数据脱敏既不是一个法律概念也不是一个技术概念
在个人信息保护的语境下,数据脱敏一般是指对个人信息进行技术处理,去除或降低数据与个人之间的关联,导致个人在一定程度上不可识别。数据脱敏并不是一个严格的法律概念或技术概念,但是对数据脱敏的理解离不开技术和法律这两个维度。
其一,数据脱敏是一种技术处理的过程,包括选择哪种脱敏技术或其组合,以及每种技术的实际实施强度。数据脱敏只是一个大类概念,实践中需要基于具体的业务场景和需求,综合考虑数据主体的授权与要求、数据的性质与类型、数据处理的方式与目的、重识别的风险与后果、当前可用的技术水平、合理的成本投入等因素,选择合适的技术实现方案。
其二,数据脱敏是一种对处理效果的法律评价,即经过技术处理后的数据,具体实现了哪种程度的不可识别。数据脱敏是一个渐进的光谱,根据程度的递增,例如从假名化、去标识化到匿名化,法律将作出差异化评价。
实践中常见的误区是:将数据脱敏静态地视为特定的技术处理,并概括认为个人信息脱敏后即与个人脱离关联。技术的视角有利于具象化地理解数据脱敏,但不可识别的程度才是法律上定义和区分数据脱敏相关概念的本质特征。
总之,数据脱敏既涉及法律概念也涉及技术概念。作为法律概念,数据脱敏是指为保护个人的隐私和数据安全所达到的一种效果;作为技术概念,数据脱敏是一种具体的技术方法和步骤,用于对敏感数据进行处理或转换。通过使用不可逆或难以还原的技术手段,数据脱敏可以降低数据被泄露或滥用的风险。因此,数据脱敏既是法律所要达到的一种权益保护效果,同时也是技术实施的一种方法。法律规定了对敏感数据的保护要求,而数据脱敏技术则是实现这些要求的具体手段之一。
(2)数据脱敏的本质
可识别性是个人信息的本质特征,不可识别性是数据脱敏的本质特征。但这里的不可识别绝不等同于匿名化。不可识别是一个渐进性概念,包括单独可识别、结合其他信息可识别/不借助其他信息不可识别、合理可能的不可识别、不可复原的不可识别。而这些不可识别所达到的程度,是区分匿名化、去标识化、假名化等法律概念的本质特征。就匿名化而言,其不可识别达到的程度是合理可能的不可识别和不可复原的不可识别。欧盟GDPR的匿名化是基于“合理可能”(reasonably likely)标准而言——综合考虑技术、成本、时间等因素,数据控制者或其他人采用了所有合理可能的方法,仍无法直接或间接识别数据主体;而我国现行法下不仅要求个人信息主体无法被识别,还要求匿名化处理后的信息不能被复原。
“结合其他信息可识别、而不借助其他信息不可识别”则是数据脱敏的中间状态,在我国被称为“去标识化”,它的不可识别是可复原的,而它的可识别依赖于额外信息
因此,数据脱敏的相关概念主要以不可识别的程度为标准,随着程度的量变而实现概念的质变,但各个概念之间并非泾渭分明,而有赖于具体场景下的综合判断。不同的技术处理所达到的是不同程度的数据脱敏效果,法律也将据此作出差异化评价。
2.GDPR下哪些数据需要脱敏
GDPR并未明确列出需要脱敏的具体数据类型和脱敏程度,但以下是一些常见的可能需要脱敏的数据类型和脱敏程度的示例:
(1)个人身份信息:
(i)姓名:可以进行脱敏处理,如只保留首字母或用伪名代替。
(ii)身份证号码:可以进行脱敏处理,如只保留部分数字或用通用标识符替代。
(iii)地址:可以进行脱敏处理,如只保留省份或国家,而不显示具体地址。
(2)账户相关信息:
(i)银行账号:可以进行脱敏处理,如只显示部分账号号码或用通用标识符替代。
(ii)信用卡号码:可以进行脱敏处理,如只显示部分卡号或用通用标识符替代。
(3)健康和医疗信息:
(i)医疗记录:可以进行脱敏处理,如删除或替换诊断信息,只保留匿名化的病历编号。
(ii)健康指标:可以进行脱敏处理,如删除或替换个人身份信息,只保留匿名化的数据。
(4)其他敏感信息:
(i)社会安全号码:可以进行脱敏处理,如只显示部分号码或用通用标识符替代。
(ii)私人通信内容:可以进行脱敏处理,如删除或替换个人身份信息,只保留匿名化的内容。
3.数据脱敏的程度
脱敏程度可以根据数据的敏感性和传输需求来确定,常见的脱敏程度包括:
(1)完全脱敏(Full Masking):将敏感信息完全替换为通用标识符或匿名化的数据,使其无法被还原。
(2)部分脱敏(Partial Masking):只显示敏感信息的部分内容,例如只显示部分号码或删除个人身份信息的一部分。
(3)加密脱敏(Encryption Masking):对敏感信息进行加密处理,只有授权的人才能解密并访问原始数据。
(4)偏移脱敏(Offset Masking):对敏感信息进行位移处理,例如将数值加减特定的偏移量。
4.数据脱敏的常见方法
(1)随机化:通过将敏感数据替换为随机值或者伪随机值,保护原始数据的真实性。例如,将姓名替换为随机字符串;
(2)掩码:通过将敏感数据的一部分替换为掩码,隐藏部分敏感信息。例如,将电话号码的后四位替换为星号;
(3)加密:通过对敏感数据进行加密,保护数据的机密性。例如,对信用卡号码进行加密;
(4)截断:通过截断敏感数据的一部分或全部,限制访问敏感信息的范围。例如,只显示姓名的首字母;
(5)数据分区:将敏感数据分成多个区域,在不同的区域应用不同的脱敏技术,保护数据的隐私和机密性;
(6)虚拟化:在测试和开发环境中使用虚拟数据代替真实数据,虚拟数据可以是随机生成的、采样的或者是经过脱敏处理的;
(7)数据屏蔽:通过定义数据访问权限、角色和规则,限制用户访问敏感数据的范围和权限,保护数据的机密性和完整性;
(8)数据分类:将数据按照敏感程度分类,对不同级别的数据采用不同的脱敏技术和措施,保障数据的安全性。