韦韬:“可算不可识”是实现个人隐私保护和数据产业发展的平衡点

简介: 《个人信息保护法》颁布后,企业如何通过技术手段按照法律要求保护个人隐私?2021年(第七届)中国互联网法治大会顺利闭幕。大会围绕“守正创新依法强网”主题,展示互联网法治前沿技术,总结互联网法治创新成果,共话互联网法治趋势热点,同绘互联网法治发展蓝图。

《个人信息保护法》颁布后,企业如何通过技术手段按照法律要求保护个人隐私?

2021年(第七届)中国互联网法治大会顺利闭幕。大会围绕“守正创新依法强网”主题,展示互联网法治前沿技术,总结互联网法治创新成果,共话互联网法治趋势热点,同绘互联网法治发展蓝图。

大会上,蚂蚁集团副总裁、蚂蚁集团安全隐私科技委员会主席韦韬受邀围绕“数据安全和个人隐私保护”做了主论坛演讲。韦韬提出:通过隐私计算技术达到“可算不可识”是实现个人隐私保护和数据要素行业发展平衡的关键。这也是数据安全领域业界专家首次在隐私计算领域提出“可算不可识”的概念。截屏2021-11-30 上午9.17.33.png

       个保法构建了全新的授权墙

隐私最初出现在《民法典》,《个保法》(个人信息保护法)逐渐的把它从民法的理念发展成一个可以进行技术管控的,更加有技术成分可管控的技术目标。隐私保护的核心的技术目标还是个人信息使用的管控。个人信息的本质是个人身份到个人的属性和行为数据的映射关系,而对它的管控离不开整个信息处理的环境。

《个保法》对于个人信息的使用出现了27次同意,这27个同意构建了全新的授权墙,这个授权墙为整个的隐私权益构建了一个非常坚实的保障基础。这是对个人隐私权益保障的一个非常巨大的进步。

同时,授权墙也给数据要素的使用和价值流通带来的新的技术挑战。比如在人工智能领域,数据要素是关键生产资料。机器学习模型训练需要无偏见的训练数据,否则产生的模型效果会非常差。这需要我们在技术上找到解决方案,避免给数据要素在人工智能领域的应用带来严重制约。

《个保法》对于个人信息的合规使用有很好的思考。它明确指出:匿名化处理后的信息是不包括在个人信息里面的。而匿名化是指个人信息经过处理,无法识别特定自然人且不能复原这样的过程。我们认为未来整个行业需要这样的一个平衡点,在坚持《个保法》授权墙对个人隐私权益保障的同时,要能够提升各领域对数据要素应用的能力,推动整个数据要素行业发展。

“可算不可识”是
个人信息保护和行业发展的平衡点

    在这里,我们要提一个概念:“可算不可识”。首先要满足匿名化的要求,不能够识别到特定的自然人。另外,要可算,假如说数据完全没有办法计算,没有办法产生数据价值,那么这个数据要素行业也无法发展,所以我们认为“可算不可识”是未来一个关键的行业发展的平衡点。

相比于产业界目前提得比较多的“可用不可见”、“原始数据不出域”而言,“可算不可识”是一个另外独立维度的要求。“可用不可见”和“原始数据不出域”都是关于数据如何处理的维度,而“可算不可识”则集中在数据无授权的情况下如何来保障个人信息隐私权益。

在数据要素使用和价值流通过程中有很多场景,包括像机器学习的模型训练场景,像非模型类的规则训练场景以及其他的大数据处理场景,比如像统计、趋势预测等等。这些都要通过“可算不可识”技术来保障特定自然人身份不能够被识别。

        个人信息隐私保护

      强依赖于安全的受控环境

匿名化在学术界和工业界经过几十年的研究和实践,逐渐意识到在开放空间里高维关联之下是没有办法做到绝对的匿名化。

举两个例子。

一个“是美国在线”(AOL)。2006年,为了学术研究,AOL公开了一些做了去标识和脱敏处理的匿名化的搜索记录。但是《纽约时报》通过这些记录,找到了真实世界中对应的一个人。后来AOL遭到起诉,为此赔偿了大概总额高达500万美金的罚款。

无独有偶,Netflix是大家非常熟悉的美国网络影视公司,它也是为了举办一个预测算法比赛,公布了一部分做了去标识脱敏处理的用户评分,结果被UTAustin的两位研究者关联到IMDb,识别出了其中一些用户身份。2010年 Netflix为此被罚款900万美金。

即便是把数据做了去标识和脱敏,但是它是在一个开放空间中公开的,那么全球的人都可以使用无限制的数据来做关联。在这种条件下,是没有办法保障绝对的匿名化的。也就是说,开放的高维关联之下,绝对的匿名化意味着从个体颗粒度的数据要素在价值上是要绝对的毁损,否则难以避免关联出它背后特定自然人,没有办法绝对避免这种概率。

业界逐渐形成了共识:未来行业发展出路在于相对匿名化,相对匿名化并不是说最后效果概率的大小的问题,而是说对环境的控制的问题。它不是一个绝对开放空间中的匿名化保证,而是在一个受控环境中提供的严格匿名化的保障。我们认为安全的受控环境是相对匿名化的一个必要的条件,在这样的环境里对数据处理和关联,要做到可管控、可审计、可取证。

匿名化的失效,即重新识别特定自然人,主要通过两个途径:一个是个人身份识别信息(PII)。比如PII泄露,就是个人身份识别信息泄露直接可以找到某一个特定的自然人,比如身份证号、手机号、银行卡号等等;另外是通过个人的属性行为数据导致的个人身份泄露。由于某些个人属性行为数据的独特性,是可以间接识别出特定自然人的身份。

本质上,这些泄漏都是个人相关数据的独特性泄露导致。我们认为在未来的实践中,数据要素价值要实现“可算不可识”强依赖于安全的受控环境。

在这个环境中主要对几点进行管控:数据的过程,结果和生命周期。在这里面要对所有可能产生数据关联的通道进行强管控:包括研发过程的中间数据,可以通过如动态K匿名等方法防止重识别;另外在结果输出的时候,要防止输出结果由于精度过高,有机会导致原始属性行为数据通过数据信息传导导致个人身份的间接泄露。

在受控环境中,要通过加入差分隐私噪音或者是泛化/有效位截断等方式来实现隐私保障。另外,受控环境需要在存储和传输的时候要做数据的全链路加密,来防止存储和网络的带外信道致信息泄露。

          可信计算技术

         实现“可算不可识”

为了实现这些要求,核心诉求还是数据的处理和输出是能够严格按照规范或者共识来做管控的。现在很多同行也在讨论相关的问题和技术。

比如,是不是一定要用中心化环境?我们能看到随着技术引进,可以是分布式的,不一定是中心化的。另外,区块链是可以协助固化最终审计结果。但区块链自身并不能保障上报数据和审计结果真实可信,还需要更基础性的技术支持。此外,多方安全计算和同态加密是数据的安全处理方法,它并不能改变个人数据被使用本质。

相对匿名化需要受控环境与外部进行有效的隔离,防止产生开放的数据关联。另外,数据处理和输出的管控机制是可以远程验证的。实际场景中有很多分布环境,可能你用来处理数据的机器并不是直接归你管控的资产。我们需要有可以进行远程验证的机制来保障它是符合你的安全要求的,保障数据处理和和输出的过程和结果是可以远程审计的。

在技术发展到今天,我们认为,可信计算技术能够为相对匿名化提供非常好的安全管控的环境。

可信计算技术是隐私计算技术中的底层技术,最初是由可信计算组(TCG)推动和开发的技术,在国内也得到了非常广泛的推广,已经成为等保四级的关键支撑技术。

可信计算在计算机启动时刻就开始进行安全度量,而且有硬件可信模块TPM/TCM以及软硬件协同保障的完整的验证链。可信计算技术可以保障运行在可信设备上的代码行为符合安全设计和共识要求,支持包括对运行环境的隔离,防止恶意应用干扰可信设备中应用的执行;支持做远程验证,能够确认网络上的设备是符合我们规范软硬件要求的可信方,从而可以有效支持多中心和分布式的计算部署。

我们将可信计算技术应用在相对匿名化领域,大家可以看到这事非常好的一个契合:它能够提供运行环境隔离,能够把数据的存储、传输和处理有效的和外部隔离,能够支撑技术保障的远程验证能力,能够使得数据的处理输出管控机制可以远程验证和审计,而且支持后期上链等操作。

                   结语

我们相信个人信息保护和数据要素的协同发展,需要全行业的共同支持和努力。我们认为,相对匿名化将是一个关键的行业选择。可信计算技术能够为相对匿名化提供包括共识审计、远程验证和安全隔离等能力的安全受控环境,从而支持业界在此基础之上实现“可算不可识”,即在满足匿名化要求的同时,来提升数据要素应用的能力,最终实现隐私保护和数据要素行业发展的平衡点。

《个保法》给法律界和技术领域的同行们提供了全新的很有意义的挑战,还有很多的工作需要行业专家更多的交流探讨,后继的标准规范也需要全行业共同的努力。

相关文章
|
机器学习/深度学习 人工智能 供应链
韦韬:迈进数据密态时代,安全隐私正从行业奢侈品变成必需品
数据要素是数字经济时代的重要资源。习总书记明确指出“网络安全和信息化是一体之两翼、驱动之双轮,必须统一谋划、统一部署、统一推进、统一实施。”在2022年1月,国务院发布《“十四五”数字经济发展规划》明确坚持“创新引领、融合发展,应用牵引、数据赋能,公平竞争、安全有序,系统推进、协同高效”的原则。
409 0
韦韬:迈进数据密态时代,安全隐私正从行业奢侈品变成必需品
|
人工智能 监控 搜索推荐
互联网冲击下,失去隐私的人类未来会怎样?
在看过来越来越觉得大数据正在将人类隐私驱逐出去,而数字化无隐私生存的大时代也已降临。
253 0