一文详解隐私计算「四大技术路线」

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 隐私计算是一个快速发展的领域,涉及密码学、安全硬件、信息论、分布式计算等多个学科。目前公开的隐私计算技术资料和白皮书已经非常丰富,但是缺乏对各技术优缺点的深入分析和对比。本文将从性能、安全、隐私、功能、研发难度等多个角度分析对比各技术路线。

在满足数据安全、隐私保护和监管合规的前提下,链接数据孤岛,实现多方协同释放数据要素价值,是当前大数据技术发展应用的一大难题,而隐私计算正是解决这一难题的技术方案。

隐私计算又称为隐私增强计算、隐私保护计算,是目前业界认可的、能在数据要素流通融合中有效保护数据隐私的信息技术。

随着各国隐私保护法规的陆续出台、隐私保护意识的觉醒,近年来欧美、中日韩等国家和地区加快了对隐私计算的研发和商用步伐,其中代表性的国外厂商有谷歌、微软、Intel、Inpher、Duality等。

隐私计算是一个快速发展的领域,涉及密码学、安全硬件、信息论、分布式计算等多个学科。目前公开的隐私计算技术资料和白皮书已经非常丰富,但是缺乏对各技术优缺点的深入分析和对比。本文将从性能、安全、隐私、功能、研发难度等多个角度分析对比各技术路线。

隐私计算四大技术路线

首先需要明确的是,隐私计算并非单一的技术,而是包含多种隐私保护技术/隐私增强技术,涉及密码学、安全硬件、信息论、分布式计算等多个学科。

隐私计算基于其实现隐私保护的原理可分为密码学、可信执行环境、信息混淆脱敏、分布式计算四类路线,其中的主要代表技术有多方安全计算、差分隐私、匿名化、联邦学习等。

这些技术在可支持计算、隐私保护维度、隐私保护强度、安全性、性能等方面有较大差异,分别适合不同的应用和场景。有时也需要结合使用两种或多种技术来满足应用需求。

image.png

隐私计算各技术路线对比

▌密码学路线

  其代表技术是多方安全计算MPC(secure Multi-Party Computation)。这一路线是在“密态”下进行数据的计算、检索等处理,这一过程中输入数据、中间结果处于密态不暴露,只输出最终结果。

▌可信执行环境路线

  其方法是通过可信的抗篡改的软硬件构建一个可信的、难以被外界窃听内部数据的安全环境,数据在该环境中由可信的程序进行处理。

▌信息混淆脱敏路线

  其主要代表技术是匿名化和差分隐私。其典型方法是通过加噪、删除、泛化等信息处理手段对数据处理以减少或去除其中的敏感信息后再输出。

▌分布式计算路线

  其代表是联邦学习FL(Federated Learning)和分割学习(Split Learning)。大多分布式计算任务原始数据不需要对外输出,只需输出本地基于原始数据计算的中间结果。

路线一:密码学

image.png

MPC是该路线中最具代表性的技术,它可以支持多方数据的各种计算,除了可以保护各方数据隐私,还可以实现结果管控:只让指定方获得计算结果或结果的一部分。

而且采用MPC的每次计算都需要各方的配合协作,因此各方可以很好控制数据的用途(参与了什么计算任务)、用量(参与了几次计算、哪些字段参与了计算),容易实施数据最小化使用原则,防止数据滥用和非授权使用。

MPC的挑战和局限:

1)性能挑战

密态下计算性能远低于明文计算和TEE路线。对于不少计算任务,可以通过离线预计算、硬件加速等方式缩短MPC的在线响应时间。但对于部分要求高QPS、低响应的复杂在线计算任务,目前的MPC技术还是难以满足要求。

比如,对于大型的DNN/CNN模型的MPC推理耗时为分钟级。

2)安全挑战

虽然密码学给MPC的安全性提供了非常高的保障,但是由于MPC的性能挑战,不少MPC协议采用的安全模型是弱化的(相对于身份认证、密钥协商等密码协议)。

例如:安全模型假设无合谋(参与方之间不会合谋以窃取其他方数据)、不偏离协议(每个参与方都忠实执行规定的MPC协议)。若无合谋假设不成立,则数据会泄露;若不偏离协议假设不成立,不少MPC协议也存在数据泄露风险。

因此,在应用MPC产品时,需注意其安全模型是否达到业务的要求。除了使用强安全模型的MPC协议,一种解决办法是将MPC和TEE结合:各参与方将其MPC软件运行在其TEE中,通过TEE来保证不偏离协议和增大合谋攻击的难度。

3)功能挑战

功能完备的MPC产品研发挑战很大,需要投入很多资源。研发功能丰富高性能的分布式机器学习、数据分析产品已经挑战很大,研发基于MPC的密态机器学习、数据分析产品挑战更大。目前业内的大多MPC产品与传统的AI平台、数据库相比,功能还是欠缺很多,需要时间来完善。

路线二:可信执行环境

image.png

可信执行环境(TEE)的方法是通过可信的抗篡改的软硬件构建一个可信的安全环境,数据在该环境中由可信的程序进行处理。该环境具备一定抵抗外界窃取数据、篡改数据、篡改程序的能力。目前较为成熟的可信执行环境方案有SGX、Trustzone等。

与MPC一样,TEE同样具备以下优点:支持任意计算逻辑、结果输出可控、数据用途用量控制、计算正确性校验。两者的差异源于实现机制和安全前提的不同,TEE依赖于特定软硬件的安全性,MPC依赖于密码算法的安全性。

由于避免了复杂的密码学计算和协议,TEE其性能远高于MPC,基于的TEE隐私计算产品研发也相较容易:可以将现有的机器学习、统计分析等软件迁移或适配到TEE下,实现隐私计算的机器学习、统计分析等。

TEE的局限性主要在于需要特定TEE硬件设备,而且需要依赖硬件产品的安全性(不存在安全漏洞,没留后门),硬件安全性的检测通常难以进行。增强硬件安全的可信度的方法有TEE硬件国产化和权威机构检测。

路线三:信息混淆脱敏

image.png

它的主要代表是匿名化和差分隐私,其方法是通过加噪、删除、泛化等信息处理手段对数据处理以减少或去除其中的敏感信息后再输出。

例如,医学主管单位将采集的个人数据/疫情数据匿名化和脱敏后公开发布,供广大医疗机构研究,供各机构和民众做好防疫工作。在这样的场景下,数据的合理用途非常广、用量非常大,MPC或TEE使用成本高、权限管控太严,限制了数据的流通和利用。而信息混淆脱敏路线具备低成本、高性能、实现简易的优势。

缺点是难平衡隐私保护和数据可用性的矛盾:混淆脱敏去除了部分信息(或降低了部分信息精度),而某些计算和分析可能需要使用这些信息(或需要使用高精度的信息)。在这种情况下,就还需要采用MPC或TEE。

信息混淆脱敏另一大用途是:作为辅助,结合其他隐私技术路线(如MPC、TEE)用于联合计算,减少可从结果中得到敏感信息。MPC、TEE可以保护输入数据、中间计算结果不泄露,但是如果最终计算结果包含敏感信息,则还需要采用信息混淆脱敏处理后再输出最终结果,或者对输入数据、中间结果应用信息混淆脱敏。

路线四:分布式计算

image.png

该路线的代表是联邦学习、分割学习及弱PPML(暴露中间计算结果的隐私保护机器学习PPML,联邦学习和分割学习为弱PPML特例)。

大多分布式计算任务不需要各节点间交互原始输入数据,只需交互本地基于原始数据计算的中间结果。相比较把各方数据汇聚在一起再计算的集中式计算方法,分布式计算大为减少了原始信息的泄露。但与MPC、TEE方式相比隐私保护弱,额外泄露了中间结果信息。

以联邦学习为例,它沿用了传统分布式机器学习的参数服务器-工作服务器架构。

image.png

                 联邦学习典型架构

这一架构中,一个中心服务器作为参数服务器协调多个数据方的服务器(作为工作服务器)进行联合机器学习训练,各工作服务器基于本地样本数据计算出的梯度信息交给参数服务器进行汇聚,参数服务器将最新迭代的模型参数下放给各工作服务器。

与传统分布式机器学习的区别在于:每个worker/数据方是一个独立的实体,各自持有自己的训练样本(全体样本的子集),而不是所有worker和样本属于同一机构,这一数据分布方式被称为数据水平分割(对应分割学习场景中常见的数据垂直分割)。这一架构缺乏对计算结果的管控,即任一参与方都能得到模型参数。

联邦学习另一个弱点是计算中间信息(梯度)的泄露,多项研究表明该泄露有暴露原始数据敏感信息的风险。为了减少梯度信息泄露,联邦学习一般采用MPC或者差分隐私技术进行各方梯度的汇聚。

需要注意的是:两方联邦学习无法采用MPC减少信息泄露,因为任一方从两方梯度汇聚结果就能推出对方梯度,采用MPC进行梯度安全汇聚需要更多数据方才有意义。

【注】联邦学习的定义和范畴问题。联邦学习没有业内一致认可的严格定义。除了上述典型架构外,一些厂商和科研成果机构还提出了新的联邦学习架构,包括用于数据垂直分割场景的架构。然而这些架构是否属于联邦学习在业内特别是学术界没有共识,不少架构其实属于分割学习。为了产品推广方便和市场教育简化,业内不少厂商和用户所指的联邦学习范畴其实还覆盖了分割学习、其他弱PPML甚至是MPC机器学习。为了便于对比分析各技术,本文所指的联邦学习为典型的得到共识的架构。

总结

每种隐私计算路线各有优缺点,在不少场景中可以结合使用以扬长避短。

image.png

对于业内最为关注的面向联合计算的通用隐私计算产品,技术路线建议如下:

MPC、TEE双引擎。从计算类型丰富度出发,必然需要采用MPC或TEE技术路线以支持各种计算。MPC、TEE两者在安全和性能上各有权衡。理想的隐私计算产品应支持MPC、TEE双引擎,让用户能根据具体场景灵活选择引擎使用。

分布式计算作为补充。在部分建模场合(模型无需管控、中间信息泄露可接受)可以采用联邦学习、分割学习、弱PPML作为补充,以提升性能;且联邦学习/分割学习采用MPC减少中间信息泄露。

信息脱敏混淆作为辅助。其中,最有代表性的是将差分隐私用于基于MPC/TEE的安全统计分析结果的保护,防止差分攻击。

关注我,及时获取前沿科技信息~

image.png
摩斯官网:https://antdigital.com/products/morse?Source=shequn

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7月前
|
算法 数据挖掘 调度
隐语实训营-第3讲:详解隐私计算框架的架构和技术要点
主要介绍隐语的隐私计算架构,并对每个模块进行拆解、分析,以期望不同使用者找到适合自己的模块,快速入手。
131 4
|
7月前
|
存储 弹性计算 安全
带你读《从基础到应用云上安全航行指南》——一文教你如何从零构建机密计算平台解决方案(1)
带你读《从基础到应用云上安全航行指南》——一文教你如何从零构建机密计算平台解决方案(1)
257 0
|
7月前
|
SQL 安全 API
带你读《从基础到应用云上安全航行指南》——一文教你如何从零构建机密计算平台解决方案(3)
带你读《从基础到应用云上安全航行指南》——一文教你如何从零构建机密计算平台解决方案(3)
147 0
|
10天前
|
存储 NoSQL 关系型数据库
从大数据到大模型:如何做到“心无桎梏,身无藩篱”
在大数据和大模型的加持下,现代数据技术释放了巨大的技术红利,通过多种数据范式解除了数据的桎梏,使得应用程序达到了“心无桎梏,身无藩篱”的自在境界,那么现代应用有哪些数据范式呢?这正是本文尝试回答的问题。
136 18
|
7月前
|
SQL 安全 数据挖掘
隐私计算实训营第7讲:隐语SCQL的架构详细拆解丨隐私计算实训营 第1期
SCQL是安全协作查询语言,让不信任的多方能在保护隐私的前提下进行联合数据分析。它假设参与者半诚实,支持多方(N>=2)合作,且具备SQL语法支持和性能优化。SCQL提供类似SQL的用户界面,通过CCL机制允许数据所有者控制数据使用权限。系统基于SPU的MPC框架运行,适用于多个应用场景。
162 0
|
7月前
第8讲:隐语SCQL的开发实践丨隐私计算实训营 第1期
SCQL 提供中心化和P2P两种部署架构。中心化依赖第三方的SCDB,各数据方仅需SCQLEngine;P2P模式无第三方,各数据方需SCQLEngine和SCQLBroker。使用流程包括配置、注册、启动和执行查询。P2P部署实践展示详细步骤。[查看部署教程](https://www.secretflow.org.cn/zh-CN/docs/scql/0.5.0b2/intro/p2p-tutorial)。
118 0
|
7月前
|
算法
隐私计算实训营 第1期-详解隐私计算框架的架构和技术要点
本文简要介绍了隐语技术架构的五层结构:产品层、算法层、计算层、资源层和硬件层。每层分别涉及模块功能、定位和人群画像,旨在使不同角色的用户能轻松理解和使用,降低隐私计算的入门难度。此外,隐语产品设计具有开放性和前瞻性,易于集成。
|
机器学习/深度学习 安全 算法
一文详解「隐私计算系统的安全攻防和实践」
摩斯科技技术负责人殷山,从安全攻防的角度解读隐私计算系统的安全性,通过分析攻击手段使我们对隐私计算安全有个系统全面的认识。点击查看全文~
一文详解「隐私计算系统的安全攻防和实践」
|
机器学习/深度学习 达摩院 监控
阿里巴巴开源联邦学习框架 FederatedScope,降低隐私保护计算技术开发应用难度
5 月 5 日,阿里巴巴达摩院发布新型联邦学习框架FederatedScope,该框架支持大规模、高效率的联邦学习异步训练,能兼容不同设备运行环境,且提供丰富功能模块,大幅降低了隐私保护计算技术开发与部署难度,该框架现已面向全球开发者开源。
1293 0
阿里巴巴开源联邦学习框架 FederatedScope,降低隐私保护计算技术开发应用难度