一文搞懂隐私计算

简介: 一文搞懂隐私计算


隐私计算(Privacy computing)是指在保证数据不对外泄露的前提下,由两个或多个参与方联合完成数据分析计算相关技术的统称。

隐私计算作为跨学科技术,以密码学为核心理论, 结合了大数据、人工智能、区块链等多领域知识。其这些技术路线中,以安全多方计算为代表的基于密码学的隐私计算技术、以联邦学习为代表的人工智能与隐私保护技术融合衍生的隐私计算技术、以可信执行环境为代表的基于可信硬件的隐私计算技术是目前隐私计算的三大主流关键技术。

1. 安全多方计算

安全多方计算SMC,Secure Multi-party Computation)是指在一个互不信任的多用户网络中,n nn个参与者P 1 , P 2 , . . . , P n P_1,P_2,...,P_nP1,P2,...,Pn,每个持有秘密数据x i x_ixi,希望共同计算出函数f ( x 1 , x 2 , . . . , x n ) = ( y 1 , y 2 , . . . , y n ) f(x_1,x_2,...,x_n)=(y_1,y_2,...,y_n)f(x1,x2,...,xn)=(y1,y2,...,yn)P i P_iPi仅得到结果y i y_iyi,并且不泄露x i x_ixi给其他参与者。

安全多方计算问题由由中国计算机科学家、2000年图灵奖获得者姚启智教授于1982年在论文《Protocols for secure computations》中以百万富翁问题(提出,开创了密码学研究的新领域。

安全多方计算主要聚焦于秘密共享同态加密比特承诺零知识证明混合网络不经意传输等基本模块的研究,以及隐私集合交集(PSI,Private Set Intersection)、隐私信息检索(PIR,Private Information Retrieval)等特定安全多方计算问题的解决。

2. 联邦学习

联邦学习(FL,Federated Learning)的基本思想是各参与方从中心服务器下载现有参数模型,然后使用本地原始数据进行模型训练,并将训练后的更新模型加密上传至中心服务器,中心服务器将收集到的各参与方的更新模型进行聚合计算,最终产生新的适用全局的最佳模型。

联邦学习以数据收集最小化为原则,参与方原始数据不出本地库,只交换加密的中间结果,有效实现了 参与方数据的隐私保护。

根据参与方提供的训练数据的样本和特征重合情况,联邦学习分为横向联邦学习、纵向联邦学习以及联邦迁移学习。

(1)横向联邦学习适用于样本重合度低、特征重合度高的场景,通过增加具有相同特征的样本数量来提升模型训练效果。

(2)纵向联邦学习适用于样本重合度高、 特征重合度低的场景,通过丰富相同 样本的特征维度来优化模型。

(3)联邦迁移学习适用 于样本重合度低、特征重合度也低的场景,通过迁移学习解决单边数据规模小以及标签缺失或样本少的问题,以提升模型 训练效果。

3. 可信执行环境

可信执行环境(TEE,Trusted Execution Environment, )是一种基于软硬件的安全架构,通过复用中央处理器或划分部分内存为安全区域,构建出一个与外部相隔离的安全计算环境,所有敏感数据均汇聚在该安全区域内进行计算,未经授权访问 ,其他任何外部攻击者,包括系统管理人员均无法控制环境内的运算执行,也无法获取环境内的敏感数据,硬件隔离充分保证了环境内敏感数据 隐私计算的安全性。

目前可信执行环境的实现技术 主要有Intel的SGX、ARM 的 TrustZone等。

4. 隐私计算三类技术比较

  • 安全多方计算因其基于密码学原理,安全性高,且不依赖于可信第三方,相对联邦学习和可信执行环境技术成熟度高,不过由于其基于密码学操作,随着参与方的不断增多会导致计算复杂度的增加。
  • 联邦学习因原始数据不流出,一定程度上满足了数据的隐私安全需求,且不依赖于可信第三方,可解决算法复杂的建模问题,因此性能方面存在一定的瓶颈,需结合其他隐私保护技术才能保证数据隐私安全。
  • 可信执行环境通用性好、准确性高,因原始数据不流出硬件隔离环境故安全性高,可单独用于隐私计算,也可以与其他隐私保护技术相结合,计算性能高,但需要确认硬件厂商是否可信。
关键技术 安全多方计算 联邦学习 可信执行环境
基本思想 基于密码学 数据不动模型动 基于可信硬件
性能 低到中
通用性
准确性 中到高
安全性 中到高
可信方 不需要 不需要 需要
成熟度 成熟 快速增长的创新阶段 快速增长的创新阶段
数据流动 原始数据加密后流出 原始数据不流出 原始数据不流出
计算模式 分布式 分布式 中心化
硬件要求 通用硬件 通用硬件 专用硬件
实现难度 开发难度大 易开发 开发难度大
支持场景 任意计算 机器学习建模 任意计算
相关文章
|
算法 数据挖掘 调度
隐语实训营-第3讲:详解隐私计算框架的架构和技术要点
主要介绍隐语的隐私计算架构,并对每个模块进行拆解、分析,以期望不同使用者找到适合自己的模块,快速入手。
382 4
|
机器学习/深度学习 算法 数据可视化
# 隐私计算实训营note#3 详解隐私计算框架及技术要点
这一讲的内容是介绍蚂蚁的SecretFlow框架[第3讲:详解隐私计算框架及技术要点](https://www.bilibili.com/video/BV1dJ4m1b7AX/)。
|
分布式计算 算法 调度
课3-详解隐私计算框架的架构和技术要点
隐语架构涵盖产品、算法、计算、资源和硬件五层,旨在实现互联互通和跨域管控。产品层包括SecretPad等,简化用户和集成商体验。算法层涉及PSI/PIR、SCQL和联邦学习,提供隐私保护的数据分析和学习。计算层如RayFed、SPU、HEU等,支持分布式计算和密态处理。资源层的KUSCIA用于跨机构任务编排,硬件层涉及FPGA等加速器。互联互通支持黑盒和白盒模式,确保不同平台协作。跨域管控则强调数据流转控制,保护数据权益。
|
机器学习/深度学习 并行计算 安全
安全多方计算之一:什么是安全多方计算
安全多方计算之一:什么是安全多方计算
1926 0
|
Ubuntu 调度 Docker
2024.3.21隐语训练营第4讲笔记:SecretFlow & SecretNote安装部署
本文介绍了SecretFlow和SecretNote的安装和部署
1062 3
|
数据采集 存储 分布式计算
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)
28816 2
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)
|
6月前
|
人工智能 安全 算法
数据共享又怕泄露?聊聊隐私计算:让数据“可用不可见”的绝活儿
数据共享又怕泄露?聊聊隐私计算:让数据“可用不可见”的绝活儿
1062 15
|
算法 安全 大数据
隐私计算实训营第5讲-------隐私求交和隐语PSI介绍以及开发实践
隐私求交(Private Set Intersection, PSI)是利用密码学技术在不暴露数据集以外信息的情况下找到两集合的交集。隐语SPU支持三种PSI算法:ECDH(适合小数据集)、KKRT(基于Cuckoo Hashing和OT Extension,适合大数据集)和BC22PCG(使用伪随机相关生成器)。ECDH基于椭圆曲线 Diffie-Hellman,KKRT利用OT Extension实现高效处理,而BC22PCG通过压缩满足特定相关性的随机数减少通信量。此外,还有基于Oblivious Pseudo-Random Function (OPRF)的PSI协议。
1925 0
|
机器学习/深度学习 安全 算法
「机密计算-隐私计算」科普
「机密计算-隐私计算」科普
2064 0
|
机器学习/深度学习 分布式计算 安全
一文详解隐私计算「四大技术路线」
隐私计算是一个快速发展的领域,涉及密码学、安全硬件、信息论、分布式计算等多个学科。目前公开的隐私计算技术资料和白皮书已经非常丰富,但是缺乏对各技术优缺点的深入分析和对比。本文将从性能、安全、隐私、功能、研发难度等多个角度分析对比各技术路线。
一文详解隐私计算「四大技术路线」

热门文章

最新文章