安全多方计算之十:联邦学习与安全多方计算

简介: 安全多方计算之十:联邦学习与安全多方计算


1. 联邦学习

联邦学习(FL,Federated Learning)是谷歌于2016年提出的一种分布式机器学习框架,可以在保护个人数据隐私的前提下,联合多方用户的数据实现模型训练

联邦学习用于解决“数据孤岛”问题,核心思想是“数据不动模型动,数据可用不可见”。

  • 传统机器学习中,数据需集中在一起进行模型训练,这样会暴露个人隐私,且数据共享也面临信任问题。
  • 联邦学习中,数据被分散在多个地方,每个地方的数据在本地进行处理形成本地模型,本地模型通过联邦学习算法进行汇聚和更新,最终得到一个全局模型。这样既保护了隐私,同时也避免了数据共享的信任问题。

联邦学习的应用场景非常广泛,如医疗领域,由于涉及到患者的隐私数据,传统的中心化机器学习方法难以实现,而联邦学习可以实现不同医院之间模型的共享和更新,从而提高诊断和治疗的准确性和效率;金融领域,联邦学习可用于风险控制、欺诈检测等,提高金融机构的业务效率和风险管理能力;智能物联网领域,联邦学习可用于实现不同设备之间的智能交互和协作,提高智能物联网系统的性能和可靠性。

2. 安全多方计算

安全多方计算(SMC,Secure Multi-party Computation)由由中国计算机科学家、2000年图灵奖获得者姚启智教授于1982年在论文《Protocols for secure computations》中以百万富翁问题(两个百万富翁Alice和Bob想知道他们两个谁更富有,但他们都不想让对方及其他第三方知道自己财富的任何信息),开创了密码学研究的新领域。

安全多方计算定义:是指在一个互不信任的多用户网络中,n nn个参与者P 1 , P 2 , . . . , P n P_1,P_2,...,P_nP1,P2,...,Pn,每个持有秘密数据x i x_ixi,希望共同计算出函数f ( x 1 , x 2 , . . . , x n ) = ( y 1 , y 2 , . . . , y n ) f(x_1,x_2,...,x_n)=(y_1,y_2,...,y_n)f(x1,x2,...,xn)=(y1,y2,...,yn)P i P_iPi仅得到结果y i y_iyi,并且不泄露x i x_ixi给其他参与者。

安全多方计算同样广泛应用于政务、医疗、金融、交通等各个领域中保护隐私的数据统计、数据分析、数据挖掘。如用户画像要从多个数据源中获取用户的身份、属性、行为、关系等各类数据,并进行群体的分析挖掘。但在数据的获取与计算过程中会导致用户隐私泄露,可使用安全多方计算技术,在保护隐私的情况下,对数据进行分析计算。

3. 联系与区别

(1)联系

联邦学习和安全多方计算都是解决数据隐私保护问题的技术,有以下共同点:

  • 都是在多个参与方之间进行数据计算和交互
  • 都是在不共享原始数据的情况下进行数据计算
  • 都需要使用加密算法和协议来保障数据安全性

(2)区别

  • 目的不同。联邦学习的目的是使用多方数据进行模型训练,从而提高模型的准确性和性能;安全多方计算的目的是在多个参与方之间进行数据计算,共同得出结果。
  • 数据处理方式不同。联邦学习中,各方将自己的本地模型参数上传进行聚合,从而得到全局模型;安全多方计算中,数据计算是通过密文交互实现的。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6天前
|
机器学习/深度学习 算法 数据可视化
# 隐私计算实训营note#3 详解隐私计算框架及技术要点
这一讲的内容是介绍蚂蚁的SecretFlow框架[第3讲:详解隐私计算框架及技术要点](https://www.bilibili.com/video/BV1dJ4m1b7AX/)。
|
6天前
|
算法 数据挖掘 调度
隐语实训营-第3讲:详解隐私计算框架的架构和技术要点
主要介绍隐语的隐私计算架构,并对每个模块进行拆解、分析,以期望不同使用者找到适合自己的模块,快速入手。
55 4
|
6天前
|
机器学习/深度学习 并行计算 安全
安全多方计算之一:什么是安全多方计算
安全多方计算之一:什么是安全多方计算
|
6天前
|
机器学习/深度学习 算法 安全
隐私计算训练营第三讲-详解隐私计算的架构和技术要点
SecretFlow 是一个隐私保护的统一框架,用于数据分析和机器学习,支持MPC、HE、TEE等隐私计算技术。它提供设备抽象、计算图表示和基于图的ML/DL能力,适应数据水平、垂直和混合分割场景。产品层包括SecretPad(快速体验核心能力)和SecretNote(开发工具)。算法层涉及PSI、PIR、数据分析和联邦学习(水平、垂直、混合)。此外,SecretFlow还有YACL密码库和Kusica任务调度框架,Kusica提供轻量化部署、跨域通信和统一API接口。
85 0
|
6天前
|
监控 安全 数据可视化
第9讲:隐语多方安全计算在安全核对的行业实践丨隐私计算实训营 第1期
行业法规趋势强调数据安全与隐私保护,如《个人信息安全规范》、《数据安全法》和《个人信息保护法》,倡导最小权限原则和数据的有效利用。产品方案致力于在保障安全和隐私的前提下促进数据共享。技术共建中,与隐语合作构建安全自证能力,包括可审查性、可视化监控和可攻防的验证机制,确保数据操作透明且安全。
23 1
|
6天前
|
SQL 安全 数据挖掘
隐私计算实训营第7讲:隐语SCQL的架构详细拆解丨隐私计算实训营 第1期
SCQL是安全协作查询语言,让不信任的多方能在保护隐私的前提下进行联合数据分析。它假设参与者半诚实,支持多方(N>=2)合作,且具备SQL语法支持和性能优化。SCQL提供类似SQL的用户界面,通过CCL机制允许数据所有者控制数据使用权限。系统基于SPU的MPC框架运行,适用于多个应用场景。
30 0
|
6天前
|
安全 数据可视化
课9-隐语多方安全计算在安全核对的行业实践
该文档介绍了隐私计算技术在助贷平台业务中的应用,通过风洞隐私安全核对方案实现数据比对而不泄露信息。风洞方案支持规模化核对,特色功能在于适应不同场景。技术共建部分提到,使用SCQL进行差异化产品表达,分为安全核对和联合策略两个方面,并与隐语合作开发安全自证功能,确保可审查和可视化。未来面临低门槛、高性能、易用性和实时性的挑战。
|
6天前
第8讲:隐语SCQL的开发实践丨隐私计算实训营 第1期
SCQL 提供中心化和P2P两种部署架构。中心化依赖第三方的SCDB,各数据方仅需SCQLEngine;P2P模式无第三方,各数据方需SCQLEngine和SCQLBroker。使用流程包括配置、注册、启动和执行查询。P2P部署实践展示详细步骤。[查看部署教程](https://www.secretflow.org.cn/zh-CN/docs/scql/0.5.0b2/intro/p2p-tutorial)。
32 0
|
6天前
|
Linux
隐私计算实训营 第1期 - 第5讲:隐语PSI介绍及开发实践
在本文档中,介绍了如何在两个虚拟机上安装和配置SecretFlow和SecretNote。首先,环境配置包括一台运行CentOS 7.9的虚拟机(Alice节点)和一台运行Rocky Linux 9.3的虚拟机(Bob节点),均为8核16GB内存。 之后,文档展示了如何在SecretNote中上传数据并创建Notebook执行PSI(Private Set Intersection)任务。过程中需要注意Ray版本兼容性问题,以及最终成功执行后的结果展示。
|
6天前
|
算法 数据库
隐私计算实训营第6讲-------隐语PIR介绍及开发实践丨隐私计算实训营 第1期
隐匿查询(PIR)允许用户在不暴露查询内容的情况下检索服务器数据库。PIR分为单服务器和多服务器方案,以及Index PIR和Keyword PIR两类。隐语目前实现了单服务器的SealPIR(用于Index PIR)和Labeled PSI(用于Keyword PIR)。SealPIR优化点包括:数据打包、查询向量压缩、支持多维和多个查询。未来,隐语PIR的计划包括性能提升、多服务器方案和新算法的探索。
93 3