隐私计算FATE-核心概念与单机部署

简介: 隐私计算与传统数据使用方式相比,它不需要聚合各方数据搭建数据仓库,联邦学习在联合的过程中,多方机构之间的数据是不会进行共享的,实现数据的可用不可见;本文主要分享隐私计算平台Fate的相关基本概念,以及基于Docker的单机部署。

封面.jpg

一、说明

Fate 是一个工业级联邦学习框架,所谓联邦学习指的就是可以联合多方的数据,共同构建一个模型;

与传统数据使用方式相比,它不需要聚合各方数据搭建 数据仓库,联邦学习在联合计算建模的过程中,多方机构之间的数据是不会进行共享的,实现数据的 可用不可见;本文主要分享隐私计算平台 Fate 的相关基本概念,以及基于 Docker 的单机部署。

二、隐私计算

隐私计算 是指在保护数据本身不对外泄露的前提下实现数据分析计算的技术集合,实现数据的 可用不可见 的目的;在充分保护数据和隐私安全的前提下,实现数据价值的转化和释放。

图灵奖得主姚期智院士在1982年提出的 百万富翁 问题:

假设有两个百万富翁,都想比较谁更富有,但是他们都想保护自己的 隐私 不愿意让对方或者任何第三方知道自己真正拥有多少钱。如何在保护双方隐私的情况下,计算出谁更有钱呢?

此问题开创了安全多方计算领域,在如今以区块链为先导的一系列可信架构中,多方计算问题是建立机器信任的关键技术之一。

目前实现隐私计算的主流技术主要分为三大方向:第一类是以 多方安全计算 为代表的基于密码学的隐私计算技术;第二类是以 联邦学习 为代表的人工智能与隐私保护技术融合衍生的技术;第三类是以 可信执行环境 为代表的基于可信硬件的隐私计算技术。

不同技术往往可以 组合 使用,在保证原始数据安全和隐私性的同时,完成对数据的计算和分析任务。

三、联邦学习

在联邦学习当中主要有两种模式:

横向联邦

横向联邦.jpg

指的是在联合的多方当中,特征 是相同的,但是 用户 不一样;那么通过联合呢,就可以在训练模型时 扩展样本数量

例如:有两家不同地区银行(北京与广州)由于银行间的业务相似,所以数据的特征(字段)大概率是相同的;但是它们的用户群体分别来自北京与广州的居住人口,用户的交集相对较小;这种场景就比较适合使用 横向联邦 用于增加模型训练的用户数据 扩展数据量

纵向联邦

纵向联邦.jpg

指的是在联合的多方当中,各方的 用户 重叠较多,但是它们的 特征 是不一样的,那么通过联合呢,就可以在训练模型时 扩展特征维度

例如:同一地区的商场与银行,它们的用户群体很有可能包含该地的大部分居民,用户的交集可能较大;由于银行记录的都是用户的收支行为与信用评级,而商场则保有用户的购买历史,因此它们的用户特征交集较小;这种场景就比较适合使用 纵向联邦 用于增加模型训练的特征数量 扩展模型能力

四、Fate

FATE (Federated AI Technology Enabler)是微众银行人工智能团队自研的全球首个联邦学习工业级开源框架,它提供一种基于数据隐私保护的安全计算框架,为机器学习、深度学习、迁移学习算法提供强有力的安全计算支持。并内置保护线性模型,树模型以及神经网络在内的多种机器学习算法。

github地址: https://github.com/FederatedAI/FATE

在 Fate 里面存在以下三种角色:

Guest

为数据的应用方,指的是在实际的建模场景中有业务需求去应用这些数据;并且在纵向算法中,Guest 往往是有标签 y 的一方。

Host

为数据的提供方,通常它只是一个合作的机构负责提供数据来辅助 guest 完成这个建模,只是帮助提升训练效果。

Arbiter

为第三方协作者,用来辅助多方完成联合建模的,不提供数据主要是负责发放公钥,加解密,还有聚合模型等功能。

五、部署

5.1. 安装镜像

首先设置环境变量 version 用于后面指定 Fate 的版本,执行以下命令:

export version=1.8.0
使用的是当前最新版本,可按需修改。

镜像有 两种安装 方式,选其一即可;

方式一 如果服务器能访问公网的话,可直接拉取腾讯云容器镜像:

docker pull federatedai/standalone_fate:${version}
docker tag ccr.ccs.tencentyun.com/federatedai/standalone_fate:${version} federatedai/standalone_fate:${version}

方式二 如果服务器没有公网,则可以通过下载镜像然后导入的方式:
在有网络的机器上下载镜像包:

wget https://webank-ai-1251170195.cos.ap-guangzhou.myqcloud.com/fate/${version}/release/standalone_fate_docker_image_${version}_release.tar.gz

在目标机器导入镜像:

docker load -i standalone_fate_docker_image_${version}_release.tar.gz

查看已安装的镜像:

docker images | grep federatedai/standalone_fate

5.2. 启动容器

执行以下命令启动:

docker run -d --name standalone_fate -p 8080:8080 federatedai/standalone_fate:${version};

六、测试

Fate 里面自带了测试任务;

首先执行以下命令,进入 Fate 的容器中:

docker exec -it $(docker ps -aqf "name=standalone_fate") bash

执行以下命令,启动 toy 测试:

flow test toy -gid 10000 -hid 10000

成功后显示以下内容:

success to calculate secure_sum, it is 2000.0

toy测试.jpg

七、图形化界面

FATE Board 是 Fate 里面负责可视化的服务组件,在单机版容器中已经集成了该服务,可以通过 8080 端口访问:

登录界面.jpg

账号和密码都是 admin

通过右上角的 JOBS 按钮可以查看我们 Toy测试 所运行的任务:
任务界面.jpg

因为是联邦学习所以看到 guest 和 host 两方角色的任务。
目录
相关文章
|
10月前
|
机器学习/深度学习 算法 安全
隐私计算训练营第三讲-详解隐私计算的架构和技术要点
SecretFlow 是一个隐私保护的统一框架,用于数据分析和机器学习,支持MPC、HE、TEE等隐私计算技术。它提供设备抽象、计算图表示和基于图的ML/DL能力,适应数据水平、垂直和混合分割场景。产品层包括SecretPad(快速体验核心能力)和SecretNote(开发工具)。算法层涉及PSI、PIR、数据分析和联邦学习(水平、垂直、混合)。此外,SecretFlow还有YACL密码库和Kusica任务调度框架,Kusica提供轻量化部署、跨域通信和统一API接口。
281 0
|
机器学习/深度学习 存储 算法
隐私计算FATE-模型训练
本文分享基于Fate自带的测试样例,进行纵向逻辑回归算法的模型训练,并且通过FATE Board可视化查看结果。
569 0
隐私计算FATE-模型训练
|
10月前
|
存储 SQL 关系型数据库
带你读《Apache Doris 案例集》——08秒级数据写入,毫秒查询响应,天眼查基于 Apache Doris 构建统一实时数仓(2)
带你读《Apache Doris 案例集》——08秒级数据写入,毫秒查询响应,天眼查基于 Apache Doris 构建统一实时数仓(2)
557 0
|
10月前
|
SQL 存储 运维
带你读《Apache Doris 案例集》——08秒级数据写入,毫秒查询响应,天眼查基于 Apache Doris 构建统一实时数仓(1)
带你读《Apache Doris 案例集》——08秒级数据写入,毫秒查询响应,天眼查基于 Apache Doris 构建统一实时数仓(1)
484 0
|
机器学习/深度学习 分布式计算 安全
一文详解隐私计算「四大技术路线」
隐私计算是一个快速发展的领域,涉及密码学、安全硬件、信息论、分布式计算等多个学科。目前公开的隐私计算技术资料和白皮书已经非常丰富,但是缺乏对各技术优缺点的深入分析和对比。本文将从性能、安全、隐私、功能、研发难度等多个角度分析对比各技术路线。
一文详解隐私计算「四大技术路线」
|
SQL JSON 数据可视化
新的一年,带给你全新的DataV
2023已经到来,我们正在迎来春暖花开的新时节。在这新年到来之际,我们给广大的DataV用户带来了一份新年礼物 - 全新的DataV 7.0版本,下面小编就带大家看一看新版本中有哪些激动人心的升级。
|
SQL 人工智能 自然语言处理
【2023云栖】田奇铣:大模型驱动DataWorks数据开发治理平台智能化升级
随着大模型掀起AI技术革新浪潮,大数据也进入了与AI深度结合的创新时期。2023年云栖大会上,阿里云DataWorks产品负责人田奇铣发布了DataWorks Copilot、DataWorks AI增强分析、DataWorks湖仓融合数据管理等众多新产品能力,让DataWorks这款已经发展了14年的大数据开发治理平台产品,从一站式向智能化不断升级演进。
59611 8
|
10月前
|
机器学习/深度学习 人工智能 安全
一文搞懂隐私计算
一文搞懂隐私计算
2659 0
|
语音技术
语音识别(ASR)系列之一:总览
最近在系统性调研语音识别模型的发展历程,包括从上世纪八十年代开始流行的GMM/HMM模型,到近两年各种Attention相关模型的探索,在公众号里分享一下,对ASR感兴趣的伙伴可以整体地了解一下语音识别发展的来龙去脉。
|
机器学习/深度学习 人工智能 数据挖掘
卷积神经网络(一)
卷积神经网络(一)
316 0