联邦学习原理-上篇(下)

简介: 联邦学习原理-上篇(下)

基于隐私保护的样本id匹配


RSA+哈希机制的安全求交方案
所有的纵向算法都需要样本对齐

需求场景

image.png

image.png


联邦特征工程


问题

在保护双方隐私下 A侧(含X)和B侧(含X,Y)特征如何计算WOE和IV?

难点

1、A侧只有特征X没有Y 计算WOE和IV得同时依赖x,y(B侧特征WOE&IV可以本地计算)
2、A侧不能对B侧暴露X,B侧不能对A侧暴露Y
3、最终只能让B侧获得所有特征的WOE和IV


对特征列分组 每一组根据标签列Y的值(比如0,1)统计

image.png


纵向逻辑回归


image.png


1、传统的逻辑回归公式中的y值是0和1
这个逻辑公式中的y是+-1
2、W是每一枚特征的权重的一个向量 x是一个具体的值
3、逻辑回归 本质是一个线性模型 wx两个向量的内积 wa*xa + wb*xb
4、预测是根据两边的模型进行预测 单边模型没有任何价值

image.png



SecureBoost


无损的 安全的 只需要交换梯度直方图 不需要交换数据

联邦计算信息增益

image.png

1、树模型LightGBM或XGBoost计算每一个候选分裂点信息增益的时候都是计算梯度直方图
代价函数的 一阶导g 二阶导h的和
代入公式就可以计算出最大的增益
2、party1和party3没有业务表现y的 计算不了代价函数
3、party1和party3计算完直方图 首先要做encoding 然后再发送给party2 以保证数据安全

image.png


比如分裂特征是Bill Payment 域值是5500
对它进行编号即encoding 编号之后同时发送过去 g和h的和 给party2
party2解密之后 可以得到最大的信息增益
将最大的信息增益的合作方 比如party3 将这个结果(包含这个分裂点的编号)发送给party3
告诉party3 这次分裂点是属于你的 

image.png


树的结构

每一方就看到一个值partyId即这个节点是属于谁的
另外是编号 编号只能在party2看到 其他节点无法看到
叶子节点只存在与party2的 谁提供标签 谁就完全拥有叶子节点

image.png

首先向party2发起一个预测查询
从根节点来看 该跟节点是属于party1的
party2会发送给party1
party1会查一下 特征是Bill Payment 阈值是5000
用户属性值是4000多 小于5500 走到了左边
左边的这个节点是属于party3的
再发给party3
party3再查的话 发现分裂值是800
小于5500
走到了w2
w2是属于party2的 因为它是叶子节点 只有party2是有标签的
将这个值直接拿出来就行了 结束了一次查询
boost是集成的算法 其实是很多颗树都要查询 每次查询 
将这些权重乘以换算因子 再加起来就是预测的结果了
如果是二分类问题直接做一个segmod
多分类求个softmax
对于回归问题它就是一个具体的回归的值
相关文章
|
2天前
|
机器学习/深度学习 分布式计算 安全
联邦学习的简要概述
联邦学习(Federated Learning, FL)是一种分布式机器学习方法,旨在保护数据隐私的同时,利用多方数据进行模型训练。
13 5
|
2月前
|
存储 算法 索引
(六)漫谈分布式之一致性算法上篇:用二十六张图一探Raft共识算法奥妙之处!
现如今,大多数分布式存储系统都投向了Raft算法的怀抱,而本文就来聊聊大名鼎鼎的Raft算法/协议!
|
4月前
|
算法
计算机算法设计与分析 第1章 算法概述 (笔记)
计算机算法设计与分析 第1章 算法概述 (笔记)
|
5月前
|
网络协议 网络安全 数据库
【专栏】网络端口的奥秘,包括基本概念、技术原理和实际应用
【4月更文挑战第28天】本文深入探讨了网络端口的奥秘,包括基本概念、技术原理和实际应用。网络端口是区分网络服务的抽象概念,与TCP/IP协议密切相关。端口号范围从0到65535,知名端口常分配给标准服务,如HTTP和FTP。TCP提供可靠的数据传输,而UDP则更高效。端口还涉及端口扫描、转发和映射等高级技术。在实际应用中,端口广泛用于Web服务器、数据库通信及网络安全。随着云计算和虚拟化的兴起,端口管理变得更为复杂,对IT专业人员的技能要求提高。理解并掌握网络端口对于提升个人技能和保障网络安全至关重要。
206 1
|
12月前
|
机器学习/深度学习 人工智能 算法
这篇科普让你Get所有大模型的基础核心知识点
本文介绍了AI大模型的概念和发展历程。AI大模型是指具有1亿以上参数的机器学习模型,通过在大规模数据集上进行预训练,可以直接支撑各类应用。大模型的发展经历了从萌芽期到AI1.0时期,再到AI2.0时期的飞跃,目前最新发布的大模型参数已经达到了千亿甚至万亿级别。国内外的公司都在积极研发和应用大模型,如OpenAI、Google、Facebook、Microsoft等。国内也有百度、阿里巴巴、万维、商汤科技等公司发布了自己的大模型产品。大模型的建造离不开算力资源、算法人才、数据积累等核心要素。此外,文章还列举了一些与大模型相关的专业名词,如算法、模型参数、训练数据、Token等。
|
12月前
|
人工智能 算法 搜索推荐
BIRCH算法全解析:从原理到实战
BIRCH算法全解析:从原理到实战
256 0
|
负载均衡 应用服务中间件 Apache
深入浅出学习透析Nginx服务器的基本原理和配置指南「初级实践篇」
深入浅出学习透析Nginx服务器的基本原理和配置指南「初级实践篇」
230 0
深入浅出学习透析Nginx服务器的基本原理和配置指南「初级实践篇」
|
应用服务中间件 nginx Perl
深入浅出学习透析Nginx服务器的基本原理和配置指南「进阶实践篇」
深入浅出学习透析Nginx服务器的基本原理和配置指南「进阶实践篇」
225 0
|
程序员 编译器 C++
C++(入门、核心、提高三篇)总结及补充
C++(入门、核心、提高三篇)总结及补充
107 0
C++(入门、核心、提高三篇)总结及补充
|
机器学习/深度学习 安全 数据建模
联邦学习原理-上篇(上)
联邦学习原理-上篇(上)
423 0
联邦学习原理-上篇(上)
下一篇
无影云桌面