隐语小课丨「论文研究」隐私保护纵向联邦图神经网络

简介: 隐语小课丨「论文研究」隐私保护纵向联邦图神经网络


收录于合集

#顶会论文分享4

#隐语小课23

#联邦学习7

7月份举办的IJCAI-ECAI2022(第31届国际人工智能联合会议与第25届欧洲人工智能会议)上,蚂蚁集团参与撰写的论文《针对Node分类任务的隐私保护纵向联邦图神经网络》收录。

IJCAI2022接收投稿超过4500篇,录用率仅为15%。隐语团队与浙江大学等团队的论文针对数据垂直分割场景提出了VFGNN模型,以完成隐私保护的节点分类任务,并且该算法可拓展于其他GNN模型,对广泛解决实际业务场景中数据分属不同持有方的“数据孤岛”问题具有重要意义。


数据垂直分割场景常见于实际业务中跨行业/跨服务范围的机构之间,当前社会数字化转型进程中,同业间联动发展相对靠前,以技术手段助力跨行业间的安全数据流通,对于数字经济整体发展具有重要意义,更有利于为人民生活创造更多更广的新型便利服务。

图神经网络即一种基于图结构的深度学习方法,具备处理非结构化数据(例如社交网络、交通网络、知识图谱、复杂的文件系统等)的出色能力,正是各大深度学习顶会的研究热点,以差分隐私加持,模型将具备更强的隐私保护能力,探查更广泛的数据价值。


  • 摘要

GNN模型在很多实际任务中都取得了非常优异的效果,这也离不开图数据中丰富的特征数据和边数据。然而,这些数据在实际业务场景中可能会分属于不同的数据持有方,受限于数据隐私保护的要求,导致了数据孤岛问题。本文提出了VFGNN模型,在保护数据隐私的前提下,完成数据垂直分割场景(特征空间不同、样本空间相同)中的节点分类任务。该算法可以被推广到其它GNN模型。VFGNN模型将计算图分成两部分,把与隐私数据(即特征、边和标签)相关的计算留给数据持有方,而把损失函数相关的计算留给semi-honest服务器。此外,我们利用差分隐私保护数据持有方输出的信息,进一步提高模型的隐私保护能力。

1. 问题


1在数据垂直分割场景中,假设三个数据持有方 A,B,C拥有相同的四个节点。如图1所示,特征是垂直切分的,数据持有方A的节点拥有三个维度的特征(f1,f2,f3),数据持有方B的节点拥有两个维度的特征(f4,f5),数据持有方B的节点拥有两个维度的特征(f6,f7)。与此同时,不同数据持有方上,节点之间的边不同。假设只有 A 包含节点标签信息,我们要解决的问题是,如何利用A、B、C三方的数据构建一个联邦GNN模型。

2. 方法(VFGNN模型)

2如图2所示,VFGNN的计算分成三部分:(1)隐私特征数据相关计算如图2中红色部分所示,GNN的第一步是使用节点的隐私特征数据生成节点的初始embedding。在垂直场景中,数据持有方之间节点相同,但每个节点上的特征不同。首先数据持有方之间基于MPC联合计算得到每个节点上的初始embedding(如图2 step1所示),然后数据持有方利用多阶邻居上的初始embedding生成每个节点上最终的本地embedding(如图2 step2 所示)。(2)非隐私数据相关计算为了提高模型效率,我们将非隐私数据相关的计算放在服务器上进行。如图2中绿色部分所示,首先,服务器利用某种融合方法得到每个节点的全局embedding(如图2 step3所示),融合方法可以是求均值、求和、按列拼接等等;然后服务器使用全局embedding进行后续的计算,得到server模型的输出结果;最后服务器将输出结果发回给有标签的数据持有方。
需要注意的是,由于在server模型中存在很多非线性计算,如最大池化函数、Relu激活函数等。如果采用纯密态空间的方式进行计算,以同态加密为例,需要用高阶多项式对非线性激活进行近似。因为这种计算方式的准确性和效率比较低的。所以本文中服务器进行该部分模型的明文计算。这种方式不仅可以提高模型准确度,还可以大大改善模型效率。(3)隐私标签数据相关计算如图2中蓝色部分所示,拥有标签的数据持有方从服务器接收到,并计算标签的预测结果。以分类任务为例,使用Softmax函数处理,即:.其中c为分类的类别。标签持有方根据标签的预测值和实际值计算得到损失函数,进而进行后向传播更新所有模型。

3.核心计算步骤

本部分重点介绍图2中的三个核心的计算步骤。

(1)计算初始embedding


3
4由于数据持有方之间的特征数据是垂直切分的,所以一般有两种方式生成每个节点的embedding,即独立计算和联合计算。如图3所示,假设有ABC三个数据持有方,在独立计算过程中,每一方只利用自身特征数据和权重矩阵,分别计算各自的初始embedding,即。如图四所示,在联合计算过程中,数据持有方基于密码学的方法联合生成统一的初始embedding,在本文中我们采用了加法秘密分享的方法。
(2)计算本地embedding本文中我们采用GraphSAGE的方法,根据3.1中得到的初始embedding,每一个数据持有方聚合邻居节点的信息,得到每个节点最终的本地embedding,如下面公式所示:

上述公式中所示的AGG方法可以是MeanLSTM或者Pooling等。

(3)计算全局embedding服务器接收到所有数据持有方的本地embedding,融合得到全局的embedding。本文中我们设计了三种融合方式:

  1. Concat。按列拼接,即:

  1. Mean 求均值,即:

  1. Regression 回归,即:

4.隐私增强

在前向传播过程中,数据持有方将本地的embedding直接发送至服务器;在后向传播过程中,标签持有方直接将梯度发送至服务器,因此会导致隐私泄漏的风险。为了增强整体的隐私保护能力,我们引入差分隐私保护前向embedding和后向梯度。在本文中,我们采用了两种差分隐私机制:Gaussian噪声和James-SteinEstimator。噪声生成机制参考原文。


5.实验结果

1数据集统计信息

如表1所示,我们在CoraPubmedCiteseerarXiv四个图数据集上进行实验。将分布式训练中,验证集准确性的平均值作为模型的评估结果。假设只有AB两个数据持有方,我们将特征维度平均分配给AB,并对比不同模型在不同数据集上的效果。如表2所示,GraphSAGEA代表单独利用A方的数据进行训练得到的实验结果,相应的,GraphSAGEB代表单独利用B方的数据进行训练得到的实验结果;VFGNN_C代表利用3.3Concat方法得到的结果,VFGNN_M代表利用3.3Mean方法得到的结果,VFGNN_R代表利用3.3Regression方法得到的结果;GraphSAGEA+B代表将完整数据放在一起,在GraphSAGE模型上得到的结果。

2模型准确性对比结果

从表2中可以得到,VFGNN方法无论是采用哪种融合方式,模型准确性均超过单独利用一方数据得到的结果(GraphSAGEAGraphSAGEB)。显而易见,GraphSAGEAGraphSAGEB只能利用部分数据进行训练,VFGNN可以利用所有数据持有方的数据进行训练,因此模型效果更优。

与此同时,由表2可得,VFGNNGraphSAGEA+B的模型准确性近似。这是因为VFGNN在进行训练过程中,一方面,单方的初始embedding是利用了所有数据持有方的数据生成的,另一方面,虽然各方之间的边信息并不完整,但是我们采用了三种融合方法,弥补了这个弱点,

3数据拆分比例对VFGNN的影响

我们分析了数据拆分比例对VFGNN的影响,如表3所示,数据拆分比例越均匀,模型的准确性越低。这是因为在不均匀的情况下,拥有大部分数据的一方可以得到更准确的初始embedding,因此模型准确性越高。

4数据持有方的数量对VFGNN的影响

我们分析了数据持有方数量对VFGNN的影响,如表2所示,数据持有方的数量越多,模型准确性越低。这是因为图数据的边是平均分配,随着数据持有方的数量的增大,单方持有的数据就越少,因此整体模型的效果就越差。

5差分隐私对VFGNN的影响

如表5所示,我们分析了差分隐私中不同的对应的模型准确性,越大,模型准确性越高,与此同时我们发现James-Stein噪声的效果明显好于Gaussian噪声,具体原因的分析详见原文3.5部分。


  • 论文之外的世界:一些技术应用分享

本篇论文研究主要聚焦垂直场景下的隐私保护图神经网络,属于隐私计算与图机器学习的交叉方向,广泛应用于医药研发、金融风控等领域。

具体来说:

高科技药企之间可以利用各自的药物分子的化学结构信息,进行联合研发,进而发现更为安全有效的药物。

银行、证劵、保险等金融公司利用各自的用户特征信息进行联合训练,可以更为精准的预测欺诈、赌博、洗钱等行为,防范金融风险,保护用户财产安全。

随着隐私保护需求的提升和图数据量的大规模增长,隐私保护图神经网络必将得到更为广泛的应用,以及给用户带来更大的商业价值。


顶会信息书签:IJCAIInternationalJoint Conference on ArtificialIntelligence-国际人工智能联合会议:是人工智能领域最顶级的国际学术会议之一,是CCF推荐A类会议,CoreConference RankingA*类会议。自2016年起每年召开,有时还会和其他地区性的人工智能会议一起召开,常为该年举办地的所属的地区性质会议,今年的第31届国际人工智能联合会议与第25届欧洲人工智能会议(EuropeanConference on Artificial Intelligence,简称ECAI)联合举办。

相关文章
|
6天前
|
监控 算法 安全
基于 PHP 语言深度优先搜索算法的局域网网络监控软件研究
在当下数字化时代,局域网作为企业与机构内部信息交互的核心载体,其稳定性与安全性备受关注。局域网网络监控软件随之兴起,成为保障网络正常运转的关键工具。此类软件的高效运行依托于多种数据结构与算法,本文将聚焦深度优先搜索(DFS)算法,探究其在局域网网络监控软件中的应用,并借助 PHP 语言代码示例予以详细阐释。
22 1
|
24天前
|
SQL 缓存 Cloud Native
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
111 63
|
16天前
|
前端开发 Java 关系型数据库
基于ssm的网络直播带货管理系统,附源码+数据库+论文
该项目为网络直播带货网站,包含管理员和用户两个角色。管理员可进行主页、个人中心、用户管理、商品分类与信息管理、系统及订单管理;用户可浏览主页、管理个人中心、收藏和订单。系统基于Java开发,采用B/S架构,前端使用Vue、JSP等技术,后端为SSM框架,数据库为MySQL。项目运行环境为Windows,支持JDK8、Tomcat8.5。提供演示视频和详细文档截图。
47 10
|
5月前
|
机器学习/深度学习 人工智能
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念对齐人类
【10月更文挑战第18天】这篇论文提出了一种名为AligNet的框架,旨在通过将人类知识注入神经网络来解决其与人类认知的不匹配问题。AligNet通过训练教师模型模仿人类判断,并将人类化的结构和知识转移至预训练的视觉模型中,从而提高模型在多种任务上的泛化能力和稳健性。实验结果表明,人类对齐的模型在相似性任务和出分布情况下表现更佳。
126 3
|
24天前
|
canal 编解码 运维
SIGCOMM 2024 | 洛神云网络学术活动与论文分享
SIGCOMM 2024 | 洛神云网络学术活动与论文分享
|
26天前
|
SQL 缓存 Cloud Native
NSDI'24 | 云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI'24 | 云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
|
2月前
|
SQL Cloud Native API
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI‘24于4月16-18日在美国加州圣塔克拉拉市举办,汇聚全球网络系统领域的专家。阿里云飞天洛神云网络的两篇论文入选,标志着其创新能力获广泛认可。其中,《Poseidon: A Consolidated Virtual Network Controller that Manages Millions of Tenants via Config Tree》介绍了波塞冬平台,该平台通过统一控制器架构、高性能配置计算引擎等技术,实现了对超大规模租户和设备的高效管理,显著提升了云网络性能与弹性。实验结果显示,波塞冬在启用EIP时的完成时间比Top 5厂商分别快1.8至55倍和2.6至4.8倍。
242 51
|
24天前
|
负载均衡 数据中心 芯片
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
|
2月前
|
机器学习/深度学习 人工智能 搜索推荐
PaSa:字节跳动开源学术论文检索智能体,自动调用搜索引擎、浏览相关论文并追踪引文网络
PaSa 是字节跳动推出的基于强化学习的学术论文检索智能体,能够自动调用搜索引擎、阅读论文并追踪引文网络,帮助用户快速获取精准的学术文献。
260 15
|
2月前
|
负载均衡 芯片 异构计算
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
NSDI‘24于4月16-18日在美国圣塔克拉拉市举办,阿里云飞天洛神云网络首次中稿NSDI,两篇论文入选。其中《LuoShen: A Hyper-Converged Programmable Gateway for Multi-Tenant Multi-Service Edge Clouds》提出超融合网关LuoShen,基于Tofino、FPGA和CPU的新型硬件形态,将公有云VPC设施部署到边缘机柜中,实现小型化、低成本和高性能。该方案使成本降低75%,空间占用减少87%,并提供1.2Tbps吞吐量,展示了强大的技术竞争力。

热门文章

最新文章