隐语小课丨「论文研究」隐私保护纵向联邦图神经网络

简介: 隐语小课丨「论文研究」隐私保护纵向联邦图神经网络


收录于合集

#顶会论文分享4

#隐语小课23

#联邦学习7

7月份举办的IJCAI-ECAI2022(第31届国际人工智能联合会议与第25届欧洲人工智能会议)上,蚂蚁集团参与撰写的论文《针对Node分类任务的隐私保护纵向联邦图神经网络》收录。

IJCAI2022接收投稿超过4500篇,录用率仅为15%。隐语团队与浙江大学等团队的论文针对数据垂直分割场景提出了VFGNN模型,以完成隐私保护的节点分类任务,并且该算法可拓展于其他GNN模型,对广泛解决实际业务场景中数据分属不同持有方的“数据孤岛”问题具有重要意义。


数据垂直分割场景常见于实际业务中跨行业/跨服务范围的机构之间,当前社会数字化转型进程中,同业间联动发展相对靠前,以技术手段助力跨行业间的安全数据流通,对于数字经济整体发展具有重要意义,更有利于为人民生活创造更多更广的新型便利服务。

图神经网络即一种基于图结构的深度学习方法,具备处理非结构化数据(例如社交网络、交通网络、知识图谱、复杂的文件系统等)的出色能力,正是各大深度学习顶会的研究热点,以差分隐私加持,模型将具备更强的隐私保护能力,探查更广泛的数据价值。


  • 摘要

GNN模型在很多实际任务中都取得了非常优异的效果,这也离不开图数据中丰富的特征数据和边数据。然而,这些数据在实际业务场景中可能会分属于不同的数据持有方,受限于数据隐私保护的要求,导致了数据孤岛问题。本文提出了VFGNN模型,在保护数据隐私的前提下,完成数据垂直分割场景(特征空间不同、样本空间相同)中的节点分类任务。该算法可以被推广到其它GNN模型。VFGNN模型将计算图分成两部分,把与隐私数据(即特征、边和标签)相关的计算留给数据持有方,而把损失函数相关的计算留给semi-honest服务器。此外,我们利用差分隐私保护数据持有方输出的信息,进一步提高模型的隐私保护能力。

1. 问题


1在数据垂直分割场景中,假设三个数据持有方 A,B,C拥有相同的四个节点。如图1所示,特征是垂直切分的,数据持有方A的节点拥有三个维度的特征(f1,f2,f3),数据持有方B的节点拥有两个维度的特征(f4,f5),数据持有方B的节点拥有两个维度的特征(f6,f7)。与此同时,不同数据持有方上,节点之间的边不同。假设只有 A 包含节点标签信息,我们要解决的问题是,如何利用A、B、C三方的数据构建一个联邦GNN模型。

2. 方法(VFGNN模型)

2如图2所示,VFGNN的计算分成三部分:(1)隐私特征数据相关计算如图2中红色部分所示,GNN的第一步是使用节点的隐私特征数据生成节点的初始embedding。在垂直场景中,数据持有方之间节点相同,但每个节点上的特征不同。首先数据持有方之间基于MPC联合计算得到每个节点上的初始embedding(如图2 step1所示),然后数据持有方利用多阶邻居上的初始embedding生成每个节点上最终的本地embedding(如图2 step2 所示)。(2)非隐私数据相关计算为了提高模型效率,我们将非隐私数据相关的计算放在服务器上进行。如图2中绿色部分所示,首先,服务器利用某种融合方法得到每个节点的全局embedding(如图2 step3所示),融合方法可以是求均值、求和、按列拼接等等;然后服务器使用全局embedding进行后续的计算,得到server模型的输出结果;最后服务器将输出结果发回给有标签的数据持有方。
需要注意的是,由于在server模型中存在很多非线性计算,如最大池化函数、Relu激活函数等。如果采用纯密态空间的方式进行计算,以同态加密为例,需要用高阶多项式对非线性激活进行近似。因为这种计算方式的准确性和效率比较低的。所以本文中服务器进行该部分模型的明文计算。这种方式不仅可以提高模型准确度,还可以大大改善模型效率。(3)隐私标签数据相关计算如图2中蓝色部分所示,拥有标签的数据持有方从服务器接收到,并计算标签的预测结果。以分类任务为例,使用Softmax函数处理,即:.其中c为分类的类别。标签持有方根据标签的预测值和实际值计算得到损失函数,进而进行后向传播更新所有模型。

3.核心计算步骤

本部分重点介绍图2中的三个核心的计算步骤。

(1)计算初始embedding


3
4由于数据持有方之间的特征数据是垂直切分的,所以一般有两种方式生成每个节点的embedding,即独立计算和联合计算。如图3所示,假设有ABC三个数据持有方,在独立计算过程中,每一方只利用自身特征数据和权重矩阵,分别计算各自的初始embedding,即。如图四所示,在联合计算过程中,数据持有方基于密码学的方法联合生成统一的初始embedding,在本文中我们采用了加法秘密分享的方法。
(2)计算本地embedding本文中我们采用GraphSAGE的方法,根据3.1中得到的初始embedding,每一个数据持有方聚合邻居节点的信息,得到每个节点最终的本地embedding,如下面公式所示:

上述公式中所示的AGG方法可以是MeanLSTM或者Pooling等。

(3)计算全局embedding服务器接收到所有数据持有方的本地embedding,融合得到全局的embedding。本文中我们设计了三种融合方式:

  1. Concat。按列拼接,即:

  1. Mean 求均值,即:

  1. Regression 回归,即:

4.隐私增强

在前向传播过程中,数据持有方将本地的embedding直接发送至服务器;在后向传播过程中,标签持有方直接将梯度发送至服务器,因此会导致隐私泄漏的风险。为了增强整体的隐私保护能力,我们引入差分隐私保护前向embedding和后向梯度。在本文中,我们采用了两种差分隐私机制:Gaussian噪声和James-SteinEstimator。噪声生成机制参考原文。


5.实验结果

1数据集统计信息

如表1所示,我们在CoraPubmedCiteseerarXiv四个图数据集上进行实验。将分布式训练中,验证集准确性的平均值作为模型的评估结果。假设只有AB两个数据持有方,我们将特征维度平均分配给AB,并对比不同模型在不同数据集上的效果。如表2所示,GraphSAGEA代表单独利用A方的数据进行训练得到的实验结果,相应的,GraphSAGEB代表单独利用B方的数据进行训练得到的实验结果;VFGNN_C代表利用3.3Concat方法得到的结果,VFGNN_M代表利用3.3Mean方法得到的结果,VFGNN_R代表利用3.3Regression方法得到的结果;GraphSAGEA+B代表将完整数据放在一起,在GraphSAGE模型上得到的结果。

2模型准确性对比结果

从表2中可以得到,VFGNN方法无论是采用哪种融合方式,模型准确性均超过单独利用一方数据得到的结果(GraphSAGEAGraphSAGEB)。显而易见,GraphSAGEAGraphSAGEB只能利用部分数据进行训练,VFGNN可以利用所有数据持有方的数据进行训练,因此模型效果更优。

与此同时,由表2可得,VFGNNGraphSAGEA+B的模型准确性近似。这是因为VFGNN在进行训练过程中,一方面,单方的初始embedding是利用了所有数据持有方的数据生成的,另一方面,虽然各方之间的边信息并不完整,但是我们采用了三种融合方法,弥补了这个弱点,

3数据拆分比例对VFGNN的影响

我们分析了数据拆分比例对VFGNN的影响,如表3所示,数据拆分比例越均匀,模型的准确性越低。这是因为在不均匀的情况下,拥有大部分数据的一方可以得到更准确的初始embedding,因此模型准确性越高。

4数据持有方的数量对VFGNN的影响

我们分析了数据持有方数量对VFGNN的影响,如表2所示,数据持有方的数量越多,模型准确性越低。这是因为图数据的边是平均分配,随着数据持有方的数量的增大,单方持有的数据就越少,因此整体模型的效果就越差。

5差分隐私对VFGNN的影响

如表5所示,我们分析了差分隐私中不同的对应的模型准确性,越大,模型准确性越高,与此同时我们发现James-Stein噪声的效果明显好于Gaussian噪声,具体原因的分析详见原文3.5部分。


  • 论文之外的世界:一些技术应用分享

本篇论文研究主要聚焦垂直场景下的隐私保护图神经网络,属于隐私计算与图机器学习的交叉方向,广泛应用于医药研发、金融风控等领域。

具体来说:

高科技药企之间可以利用各自的药物分子的化学结构信息,进行联合研发,进而发现更为安全有效的药物。

银行、证劵、保险等金融公司利用各自的用户特征信息进行联合训练,可以更为精准的预测欺诈、赌博、洗钱等行为,防范金融风险,保护用户财产安全。

随着隐私保护需求的提升和图数据量的大规模增长,隐私保护图神经网络必将得到更为广泛的应用,以及给用户带来更大的商业价值。


顶会信息书签:IJCAIInternationalJoint Conference on ArtificialIntelligence-国际人工智能联合会议:是人工智能领域最顶级的国际学术会议之一,是CCF推荐A类会议,CoreConference RankingA*类会议。自2016年起每年召开,有时还会和其他地区性的人工智能会议一起召开,常为该年举办地的所属的地区性质会议,今年的第31届国际人工智能联合会议与第25届欧洲人工智能会议(EuropeanConference on Artificial Intelligence,简称ECAI)联合举办。

相关文章
|
4月前
|
机器学习/深度学习 人工智能
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念对齐人类
【10月更文挑战第18天】这篇论文提出了一种名为AligNet的框架,旨在通过将人类知识注入神经网络来解决其与人类认知的不匹配问题。AligNet通过训练教师模型模仿人类判断,并将人类化的结构和知识转移至预训练的视觉模型中,从而提高模型在多种任务上的泛化能力和稳健性。实验结果表明,人类对齐的模型在相似性任务和出分布情况下表现更佳。
98 3
|
24天前
|
机器学习/深度学习 人工智能 搜索推荐
PaSa:字节跳动开源学术论文检索智能体,自动调用搜索引擎、浏览相关论文并追踪引文网络
PaSa 是字节跳动推出的基于强化学习的学术论文检索智能体,能够自动调用搜索引擎、阅读论文并追踪引文网络,帮助用户快速获取精准的学术文献。
185 15
|
1月前
|
负载均衡 芯片 异构计算
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
NSDI‘24于4月16-18日在美国圣塔克拉拉市举办,阿里云飞天洛神云网络首次中稿NSDI,两篇论文入选。其中《LuoShen: A Hyper-Converged Programmable Gateway for Multi-Tenant Multi-Service Edge Clouds》提出超融合网关LuoShen,基于Tofino、FPGA和CPU的新型硬件形态,将公有云VPC设施部署到边缘机柜中,实现小型化、低成本和高性能。该方案使成本降低75%,空间占用减少87%,并提供1.2Tbps吞吐量,展示了强大的技术竞争力。
|
1月前
|
SQL Cloud Native API
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI‘24于4月16-18日在美国加州圣塔克拉拉市举办,汇聚全球网络系统领域的专家。阿里云飞天洛神云网络的两篇论文入选,标志着其创新能力获广泛认可。其中,《Poseidon: A Consolidated Virtual Network Controller that Manages Millions of Tenants via Config Tree》介绍了波塞冬平台,该平台通过统一控制器架构、高性能配置计算引擎等技术,实现了对超大规模租户和设备的高效管理,显著提升了云网络性能与弹性。实验结果显示,波塞冬在启用EIP时的完成时间比Top 5厂商分别快1.8至55倍和2.6至4.8倍。
|
2月前
|
机器学习/深度学习 算法 PyTorch
基于图神经网络的大语言模型检索增强生成框架研究:面向知识图谱推理的优化与扩展
本文探讨了图神经网络(GNN)与大型语言模型(LLM)结合在知识图谱问答中的应用。研究首先基于G-Retriever构建了探索性模型,然后深入分析了GNN-RAG架构,通过敏感性研究和架构改进,显著提升了模型的推理能力和答案质量。实验结果表明,改进后的模型在多个评估指标上取得了显著提升,特别是在精确率和召回率方面。最后,文章提出了反思机制和教师网络的概念,进一步增强了模型的推理能力。
83 4
基于图神经网络的大语言模型检索增强生成框架研究:面向知识图谱推理的优化与扩展
|
4月前
|
机器学习/深度学习 Web App开发 人工智能
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》这篇论文提出了一种基于YOLOv3-Tiny的轻量级目标检测模型Micro-YOLO,通过渐进式通道剪枝和轻量级卷积层,显著减少了参数数量和计算成本,同时保持了较高的检测性能。
67 2
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
|
4月前
|
机器学习/深度学习 编解码 算法
轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
MobileNetV3是谷歌为移动设备优化的神经网络模型,通过神经架构搜索和新设计计算块提升效率和精度。它引入了h-swish激活函数和高效的分割解码器LR-ASPP,实现了移动端分类、检测和分割的最新SOTA成果。大模型在ImageNet分类上比MobileNetV2更准确,延迟降低20%;小模型准确度提升,延迟相当。
117 1
轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
|
4月前
|
编解码 人工智能 文件存储
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
YOLOv7是一种新的实时目标检测器,通过引入可训练的免费技术包和优化的网络架构,显著提高了检测精度,同时减少了参数和计算量。该研究还提出了新的模型重参数化和标签分配策略,有效提升了模型性能。实验结果显示,YOLOv7在速度和准确性上超越了其他目标检测器。
92 0
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
|
6月前
|
机器学习/深度学习 数据可视化 数据挖掘
【Macos系统】安装VOSviewer及使用VOSviewer教程!!以ESN网络的研究进行案例分析
本文介绍了如何在MacOS系统上安装VOSviewer软件,并以ESN(Echo State Network)网络的研究为例,通过VOSviewer对相关科学文献进行可视化分析,以深入了解ESN在学术研究中的应用和发展情况。
404 0
【Macos系统】安装VOSviewer及使用VOSviewer教程!!以ESN网络的研究进行案例分析
|
6月前
|
机器学习/深度学习 算法 网络架构
神经网络架构殊途同归?ICML 2024论文:模型不同,但学习内容相同
【8月更文挑战第3天】《神经语言模型的缩放定律》由OpenAI研究人员完成并在ICML 2024发表。研究揭示了模型性能与大小、数据集及计算资源间的幂律关系,表明增大任一资源均可预测地提升性能。此外,论文指出模型宽度与深度对性能影响较小,较大模型在更多数据上训练能更好泛化,且能高效利用计算资源。研究提供了训练策略建议,对于神经语言模型优化意义重大,但也存在局限性,需进一步探索。论文链接:[https://arxiv.org/abs/2001.08361]。
78 1

热门文章

最新文章