刚刚,全球数据科学领域顶级会议KDD 2022大奖公布,阿里巴巴达摩院团队斩获应用科学方向“最佳论文奖”,这是中国企业首次获得该重磅奖项。
阿里巴巴达摩院获奖论文《FederatedScope-GNN: Towards a Unified, Comprehensive and Efficient Package for Federated Graph Learning》聚焦联邦学习中应用广泛且技术复杂的联邦图学习方向,针对现有框架及算法库对图数据支持有限的情况,提出了包含丰富数据集及创新算法的易用平台,为该领域后续研究奠定坚实基础。
KDD评价,该工作推动了图联邦学习的发展,并树立了优秀平台工作的榜样。
01 需求广泛但技术复杂的“联邦图学习”
图(graph)是一种用于描述对象间关系的数据类型,它由节点(node)和边(edge)两部分组成,在表示复杂关系方面具有很大优势。
近年来,基于图结构的深度学习方法——图神经网络(graph neural networks),得到了学术界和工业界的广泛关注并取得了显著的成功。
而联邦学习是隐私保护计算主流技术之一,它实现了“数据不动模型动”,能让用户在数据不出本地的基础上,通过交换模型参数或中间结果的方式,在云端联合训练,让多方用户都能完成模型训练。
联邦图学习是联邦学习领域最前沿的方向之一,研究在保护各方图数据隐私的前提下,共同进行复杂的图神经网络模型训练,相关技术在科学探索、知识表示、互联网、金融等科研及工业领域有广阔需求:
研究机构可以融合各自拥有的知识图谱来更准确地补全缺失的知识;
银行可以在账户信息相互不公开的基础上,依靠转账的点边关系共同训练反洗钱模型。
不同的药企基于各自拥有的分子标注联合训练用于新药发现的图神经网络;
药企联合训练新药分子式预测模型
但现有联邦学习框架和库对图数据的支持相对有限,提供的现成图数据集、图神经网络架构、专门针对图学习设计的联邦学习算法等也还不够全面,难以基于已有工作建立联邦图学习的基准。
02 FederatedScope-GNN:为联邦图学习建立丰富基准
关注到外界对联邦图学习的需求后,阿里巴巴达摩院智能计算实验室提出并基于联邦学习框架FederatedScope实现了针对图学习的库FederatedScope-GNN,并以此工作形成了本次获奖论文。
首先,FederatedScope-GNN针对图学习提供了DataZoo和ModelZoo,分别为用户提供了丰富多样的联邦图数据集和相应模型与算法。
DataZoo:既包含若干新引入的数据集,也实现了大量不同类型的splitters,用于通过单机图数据集来构造联邦图数据集。DataZoo提供的数据集涵盖了不同领域、不同任务类型、不同统计异质性的联邦图数据,方便了使用者对所关注算法进行全面评估。
ModelZoo:提供了丰富的图神经网络实现,既包含传统的GCN, GIN, GAT, GraphSage等架构,也提供了最新的GPRGNN等拆分了特征变换与消息传播的架构。
同时,ModelZoo中也包含了像FedSage+和GCFL+这样最新的联邦图学习算法的实现。其中,得益于底层框架事件驱动(event-driven)的编程范式,参与者间多样的消息交换和丰富的行为得以模块化地进行拆分实现。ModelZoo给研究人员复现相关工作以及建立新的基准带来了更多便利。
基于事件驱动的底层框架来实现联邦图学习算法FedSage+
其次,针对联邦图学习对超参数敏感的现象,FederatedScope-GNN还实现了模型调优相关的模块,包括多保真度的Successive Halving Algorithm和新近提出的联邦超参优化算法FedEx,以及针对联邦异质任务的个性化。
一个个性化图神经网络示例,
其中各参与方仅共享模型的一部分参数
最后,考虑到FedSage+这类联邦图学习算法交换节点嵌入式表示等信息的特点,FederatedScope-GNN提供了丰富的隐私评估算法对算法在隐私保护方面的能力进行检验。
基于上述功能和特性,该获奖论文建立了全面丰富的联邦图学习基准,包含不同图上任务、不同图神经网络架构、不同的联邦优化算法等,为该领域后续的研究奠定了坚实基础。
KDD(ACM SIGKDD)是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议,也是全球录取率最低的计算机顶会之一,在知识发现、数据挖掘、人工智能等领域具有重大影响力。
KDD会议分为研究和应用科学两个方向,本年度共收到2448篇投稿,仅接受449篇。阿里巴巴今年共有34篇论文入选,是全球入选论文数量最多的企业之一,并获得了大会应用科学方向唯一的“最佳论文奖”。
历年荣摘该桂冠的包括来自谷歌、亚马逊、卡内基梅隆大学等海外知名机构的研究团队,国内企业此前从未获得该奖。