KDD 2019论文解读:异构信息网络上的对抗生成学习

简介: 日前,由蚂蚁金服算法工程师胡斌斌撰写的论文《Adversarial Learning on Heterogeneous Information Networks》入选全球数据挖掘顶级会议KDD 2019,本文为该论文的详细解读。

日前,由蚂蚁金服算法工程师胡斌斌撰写的论文《Adversarial Learning on Heterogeneous Information Networks》入选全球数据挖掘顶级会议KDD 2019,本文为该论文的详细解读。论文地址:
https://www.kdd.org/kdd2019/accepted-papers/view/adversarial-learning-on-heterogeneous-information-networks

前言

网络表示学习是一种在低维空间中表示网络数据的方法,在异构信息网络分析中得到了广泛的应用。现有的异构信息网络表示学习方法虽然在一定程度上实现了性能的提高,但仍然存在一些主要的不足。最重要的是,它们通常采用负抽样的方法从网络中随机选择节点,而不学习底层的分布以获得更鲁棒的表示。

受生成式对抗网络 (GAN)的启发,我们开发了一个用于异构信息网络表示学习的新框架HeGAN,它在一种极小极大的博弈中同时训练判别器和生成器。与现有异构信息网络表示学习方法相比,我们的生成器可以学习节点分布,生成更好的负样本。与同质网络上的生成对抗网络相比,我们设计的判别器和生成器是关系感知的,以便在异构信息网络上捕获丰富的语义。此外,为了提高采样效率,我们提出了一种广义的生成器,它直接从连续分布中对“潜在”节点进行采样,而不像现有方法那样局限于原始网络中的节点。最后,我们在四个实际数据集进行了大量的实验。结果表明,在所有数据集和任务中,我们始终如一且显著地优于当前的表示学习方法。

关于“异构信息网络”和“对抗生成学习”

网络结构在现实世界的应用中无处不在,从社会和生物网络到交通和电信系统。因此,网络分析对于解决社交网络的个性化用户推荐、生物网络的基因识别困难等关键问题显得越来越重要。这些问题往往表现为对网络数据进行节点聚类、节点分类和链路预测,所以这些问题从根本上依赖于一种有效的网络表示形式。近年来,网络表示学习已经成为无监督学习节点表示的一个很有前途的方向,其目的是将网络节点投射到低维空间中,同时保持原网络的结构特性。

image.png

异构信息网络。虽然早期的网络表示学习工作已经取得了相当大的成功,但它们只能处理所谓的同质网络,即网络中只包含一种类型的节点和边。然而,在实际场景中,节点自然地由不同类型的实体构成,这些实体通过多种关系相互。这种网络称为异构信息网络,如图(a)所示。该异构信息网络由多种类型的节点(如author和paper)组成,节点之间通过各种类型的关系(如write/ writing relationship between author and paper, publish/published relationship between paper and conference)连接。

由于其异构性, 异构信息网络往往具有极其丰富和复杂的语义。因此,许多研究者开始研究异构信息网络下的表示学习,最值得关注的工作有metapath2vec和HIN2vec。如图1(b-1)所示,现有异构信息网络网络的表示学习方法从思想上可以归结为两个采样器,分别从网络中给定的“中心”节点(如paper p2)选择“上下文”节点作为正例(如author a2)和负例(如阴影圆圈)(注意,每个节点都可以充当中心或上下文,类似于Skip-gram模型)。然后,在这些样本上训练一个损失函数来优化节点表示。虽然这些方法取得了一定的性能提升,但它们也存在严重的局限性。首先,它们通常使用负抽样来随机选择网络中现有的节点作为负抽样。因此,它们的负样本不仅是任意的,而且局限于原始网络的宇宙。其次,它们主要关注于在异构信息网络上捕获丰富的语义信息,而不注意节点的底层分布,因此对于通常稀疏且有噪声的真实的网络缺乏鲁棒性。第三,当前的许多异构信息网络方法依赖于适当的元路径来匹配所需的语义,这通常需要领域知识,而这些知识有时是主观的,而且通常很难获取。

对抗生成学习。生成对抗网络(GAN)已被开发用于学习各种应用中鲁棒的潜在表示。GANs依赖于对抗性学习的思想,判别器和生成器相互竞争,不仅要训练更好的判别模型,还要学习底层的数据分布。后者使得模型对稀疏或有噪声数据的鲁棒性更强[13,24],也提供了更好的样本来降低标注要求。鉴于这些优点,基于GAN的网络表示学习已经有了一些初步的尝试。然而,这些研究只研究了同质网络,没有考虑节点和关系的异构性,导致在语义丰富的异构信息网络上性能不理想。

HeGAN及其贡献。为了克服现有工作的局限,我们提出了一个新的框架HeGAN,基于GAN的异构信息网络表示框架。具体地,我们提出了一种新的判别器和生成器,如图(b-2)所示。首先,我们的判别器和生成器被设计成关系感知的,以便区分由不同关系连接的节点。也就是说,对于任何关系,判别器都可以分辨出一个节点对是真还是假,而生成器可以生成模仿真节点对的假节点对。特别是,只有节点对是(i)基于网络拓扑结构的正对且(ii)在正确的关系下形成对时,才认为该节点对是正例对;。其次,我们设计了一个广义生成器,它能够直接从连续分布中抽取潜在节点,因此(i)不需要softmax的计算; (ii)假样本不局限于现有节点。总之,本文做出了以下贡献。
(1)我们是第一个将对抗性学习应用于异构信息网络表示的,从而来利用异构信息网络上的丰富的语义,同时保证学习到的表示的鲁棒性。
(2)我们提出了一种新型的HeGAN框架,该框架不仅能够感知关系以获取丰富的语义,而且还具有高效的生成负样本的机制。
(3)我们在四个公共数据集进行一系列下游任务的实验。结果表明HeGAN具有明显的优越性。

异构信息网络上的对抗生成学习

生成对抗的网络。我们的工作受到GANs的启发,GANs可以被看作是两个玩家之间的一个极小极大的博弈,即生成器G和鉴别器D。具体的优化形式如下所示:

image.png

HeGAN的总体框架。如图(c)所示,我们的框架主要由两个相互竞争的模块组成,即判别器和生成器。给定一个节点,生成器尝试生成与给定节点相关联的伪样本,以提供给判别器,而判别器则尝试改进其参数来将假样本与实际连接到给定节点的真实样本分离。在这个重复的过程中,训练好的判别器会迫使生产器产生更好的假样本,而判别器则也会增强其判断能力。在这样的迭代过程中,生成器和判别器都得到了正强化。

现有的研究只是利用GAN来区分节点与给定节点在结构连接上是真还是假,而没有考虑到异构信息网络的不同语义。例如,给定一篇论文p2,它们将节点a2、a4视为真,节点a1、a3为伪(根据图(a)所示的网络的拓扑结构),。但是,a2和a4连接到p2的原因不同: a2写了p2, a4读了p2。因此,它们忽略了异构信息网络所包含的有价值的语义,无法区分a2和a4,因为它们扮演着不同的语义角色。在语义保持的表示学习方面,HeGAN引入了一个关系感知的判别器和生成器,以区分节点之间的各种类型的语义关系。在以上的异构信息网络上,给定节点p2和一个关系,比如write/ write,我们的判别器能够分辨出a2和a4,而我们的生成器将尝试生成更像a2而不是a4的假样本。

其次,现有的研究在假样本的生成的有效性和效率上有局限性。他们通常对在原始网络中的所有节点上使用某种形式的softmax来生成假样本。在有效性方面,他们的假样本受限于网络中已经存在的节点,或许最具代表性的假样本可能不存在于现有的可观察到的节点。例如,给定一个节点p2,他们只能选择来自空间V(V为网络中所有节点的集合)的样本,比如a1和a3。然而,两者可能都不是与实际节点a2充分相似。为了更好的样本生成, 我们引入一个广义生成器,可以生成例如a’之类的假样本,其中,a’可能并不属于V。我们可以只为a’可能是a1、a3的“平均”,更类似于真正的样本a2。在计算效率方面,softmax函数的计算开销较大,必须采用负采样和图softmax等近似方法。相反,我们的生成器可以直接从连续的空间中采样假节点,而无需使用softmax。我们的具体框架如下所示。

image.png

我们在DBLP、Yelp、Aminer、Movielens四个数据集上进行了实验,具体在节点聚类、节点分类、链路预测和推荐四个任务上验证了有效性。实验数据集如下所示。

image.png

首先,我们依此来看下节点分类、链路预测、节点聚类、推荐四个任务下的实验结果。

image.png
image.png
image.png
image.png

其次我们来可视化一下节点表示的空间(Yelp数据集),

image.png

由图可知,HeGAN的边界更清晰,集群更加密集。

我们给出了Yelp上的HeGAN生成器器和判别器的学习曲线,从损失变化和聚类效果两方面进行分析。在损失的初始波动之后,生成器和判别器开始了他们之间的极小极大的博弈,两者的损失逐渐减少。经过大约20个epoch的对抗性训练,两者的损失趋于收敛,而胜者实现了更好的性能。注意,当训练了更多的epoch时,由于过度拟合,聚类性能下降。

image.png

之后,我们在节点聚类和节点分类两个任务上验证异构信息和我们提出的广义的生成器的有效性,我们可以得出如下结论:(1) 在异构信息网络中,不同类型的节点和关系应加以区分。(2) 我们的广义生成器确实可以产生更有代表性的样本。

image.png

最后,我们来看一下HeGAN的效率。

image.png

从图中我们可以看到HeGAN的训练时间和节点数成线性关系,时间性能大大优于基于softmax的GraphGAN。

结语

本文涉及的技术主要为异构信息网络和对抗生成学习。实际中所涉及的网络往往不会只包含单一类型的节点或者关系,网络由越来越多的复杂关系构成是大势所趋。所以如何更好利用和表示这种复杂的网络来产生更多的价值一直研究的重点。其次,现有的网络往往存在很多噪声,或者抗噪能力薄弱,这激励着我们学习更加鲁棒性的网络表示。

相关文章
|
14天前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目DWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取分为区域残差化和语义残差化两步,提高了特征提取效率。它引入了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,优化了不同网络阶段的感受野。在Cityscapes和CamVid数据集上的实验表明,DWRSeg在准确性和推理速度之间取得了最佳平衡,达到了72.7%的mIoU,每秒319.5帧。代码和模型已公开。
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
|
15天前
|
监控 安全 测试技术
网络信息系统的整个生命周期
网络信息系统规划、设计、集成与实现、运行维护及废弃各阶段介绍。从企业需求出发,经过可行性研究和技术评估,详细设计系统架构,完成设备安装调试和系统集成测试,确保稳定运行,最终安全退役。
30 1
网络信息系统的整个生命周期
|
2天前
|
安全 Linux 网络安全
nmap 是一款强大的开源网络扫描工具,能检测目标的开放端口、服务类型和操作系统等信息
nmap 是一款强大的开源网络扫描工具,能检测目标的开放端口、服务类型和操作系统等信息。本文分三部分介绍 nmap:基本原理、使用方法及技巧、实际应用及案例分析。通过学习 nmap,您可以更好地了解网络拓扑和安全状况,提升网络安全管理和渗透测试能力。
11 5
|
4天前
|
SQL 安全 算法
网络安全的隐形盾牌:漏洞防御与信息加密的艺术
【10月更文挑战第36天】在数字世界的海洋中,网络安全犹如一艘船的保护罩,守护着我们的隐私和数据安全。本文将揭开网络安全的神秘面纱,从常见的网络漏洞到先进的加密技术,再到培养必要的安全意识,我们将一步步构建起防御的堡垒。文章不仅分享技术细节,还强调了在个人和组织层面采取积极措施的重要性。
|
15天前
|
编解码 安全 Linux
网络空间安全之一个WH的超前沿全栈技术深入学习之路(10-2):保姆级别教会你如何搭建白帽黑客渗透测试系统环境Kali——Liinux-Debian:就怕你学成黑客啦!)作者——LJS
保姆级别教会你如何搭建白帽黑客渗透测试系统环境Kali以及常见的报错及对应解决方案、常用Kali功能简便化以及详解如何具体实现
|
15天前
|
存储 关系型数据库 MySQL
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
187 1
|
14天前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2融合DWRSeg二次创新C3k2_DWRSeg:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2融合DWRSDWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取方法分解为区域残差化和语义残差化两步,提高了多尺度信息获取的效率。网络设计了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,分别用于高阶段和低阶段,以充分利用不同感受野的特征图。实验结果表明,DWRSeg在Cityscapes和CamVid数据集上表现出色,以每秒319.5帧的速度在NVIDIA GeForce GTX 1080 Ti上达到72.7%的mIoU,超越了现有方法。代码和模型已公开。
|
3天前
|
安全 网络安全 数据安全/隐私保护
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
【10月更文挑战第38天】本文将探讨网络安全与信息安全的重要性,包括网络安全漏洞、加密技术和安全意识等方面。我们将通过代码示例和实际操作来展示如何保护网络和信息安全。无论你是个人用户还是企业,都需要了解这些知识以保护自己的网络安全和信息安全。
|
2天前
|
存储 安全 网络安全
云计算与网络安全:探索云服务中的信息安全策略
【10月更文挑战第39天】随着云计算的飞速发展,越来越多的企业和个人将数据和服务迁移到云端。然而,随之而来的网络安全问题也日益突出。本文将从云计算的基本概念出发,深入探讨在云服务中如何实施有效的网络安全和信息安全措施。我们将分析云服务模型(IaaS, PaaS, SaaS)的安全特性,并讨论如何在这些平台上部署安全策略。文章还将涉及最新的网络安全技术和实践,旨在为读者提供一套全面的云计算安全解决方案。
|
2天前
|
存储 安全 网络安全
网络安全与信息安全:漏洞、加密技术与安全意识的交织
【10月更文挑战第39天】在数字化时代,网络安全与信息安全成为保护个人隐私和组织资产的重要屏障。本文将探讨网络安全中的常见漏洞、加密技术的应用以及提升安全意识的重要性。通过具体案例分析,我们将深入了解网络攻击的手段和防御策略,同时提供实用建议,以增强读者对网络安全的认识和防护能力。

热门文章

最新文章