HIN2Vec:异质信息网络中的表示学习 | PaperDaily #18

简介:

不同于之前很多基于 Skip-gram 语言模型的工作,HIN2Vec 的核心是一个神经网络模型,不仅能够学习网络中节点的表示,同时还学到了关系(元路径)的表示

如果你对本文工作感兴趣,点击底部的阅读原文即可查看原论文。

关于作者:陆元福,北京邮电大学计算机系硕士生,研究方向为异质信息网络的表示学习。

■ 论文 | HIN2Vec: Explore Meta-paths in Heterogeneous Information Networks for Representation Learning

■ 链接 | https://www.paperweekly.site/papers/1182

■ 作者 | YFLu

HIN2Vec 是一篇关于异质信息网络中的表示学习的论文,发表在刚刚结束的 2017CIKM 会议上。这篇论文和我最近的工作有一些相似之处,一些想法甚至有些相同,同样有很多地方值得借鉴。

论文提出了一种针对异质信息网络的表示学习框架 HIN2Vec,不同于之前很多基于 Skip-gram 语言模型的工作,HIN2Vec 的核心是一个神经网络模型,不仅能够学习网络中节点的表示,同时还学到了关系(元路径)的表示

同时论文还对异质信息网络中表示学习的一些问题做了研究实验,例如:元路径向量的正则化、负采样过程中节点的选择以及随机游走中的循环序列问题。Introduction

论文首先指出了现有模型存在的一些问题,之前的很多工作仅仅局限于同质信息网络,而且往往只考虑节点之间的整合的信息或者限制类型的关系。虽然 ESim 模型考虑了节点间的不同关系,但是该模型过于依赖人为定义的元路径以及每条元路径人为设置的权重。

基于现有模型存在的问题,论文提出了 HIN2Vec 模型,通过研究节点之间不同类型的关系和网络结构,学习异质信息网络中丰富的信息。由于不同的元路径可能有不同的语义信息,所以作者认为对嵌入在元路径和整个网络结构中的丰富信息进行编码,有助于学习更有意义的表示

和之前的一些模型相比,HIN2Vec 模型保留了更多的上下文信息,不仅假设存在关系的两个节点是相关的,而且还区分节点之间的不同关系,并通过共同学习关系向量区别对待。

论文的主要贡献:

  • 证明了节点间不同类型的关系能够更好的捕获更多嵌入在网络结构中的细节信息,因此通过捕获节点间各种不同类型的关系,有助于网络的表示学习。
  • 提出了 HIN2Vec 模型,包括两部分:首先,基于随机游走和负采样生成训练数据,然后,设计逻辑二元分类器用于预测两个给定的节点是否存在特定的关系。同时,考虑了循环序列、负采样和正则化问题。
  • 实验很充分,包括多标签分类和链路预测,同时实验研究了循环序列、负采样以及正则化对实验分类结果的影响。
HIN2Vec

Framework

HIN2Vec 模型分为两部分:基于随机游走的数据生成部分和表示学习部分。数据生成部分,基于随机游走和负采样生成符合目标关系的数据,以用于表示学习。表示学习部分是一个神经网络模型,通过最大化预测节点之间关系的可能性,同时学习节点和关系的表示向量,模型的整体框架可以见下图。

7f3fd57558192871f59935061792f38f7a5ec8ae

值得注意的是,HIN2Vec 模型同时学习了节点和关系(元路径)的表示向量,这种多任务学习(multi-task learning)方法能够把不同关系的丰富信息和整体网络结构联合嵌入到节点向量中。

Representation Learning

HIN2Vec 模型的基本想法是对于多个预测任务,每个任务对应于一条元路径,联合学习一个模型,学到每个节点的向量表示,所以一个简单的想法就是构建一个神经网络模型,预测任意给定节点对之间的一组目标关系

论文最初的想法是一个多分类模型,即给定两个节点和一个目标关系集合,通过下图 2 的神经网络模型训练预测概率值 P(ri|x,y),(i=1…|R|),但是对于这样的一个模型的训练数据的获取是非常复杂的,因为对于一个复杂网络而言,获取网络中两个节点的所有关系是很困难的

f9a10460c03d9b3cc75dfbfd25a47c3ad5cfbf70

所以论文退而求其次,将问题简化成二分类问题,即给定两个节点 x,y,预测节点间是否存在确定的关系 r,这样就避免了遍历网络中的所有关系,图 3 所示就是 HIN2Vec 的神经网络模型。

a5011a39624463cd462c20609f81e9f56fcb7dec


模型的输入层是三个 one-hot 编码的向量?tp=webp&wxfrom=5&wx_lazy=1,经过隐层层转换到隐含向量?tp=webp&wxfrom=5&wx_lazy=1,值得注意的是,因为关系和节点的语义含义是不同的,所以论文对关系向量 r 做了正则化处理,这种处理方式限制了关系向量的值在 0 到 1 之间。

然后,模型对三个隐含向量运用一个 Hadamard 函数(例如,对应元素相乘),对乘积再运用一个线性激活函数,最后输出层对成绩求和后的值进行一个 sigmoid 非线性转换。

模型的训练数据集是以四元组的形式给出的,形如 $,其中,其中 L(x,y,r) 指示指示 x,y 之间是否存在关系之间是否存在关系 r。具体的:

e305e1a204b5326c072a0f97aeefd943ebd5cd76

Traning Data Preparation

论文采用随机游走的方式生成节点序列,但是需要注意的是,不同于 metapath2vec[1] 按照给定元路径模式游走的方式,HIN2Vec 模型完全随机选择游走节点,只要节点有连接均可游走

例如,随机游走得到序列 P1,P2,A1,P3,A1,那么对于节点 P1,可以产生训练数据 $和$。

在论文中,作者讨论了随机游走过程中可能出现的循环的情况,提出通过检查重复节点的方式消除循环,并在实验部分分析了是否消环对实验结果的影响,但是个人认为这个地方的原理性介绍比较欠缺,对于消除循环的具体做法没有给出很详细的说明解释,循环的检测是根据前面已生成的所有节点还是部分节点,也没有给出说明。

论文还讨论了训练数据集中负样本的选择,论文也是采用 word2vec 中的负采样的方法产生负样本。对于一个正样本 $,通过随机替换,通过随机替换 x,y,r 中的任意一个,生成负样本中的任意一个,生成负样本,其中,其中 x’’ 和 y’’ 之间不一定有确定的关系之间不一定有确定的关系 r’’$。

但是,由于网络中的关系数量是很少的,节点的数量远远大于关系的数量,这样就很容易产生错误的负样本(其实是可能正样本),所以论文采用只随机替换 x 或 y 中的一个,而保持 r 是不变的,同时保持 x 或 y 的类型不变

Summary

总体来说,论文的想法还是很新颖的,把节点和节点间的关系作为一种二分类问题考虑,给定两个节点 x,y,通过预测节点之间是否存在确定的关系 r,同时学习到了节点和关系的向量表示。

此外,论文考虑到了节点和关系的语义是不同的,因此它们的表示空间也应该不通,所以论文对关系向量运用了一个正则函数。对于随机游走过程中可能会出现循环节点的问题,论文也给出了实验分析,同时阐述了负采样时候节点及节点类型的选择。

个人认为,论文的不足之处在于随机游走过程中如何消除循环,没有给出较为详细的说明。此外,对于学习到的关系的表示如何应用到实际的数据挖掘任务中,论文也没有给出实验分析。

Reference

[1] Dong Y, Chawla N V, Swami A. metapath2vec: Scalable representation learning for heterogeneous networks[C]//Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.


原文发布时间为:2017-11-24

本文作者:陆元福

本文来自云栖社区合作伙伴“PaperWeekly”,了解相关信息可以关注“PaperWeekly”微信公众号

相关文章
|
3天前
|
存储 算法 Windows
课程视频|R语言bnlearn包:贝叶斯网络的构造及参数学习的原理和实例(下)
课程视频|R语言bnlearn包:贝叶斯网络的构造及参数学习的原理和实例
10 0
|
3天前
|
算法 数据可视化 数据挖掘
课程视频|R语言bnlearn包:贝叶斯网络的构造及参数学习的原理和实例(上)
课程视频|R语言bnlearn包:贝叶斯网络的构造及参数学习的原理和实例
14 0
|
2天前
|
安全 算法 网络安全
数字堡垒的构筑者:网络安全与信息加密技术纵览
【4月更文挑战第30天】在数字化时代,数据如同虚拟世界中的流通货币,而网络安全则是保护这些数据的堡垒。本文深入探讨了网络安全漏洞的概念、危害及其产生的原因;同时详细介绍了加密技术的基本原理、类型以及它们在信息安全中的应用。此外,文章还强调了提升个人和企业的安全意识在构建安全防线中的重要性。通过分析当前网络威胁和防御策略的最新动态,旨在为读者提供全面的网络安全知识框架,帮助大家构建更加坚固的数字堡垒。
|
2天前
|
Kubernetes API 调度
|
2天前
|
存储 安全 网络安全
云端防御:云计算环境中的网络安全与信息保护策略
【4月更文挑战第30天】 在数字化浪潮的推动下,云计算已成为企业及个人存储和处理数据的重要平台。随之而来的是对网络安全和信息保护的新挑战。本文将深入探讨云计算环境下的网络安全威胁,分析云服务模型(IaaS, PaaS, SaaS)中存在的安全漏洞,并提出一系列创新性的信息保护策略。通过这些策略,旨在为读者提供一个清晰的指导框架,以增强云环境的安全性和数据的保密性。
|
3天前
|
监控 安全 网络安全
云端防御:云计算环境中的网络安全与信息保护策略
【4月更文挑战第29天】 随着企业逐渐将数据和服务迁移到云平台,云计算的安全性已成为不容忽视的挑战。本文深入探讨了在动态且复杂的云计算环境中,如何实施有效的网络安全措施和信息保护策略。我们分析了当前云服务模型中存在的安全漏洞,并提出了一套多层次、综合性的安全框架,旨在增强数据隐私性、完整性以及服务的可用性。通过采用最新的加密技术、身份认证机制和持续监控手段,我们的目标是为使用云服务的组织提供一个可靠的安全指南。
|
3天前
|
前端开发 数据挖掘 数据建模
课程视频|R语言bnlearn包:贝叶斯网络的构造及参数学习的原理和实例(中)
课程视频|R语言bnlearn包:贝叶斯网络的构造及参数学习的原理和实例
12 0
|
4天前
|
机器学习/深度学习
GAN网络的代码实现(学习ing)
GAN网络的代码实现(学习ing)
|
4天前
|
云安全 安全 网络安全
构建安全防线:云计算环境中的网络安全与信息保护
【4月更文挑战第28天】 随着企业和个人日益依赖云服务,云计算的安全性已成为一个不可忽视的挑战。本文深入探讨了云计算平台中的网络安全和信息保护策略,包括最新的加密技术、身份验证协议以及入侵检测系统。通过对现有安全框架的分析,提出了一系列创新的安全措施,旨在提高数据保密性、完整性和可用性。文章还讨论了未来云计算安全研究的潜在方向,为云服务提供商和用户之间的信任建立提供了新的视角。
|
4天前
|
云安全 安全 网络安全
云端防御战线:云计算中的网络安全与信息保护策略
【4月更文挑战第28天】 随着企业逐渐将数据和服务迁移至云端,云计算的便捷性和可扩展性带来了前所未有的机遇。然而,这种转变也暴露了组织面临的新型安全威胁和挑战。本文深入探讨了在云计算环境中实施有效的网络安全和信息保护措施的必要性,分析了当前云服务中存在的安全漏洞,并提出了一系列切实可行的防御策略。通过采用先进的加密技术、身份验证协议、入侵检测系统以及细粒度的访问控制,我们能够构建一个既灵活又坚固的防御体系,确保数据和应用程序的安全性。