LINE:大规模信息网络嵌入方法

简介: LINE:大规模信息网络嵌入方法

论文标题:LINE: Large-scale Information Network Embedding


论文链接:https://arxiv.org/abs/1503.03578


论文来源:WWW 2015


一、概述


目前已有一些图embedding的方法,这些方法在小规模网络上有不错的效果,然而面对现实世界中的大规模信息网络时是无能为力的,这些网络通常包含几百万个节点和数十亿的边。举例来说,一些方法比如MDS,IsoMap以及拉普拉斯特征图法的复杂度与节点数量呈二次关系。


虽然最近的一些研究提出了一些大规模图的embedding方法,然而这些方法要么使用不是为了网络而设计的间接方法,要么缺少一个特别为图设计的目标函数。本文提出的LINE方法是一个新的大规模图embedding方法,提出了一个专门设计的目标函数,能够学习图的特性,并且提出了一个高效的优化算法,能够有效率地学习数百万节点的embedding向量。 LINE能够处理各种类型的网络,无论是有向的还是无向的,binary的还是加权的。模型优化的目标函数保留了图局部和全局的结构。


通常图的局部结构由图中可观测到的连接(也就是边)来反映,在本文中这被定义为节点之间的一阶相似性(first-order proximity)。我们观察到在现实世界的网络中,一些合理的连接可能是没有被观测到的,换句话说一阶相似性对于保持图的全局结构是不足够的。作为一阶相似性的互补,本文提出了节点之间的二阶相似性(second-order proximity),二阶相似性通过节点的共享邻居来决定,直观地来解释就是拥有共享邻居的节点是更为相似的。在许多现实的例子中可以印证这一点,比如拥有相同社交网络的两个人是很可能有共同的兴趣的,或者两个词如果经常和相同的一些词一起使用,那么这两个词的含义很可能是相似的。如下图所示,节点6,7之间有很高的一阶相似性,5,6之间有很高的二阶相似性:


QQ截图20220612095757.png

                                                   举例


大规模图embedding学习的优化问题很具有挑战性,直接应用随机梯度下降法是有问题的,这是因为在很多图中边是加权的,而且权重具有很高的方差。比如一个词共现网络中,权重数值从1到几十万不等,这些权重在优化时都要与梯度相乘,这就造成了梯度爆炸。为了解决这个问题,我们提出了一种边采样(edge-sampling)方法,根据边的权重作为概率来采样,这样就可以将加权图当做binary的图来处理。


二、问题定义


  1. 信息网络


QQ截图20220611221142.png


三、方法


LINE具有以下三个特点:

①能够保留节点之间的一阶相似性和二阶相似性;

②能够处理大规模图;

③能够处理任意类型边的图。

  1. 模型


  • LINE与一阶相似性


QQ截图20220611221301.png


QQ截图20220611221339.png


  • LINE与二阶相似性

对于有向图和无向图,都存在二阶相似性。给定一个网络,不失一般性,我们可以认为它是有向图(无向图也可以认为两个相反方向相同权重有向图的合并)。二阶相似性假设共享很多连接的节点是相似的。在这种假设下,每个节点被看做其他节点的“上下文”,如果两个节点具有相同的上下文分布的话,它们就应该是相似的。因此,每个节点扮演两种角色:

①节点本身;

②其他节点的上下文。


QQ截图20220611221547.png


QQ截图20220611221624.png

QQ截图20220611221705.png


  • 一阶与二阶相似性的结合

在本文中采用的结合一阶与二阶相似性训练结果的方法是首先单独按照上面一阶与二阶相似性的方法进行训练,然后将得到的对应的词向量拼接起来。本文没有提出联合训练的方法。

  1. 模型的优化

QQ截图20220611221822.png

QQ截图20220611221909.png


QQ截图20220611221937.png


Alias table method:【数学】时间复杂度O(1)的离散采样算法—— Alias method/别名采样方法

  1. 讨论

该部分讨论了LINE模型的几个实际问题。


  • 低度节点


QQ截图20220611222309.png


四、实验


  1. 数据集


在语言网络、社交网络、引用网络上进行实验,这些数据集覆盖了各种类型的网络:

QQ截图20220612095903.png

                                                 数据集

  1. 结果


在各个数据集上的实验结果如下:

QQ截图20220612095929.png

                                    word analogy on Wikipedia data

QQ截图20220612100022.png

                               page classification on Wikipedia data set

QQ截图20220612100052.png

                              multi-label classification on the Flickr network

QQ截图20220612100121.png

                         multi-label classification on the Youtube network

QQ截图20220612100210.png

                        multi-label classification on DBLP(AuthorCitation) network

QQ截图20220612100255.png

                        multi-label classification on DBLP(PaperCitation) network

  1. 可视化

QQ截图20220612100329.png

                                              可视化

  1. 网络稀疏性


应对稀疏网络结构:


QQ截图20220612100405.png

                                                  网络稀疏性

  1. 参数敏感性


超参数的影响:

QQ截图20220612100426.png

                                               参数敏感性

  1. 并行化


多线程训练的影响:

QQ截图20220612100509.png

                                                  多线程加速




相关文章
|
5天前
|
安全 物联网 物联网安全
量子通信网络:安全信息交换的新平台
【10月更文挑战第6天】量子通信网络作为一种全新的安全信息交换平台,正逐步展现出其独特的优势和巨大的潜力。通过深入研究和不断探索,我们有理由相信,量子通信网络将成为未来信息安全领域的重要支柱,为构建更加安全、高效、可靠的信息社会贡献力量。让我们共同期待量子通信网络在未来的广泛应用和美好前景!
|
3天前
|
SQL 安全 算法
网络安全与信息安全:构建数字世界的防线在数字化浪潮席卷全球的今天,网络安全与信息安全已成为维系社会秩序、保障个人隐私与企业机密的重要基石。本文旨在深入探讨网络安全漏洞的本质、加密技术的前沿进展以及提升安全意识的有效策略,为读者揭示数字时代下信息保护的核心要义。
本文聚焦网络安全与信息安全领域,详细剖析了网络安全漏洞的形成机理、常见类型及其潜在危害,强调了及时检测与修复的重要性。同时,文章系统介绍了对称加密、非对称加密及哈希算法等主流加密技术的原理、应用场景及优缺点,展现了加密技术在保障数据安全中的核心地位。此外,针对社会普遍存在的安全意识薄弱问题,提出了一系列切实可行的提升措施,如定期安全培训、强化密码管理、警惕钓鱼攻击等,旨在引导公众树立全面的网络安全观,共同构筑数字世界的安全防线。
|
13天前
|
SQL 安全 网络安全
网络安全的盾牌:漏洞防御与信息加密技术
【9月更文挑战第27天】在数字时代,网络安全和信息安全成为维护数据完整性、保密性和可用性的关键因素。本文将探讨网络安全漏洞的概念、成因及预防措施,同时深入讨论加密技术在保护信息安全中的作用。通过分析安全意识的重要性和提升方法,旨在为读者提供一套全面的网络安全知识框架,以增强个人和组织对抗网络威胁的能力。
28 5
|
13天前
|
存储 关系型数据库 MySQL
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
81 5
|
14天前
|
传感器 物联网 人机交互
物联网:物联网,作为新一代信息技术的重要组成部分,通过智能感知、识别技术与普适计算等通信感知技术,将各种信息传感设备与互联网结合起来而形成的一个巨大网络,实现了物物相连、人物相连,开启了万物互联的新时代。
在21世纪,物联网(IoT)作为新一代信息技术的核心,正以前所未有的速度重塑生活、工作和社会结构。本文首先介绍了物联网的概念及其在各领域的广泛应用,强调其技术融合性、广泛的应用范围以及数据驱动的特点。接着,详细阐述了物联网行业的现状和发展趋势,包括政策支持、关键技术突破和应用场景深化。此外,还探讨了物联网面临的挑战与机遇,并展望了其未来在技术创新和模式创新方面的潜力。物联网行业正以其独特魅力引领科技发展潮流,有望成为推动全球经济发展的新引擎。
|
20天前
|
机器学习/深度学习 安全 网络安全
云端盾牌:云计算时代的网络安全守护在这个数字脉搏加速跳动的时代,云计算以其高效、灵活的特性,成为推动企业数字化转型的强劲引擎。然而,正如每枚硬币都有两面,云计算的广泛应用也同步放大了网络安全的风险敞口。本文旨在探讨云计算服务中网络安全的关键作用,以及如何构建一道坚不可摧的信息防线,确保数据的安全与隐私。
云计算作为信息技术领域的革新力量,正深刻改变着企业的运营模式和人们的生活。但在享受其带来的便利与效率的同时,云服务的安全问题不容忽视。从数据泄露到服务中断,每一个安全事件都可能给企业和个人带来难以估量的损失。因此,本文聚焦于云计算环境下的网络安全挑战,分析其根源,并提出有效的防护策略,旨在为云服务的安全使用提供指导和参考。
|
14天前
|
安全 物联网 网络安全
网络安全的盾牌:漏洞防御与信息保护策略
【9月更文挑战第25天】在数字时代的浪潮中,网络安全和信息安全的重要性日益凸显。本文旨在探讨网络安全漏洞的成因、加密技术的应用以及提升安全意识的必要性。通过深入浅出的分析,揭示网络攻防的复杂性和对策的多样性,强调个人和企业应如何构建坚固的防线以保护数据不受威胁。
|
29天前
|
安全 网络安全 量子技术
数字堡垒之下:网络安全与信息保护的现代策略
在数字化浪潮中,网络安全成为守护个人隐私与企业资产的关键盾牌。本文将深入探讨网络安全漏洞的成因与对策,加密技术的最新进展,以及提升安全意识的重要性。从网络攻击的演变到防御机制的升级,我们将一同穿梭于这场看不见硝烟的战争中,揭示保护信息安全的现代策略。
56 1
|
10天前
|
缓存 运维 NoSQL
使用 psutil 获取硬件、网络以及进程信息
使用 psutil 获取硬件、网络以及进程信息
20 0
|
2月前
|
存储 缓存 网络协议
网络丢包排查方法
网络丢包排查方法