LINE:大规模信息网络嵌入方法

简介: LINE:大规模信息网络嵌入方法

论文标题:LINE: Large-scale Information Network Embedding


论文链接:https://arxiv.org/abs/1503.03578


论文来源:WWW 2015


一、概述


目前已有一些图embedding的方法,这些方法在小规模网络上有不错的效果,然而面对现实世界中的大规模信息网络时是无能为力的,这些网络通常包含几百万个节点和数十亿的边。举例来说,一些方法比如MDS,IsoMap以及拉普拉斯特征图法的复杂度与节点数量呈二次关系。


虽然最近的一些研究提出了一些大规模图的embedding方法,然而这些方法要么使用不是为了网络而设计的间接方法,要么缺少一个特别为图设计的目标函数。本文提出的LINE方法是一个新的大规模图embedding方法,提出了一个专门设计的目标函数,能够学习图的特性,并且提出了一个高效的优化算法,能够有效率地学习数百万节点的embedding向量。 LINE能够处理各种类型的网络,无论是有向的还是无向的,binary的还是加权的。模型优化的目标函数保留了图局部和全局的结构。


通常图的局部结构由图中可观测到的连接(也就是边)来反映,在本文中这被定义为节点之间的一阶相似性(first-order proximity)。我们观察到在现实世界的网络中,一些合理的连接可能是没有被观测到的,换句话说一阶相似性对于保持图的全局结构是不足够的。作为一阶相似性的互补,本文提出了节点之间的二阶相似性(second-order proximity),二阶相似性通过节点的共享邻居来决定,直观地来解释就是拥有共享邻居的节点是更为相似的。在许多现实的例子中可以印证这一点,比如拥有相同社交网络的两个人是很可能有共同的兴趣的,或者两个词如果经常和相同的一些词一起使用,那么这两个词的含义很可能是相似的。如下图所示,节点6,7之间有很高的一阶相似性,5,6之间有很高的二阶相似性:


QQ截图20220612095757.png

                                                   举例


大规模图embedding学习的优化问题很具有挑战性,直接应用随机梯度下降法是有问题的,这是因为在很多图中边是加权的,而且权重具有很高的方差。比如一个词共现网络中,权重数值从1到几十万不等,这些权重在优化时都要与梯度相乘,这就造成了梯度爆炸。为了解决这个问题,我们提出了一种边采样(edge-sampling)方法,根据边的权重作为概率来采样,这样就可以将加权图当做binary的图来处理。


二、问题定义


  1. 信息网络


QQ截图20220611221142.png


三、方法


LINE具有以下三个特点:

①能够保留节点之间的一阶相似性和二阶相似性;

②能够处理大规模图;

③能够处理任意类型边的图。

  1. 模型


  • LINE与一阶相似性


QQ截图20220611221301.png


QQ截图20220611221339.png


  • LINE与二阶相似性

对于有向图和无向图,都存在二阶相似性。给定一个网络,不失一般性,我们可以认为它是有向图(无向图也可以认为两个相反方向相同权重有向图的合并)。二阶相似性假设共享很多连接的节点是相似的。在这种假设下,每个节点被看做其他节点的“上下文”,如果两个节点具有相同的上下文分布的话,它们就应该是相似的。因此,每个节点扮演两种角色:

①节点本身;

②其他节点的上下文。


QQ截图20220611221547.png


QQ截图20220611221624.png

QQ截图20220611221705.png


  • 一阶与二阶相似性的结合

在本文中采用的结合一阶与二阶相似性训练结果的方法是首先单独按照上面一阶与二阶相似性的方法进行训练,然后将得到的对应的词向量拼接起来。本文没有提出联合训练的方法。

  1. 模型的优化

QQ截图20220611221822.png

QQ截图20220611221909.png


QQ截图20220611221937.png


Alias table method:【数学】时间复杂度O(1)的离散采样算法—— Alias method/别名采样方法

  1. 讨论

该部分讨论了LINE模型的几个实际问题。


  • 低度节点


QQ截图20220611222309.png


四、实验


  1. 数据集


在语言网络、社交网络、引用网络上进行实验,这些数据集覆盖了各种类型的网络:

QQ截图20220612095903.png

                                                 数据集

  1. 结果


在各个数据集上的实验结果如下:

QQ截图20220612095929.png

                                    word analogy on Wikipedia data

QQ截图20220612100022.png

                               page classification on Wikipedia data set

QQ截图20220612100052.png

                              multi-label classification on the Flickr network

QQ截图20220612100121.png

                         multi-label classification on the Youtube network

QQ截图20220612100210.png

                        multi-label classification on DBLP(AuthorCitation) network

QQ截图20220612100255.png

                        multi-label classification on DBLP(PaperCitation) network

  1. 可视化

QQ截图20220612100329.png

                                              可视化

  1. 网络稀疏性


应对稀疏网络结构:


QQ截图20220612100405.png

                                                  网络稀疏性

  1. 参数敏感性


超参数的影响:

QQ截图20220612100426.png

                                               参数敏感性

  1. 并行化


多线程训练的影响:

QQ截图20220612100509.png

                                                  多线程加速




相关文章
|
3天前
|
JavaScript 前端开发 网络安全
【网络安全 | 信息收集】JS文件信息收集工具LinkFinder安装使用教程
【网络安全 | 信息收集】JS文件信息收集工具LinkFinder安装使用教程
16 4
|
1天前
|
云安全 安全 网络安全
云端防线:云计算环境中的网络安全与信息保护
【5月更文挑战第17天】 随着企业逐渐将关键业务迁移到云平台,云计算服务的安全性和数据隐私成为了不容忽视的问题。本文深入探讨了在多租户云环境中维护网络安全的策略和挑战。通过分析当前云安全的技术手段,包括加密、访问控制、入侵检测系统(IDS)和安全信息与事件管理(SIEM),我们提出了一个多层次的安全框架,以增强对恶意攻击的防护能力。同时,文章也讨论了合规性和法规对确保信息安全的重要性,以及未来云计算安全发展的潜在趋势。
|
1天前
|
存储 监控 安全
数字堡垒的构筑者:网络安全与信息保护
【5月更文挑战第17天】在数字化时代,数据成为了新的石油,而网络安全则是保护这些宝贵资源不受黑客侵袭的防线。本文深入探讨了网络安全漏洞的本质、加密技术的最新进展以及提升个人和企业安全意识的重要性。通过分析当前的网络威胁和防御策略,我们提供了一系列的知识和工具,旨在帮助读者构建更加安全的数字环境。
|
2天前
|
云安全 安全 网络安全
云端防御战线:云计算环境下的网络安全与信息保护
【5月更文挑战第17天】 在数字化转型的浪潮中,云计算作为支撑企业灵活、高效运行的关键基石,其安全性问题日益受到关注。本文聚焦于云服务中的网络安全与信息保护,探讨了云计算环境面临的安全挑战以及应对策略。从云服务模型出发,分析了公有云、私有云与混合云的安全特性,并针对数据泄露、身份认证、访问控制等核心问题提出了相应的技术解决方案。此外,文章还涉及了合规性与法规要求对云安全实践的影响,强调了构建多层次、全方位防御体系的必要性。
|
2天前
|
监控 安全 网络安全
云端防御:云计算环境中的网络安全与信息保护策略
【5月更文挑战第17天】 随着企业逐渐将数据和服务迁移至云端,云计算已经成为现代信息技术架构的关键组成部分。然而,这种转型并非没有风险,云服务的高度互联和资源共享特性为网络攻击者提供了新的入侵途径。本文深入探讨了在云计算环境下,如何通过综合安全策略来确保网络和信息安全。我们分析了云服务模型(IaaS, PaaS, SaaS)的安全挑战,并提出了多层次防御框架,包括身份验证、数据加密、访问控制以及实时监控等关键措施。文章还讨论了应对分布式拒绝服务(DDoS)攻击、数据泄露和服务中断等常见威胁的最佳实践,旨在为读者提供一套全面的云计算安全防护指南。
|
3天前
|
存储 安全 算法
数字堡垒的构筑者:网络安全与信息保护
【5月更文挑战第15天】在数字化时代,数据如同一座座蕴含无限价值的宝库,而网络安全则是守护这些宝库不受侵犯的数字堡垒。本文将深入探讨网络安全的核心要素——安全漏洞、加密技术以及安全意识,并分享如何通过这三方面的知识和实践来强化我们的信息安全防线。
|
3天前
|
存储 安全 算法
网络防御先锋:揭秘网络安全漏洞与加固信息防线
【5月更文挑战第15天】在数字时代的风口浪尖,网络安全已成为维护信息完整性、确保数据流通安全的关键。本文将深入探讨网络安全中存在的漏洞、加密技术的进展以及提升安全意识的重要性,旨在为读者构建一道坚固的信息防线提供知识支持和实践指导。
|
3天前
|
存储 安全 网络安全
云端防御:云计算环境下的网络安全与信息保护策略
【5月更文挑战第15天】 随着企业逐渐将数据和服务迁移至云平台,云计算的安全性成为不容忽视的关键问题。本文针对当前云服务中存在的安全风险,探讨了一系列有效的网络安全防护措施和信息保护策略。首先,分析了云计算环境中的安全挑战,包括数据泄露、非法访问和服务中断等。然后,提出了综合防御策略,如多因素认证、端到端加密、入侵检测系统和行为分析等。最后,讨论了实施这些策略的最佳实践,并强调了持续监控和评估的重要性。本文旨在为云服务提供商和使用者提供一套全面的安全框架,以确保云计算环境的稳固性和可信赖性。
|
3天前
|
监控 安全 网络安全
云端防御策略:在云计算时代维护网络安全与信息完整性
【5月更文挑战第14天】 随着企业逐渐将数据和服务迁移至云平台,云计算的便捷性和成本效益显著提升。然而,这种转变也带来了新的安全挑战。本文深入探讨了云服务中的网络安全威胁、信息安全的重要性以及相应的防御机制。我们将分析当前的安全漏洞,提出创新的安全框架,并讨论如何通过综合措施确保数据的保密性、完整性和可用性。我们的目标是为读者提供一套实用的策略,以保护他们在云端的资产不受日益复杂的网络攻击。
|
3天前
|
云安全 安全 网络安全
云端守卫:云计算中的网络安全与信息保护策略
【5月更文挑战第14天】 在数字化时代,云计算已成为企业获取、存储和处理数据的中枢。随着其应用的普及,网络安全和信息安全问题亦成为亟待解决的挑战。本文将深入探讨云计算环境中面临的安全威胁,并分析现代企业在维护数据完整性、保密性和可用性方面的策略和技术实践。通过案例分析和最新技术动态的探讨,揭示如何在云服务中构建一个坚固的防御体系来对抗日益繁复的安全风险。

热门文章

最新文章