10亿节点异构网络中,GCN 如何应用?

简介: 小叽导读:推荐系统普遍是基于用户偏好的商品或者商品关系来建模学习,这些关系通常可以用网络结构表示,在淘宝这样的复杂场景网络常常是十亿节点和上百亿的边,计算和推理复杂度高挑战大,网络嵌入方法(Network Embedding)能够学习网络中节点的低维度潜在表示,可以用所学表征在低维空间实现相关推荐。本篇论文收录于KDD2019,建议大家收藏阅读哦。

作者 | 赵军、周洲、管子玉、赵伟、宁伟、仇光、何晓飞


本篇论文已被 KDD 2019 收录,原版论文 《IntentGC:a Scalable Graph Convolution Framework Fusing Heterogeneous Information for Recommendation》,关注“阿里机器智能”官方公众号,并在对话框内回复“融合”,即可在线阅读、下载。

2.jpg

1. 引言

在构图中用户和商品的交互行为通常是最直接也是最有效的边连接方式,是一种显式的用户偏好刻画,并取得一定的推荐效果提升,该方案存在的最大问题是显式交互数据存在较大的数据稀疏性。而在实际场景中是存在大量的异构信息可以引入提升网络表征的丰富性,比如用户的搜索词、访问店铺、偏好品牌、偏好属性等等,这些特征可以提升更丰富的语义表示和相关性刻画,intentGC是本文提出的一种基于GCN的统一的网络嵌入学习框架,融合显式偏好关系以及丰富的用户和商品异构关系信息,提升推荐系统的效果,算法中最为核心的技术是图卷积,我们在经典图卷积的基础之上做了一些创新优化,以更好地解决我们业务中存在的强异构性、大规模性等核心挑战。

3.png

2. 问题定义

26.png

3. 模型设计

本文设计的模型融合多种信息的大规模图卷积学习算法,采用二部异构图建模,loss设计采用triplet目标,可以有效的控制和侧重学习用户的显示偏好和表达,整个学习过程是一个半监督的模式,有效利用了电商体系内大量的无标注信息提升学习目标精度。方案核心包括三部分,一是网络翻译,对原始网络进行一次无损翻译;二是快速卷积网络,对异构信息进行高效卷积;三是对偶卷积,基于翻译的HIN学习用户和商品表征。

  • 网络翻译

网络引入多种异构节点带来更丰富信息同时也带来了语义不兼容的挑战,区分节点类型计算对具有多种异构节点和边的大规模网络来说复杂度和计算量是一个巨大的挑战,本文借鉴相关研究基于二阶相似性将原始的网络翻译成用户-用户或者商品-商品关系,相似度计算是基于二者相同附加信息个数,核心思想是如果u1和u2有相同的辅助信息连接的话,u1和u2之间也相关,这样就可以实现将网络中异构节点的语义信息编码成用户-用户关系或者商品-商品关系实现原始网络信息翻译。

  • 快速卷积网络IntentNet

原始的GCN在大规模的图中计算时具有巨大的计算复杂度,因为会通过高阶传输方式进行内容传播,复杂度是指数级的。本文提出的快速卷积网络intentNet通过以下两点优化可以有效的解决这个问题:第一,在卷积算子中,实际上并不是所有神经元都是同等重要的,在激活过程中,实际上只有最相关的神经元具有最大的效果,因此我们将图卷积设计为稀疏的网络激活,也可以看成是信道共享的向量学习,通过向量化的卷积实现邻居信息传播;第二,我们还发现,原始的高指数卷积复杂度主要来源于高阶节点,但是这种训练方式是可以解耦的,可以拆分成graph view和node view两种训练模块。基于这两点观察,我们重新设计了图卷积,通过全连接网络实现特征组合,实验表明相比GraphSage具有更好的效率和效果。

a) 向量化卷积函数

16.png

表征学习主要做两个任务,一是学习节点自身和邻居节点关系衡量邻居节点对效果的影响,二是学习不同维度向量空间关系自动抽取有用的组合特征,图卷积包括两步,一是聚合:

17.png

二是卷积

18.png

本文称为bit-wise卷积。其实我们发现并不需要计算所有的特征之间的交互,我们将图卷积设计为稀疏的网络激活,也可以看成是信道共享的向量学习,通过向量化的卷积实现邻居信息传播,本文设计的向量化卷积函数如下:

19.png

27.png

b) IntentNet

22.png

卷积训练方式设计拆分成graph view和node view两种训练模块,然后通过两者联合获取图卷积的功能,前者基于上述的向量化卷积函数,多卷积层堆叠能够有效的学习邻居节点传播关系,实现图卷积的任务,后者接全连接层学习不同维度向量空间的特征关系。

  • 对偶卷积

为了user和item的表征和label信息刻画精确,不同于传统GCN,我们设计了对偶性的GCN结构,在同一个框架中具体学习。具体的方案是user进行独立的卷积,item和负采样进行共享的卷积,然后在卷积层最后,通过dense网络将三者投影到同一语义空间,最后,采取triplet loss的方法进行学习,这样结构的好处是,可以比经典GCN拥有更准确的异构表征能力,同时实践证明,这样的方式也可以让两个对偶卷积收敛,具有好的半监督效果。

  • IntentGC算法框架

intentGC算法框架主要包含三部分:1)网络翻译;2)训练;3)推断。在训练后我们可以获得用户和商品的向量表征,然后通过k-近邻的思路进行检索推荐。

23.png

4. 实验结论

实验我们主要是验证IntentGC和现有算法的效果对比,IntentNet在处理十亿规模图学习任务上和GraphSage效率对比,以及验证增加异构信息的模型学习能力对比,我们离线基于淘宝和亚马逊的数据进行评估,分别对比DeepWalk、GraphSage、DSPR、Metapath2vec++、BiNE 等算法,在淘宝和亚马逊数据集上离线评估结果以及在淘宝环境线上实验均表明我们算法的有效性。

24.png

5. 总结和展望

本文提出一种新的融合多种信息的大规模图卷积学习方案,实验表明利用电商体系内大量的无标注信息在商品推荐中有重要价值,我们设计的快速图卷积学习框架能够支持十亿节点规模网络结构应用。在商品推荐中证明有效性,未来我们希望可以将该框架应用到更多的任务中,另外,考虑到在线实时用户特征的重要性,后续也可以考虑动态图卷积模型提升模型对实时特征的学习。

目录
相关文章
|
2月前
|
机器学习/深度学习 PyTorch TensorFlow
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic,深度学习探索者。深耕TensorFlow与PyTorch,分享框架对比、性能优化与实战经验,助力技术进阶。
|
4月前
|
监控 安全 Shell
管道符在渗透测试与网络安全中的全面应用指南
管道符是渗透测试与网络安全中的关键工具,既可用于高效系统管理,也可能被攻击者利用实施命令注入、权限提升、数据外泄等攻击。本文全面解析管道符的基础原理、实战应用与防御策略,涵盖Windows与Linux系统差异、攻击技术示例及检测手段,帮助安全人员掌握其利用方式与防护措施,提升系统安全性。
194 6
|
8月前
|
SQL 分布式计算 Serverless
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
鹰角网络为应对游戏业务高频活动带来的数据潮汐、资源弹性及稳定性需求,采用阿里云 EMR Serverless Spark 替代原有架构。迁移后实现研发效率提升,支持业务快速发展、计算效率提升,增强SLA保障,稳定性提升,降低运维成本,并支撑全球化数据架构部署。
779 56
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
|
7月前
|
人工智能 监控 安全
NTP网络子钟的技术架构与行业应用解析
在数字化与智能化时代,时间同步精度至关重要。西安同步电子科技有限公司专注时间频率领域,以“同步天下”品牌提供可靠解决方案。其明星产品SYN6109型NTP网络子钟基于网络时间协议,实现高精度时间同步,广泛应用于考场、医院、智慧场景等领域。公司坚持技术创新,产品通过权威认证,未来将结合5G、物联网等技术推动行业进步,引领精准时间管理新时代。
|
3月前
|
机器学习/深度学习 人工智能 算法
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic带你深入卷积神经网络(CNN)核心技术,从生物启发到数学原理,详解ResNet、注意力机制与模型优化,探索视觉智能的演进之路。
399 11
|
8月前
|
存储 SQL 运维
中国联通网络资源湖仓一体应用实践
本文分享了中国联通技术专家李晓昱在Flink Forward Asia 2024上的演讲,介绍如何借助Flink+Paimon湖仓一体架构解决传统数仓处理百亿级数据的瓶颈。内容涵盖网络资源中心概况、现有挑战、新架构设计及实施效果。新方案实现了数据一致性100%,同步延迟从3小时降至3分钟,存储成本降低50%,为通信行业提供了高效的数据管理范例。未来将深化流式数仓与智能运维融合,推动数字化升级。
340 0
中国联通网络资源湖仓一体应用实践
|
7月前
|
算法 JavaScript 数据安全/隐私保护
基于GA遗传优化的最优阈值计算认知异构网络(CHN)能量检测算法matlab仿真
本内容介绍了一种基于GA遗传优化的阈值计算方法在认知异构网络(CHN)中的应用。通过Matlab2022a实现算法,完整代码含中文注释与操作视频。能量检测算法用于感知主用户信号,其性能依赖检测阈值。传统固定阈值方法易受噪声影响,而GA算法通过模拟生物进化,在复杂环境中自动优化阈值,提高频谱感知准确性,增强CHN的通信效率与资源利用率。预览效果无水印,核心程序部分展示,适合研究频谱感知与优化算法的学者参考。
|
4月前
|
数据采集 存储 数据可视化
Python网络爬虫在环境保护中的应用:污染源监测数据抓取与分析
在环保领域,数据是决策基础,但分散在多个平台,获取困难。Python网络爬虫技术灵活高效,可自动化抓取空气质量、水质、污染源等数据,实现多平台整合、实时更新、结构化存储与异常预警。本文详解爬虫实战应用,涵盖技术选型、代码实现、反爬策略与数据分析,助力环保数据高效利用。
254 0
|
4月前
|
安全 Linux
利用Libevent在CentOS 7上打造异步网络应用
总结以上步骤,您可以在CentOS 7系统上,使用Libevent有效地构建和运行异步网络应用。通过采取正确的架构和代码设计策略,能保证网络应用的高效性和稳定性。
135 0
|
7月前
|
机器学习/深度学习 PyTorch 算法框架/工具
基于Pytorch 在昇腾上实现GCN图神经网络
本文详细讲解了如何在昇腾平台上使用PyTorch实现图神经网络(GCN)对Cora数据集进行分类训练。内容涵盖GCN背景、模型特点、网络架构剖析及实战分析。GCN通过聚合邻居节点信息实现“卷积”操作,适用于非欧氏结构数据。文章以两层GCN模型为例,结合Cora数据集(2708篇科学出版物,1433个特征,7种类别),展示了从数据加载到模型训练的完整流程。实验在NPU上运行,设置200个epoch,最终测试准确率达0.8040,内存占用约167M。
基于Pytorch 在昇腾上实现GCN图神经网络