AliGraph:一个工业级的图神经网络平台

简介: 2019年12月8日,神经网络和深度学习领域的顶会NeurIPS 在加拿大温哥华召开,阿里巴巴计算平台PAI团队和达摩院智能计算实验室开发的Aligraph在Expo Day 现场进行展示。

2019年12月8日,神经网络和深度学习领域的顶会NeurIPS 在加拿大温哥华召开,阿里巴巴计算平台PAI团队和达摩院智能计算实验室开发的Aligraph在Expo Day 现场进行展示。

image.png

为什么专注于GNN

在大数据的背景下,利用高速计算机去发现数据中的规律似乎是最有效的手段。为了让机器计算的有目的性,需要将人的知识作为输入。我们先后经历了专家系统、经典机器学习、深度学习三个阶段,输入的知识由具体到抽象,由规则到特征再到模式,越来越宏观。相对来说,抽象的层次变高了,覆盖面变广了,但我们对底层的感知变弱了,模型的可解释程度变差了。深度学习的应用已经让我们看到了非常可观的价值,但其背后的可解释性工作进展缓慢,也因为如此,当我们用深度学习去解决涉及人身财产安全、法律等敏感问题时,只有数字效果不足以支撑这项技术的应用,我们更需要知道结果后面的原因。

Graph是知识的载体,其间的实体联系蕴含了很强的因果关系。重要的是,这是一种直观的、人们能够读懂的结构。把Graph作为知识支撑,利用深度学习的泛化技术,看上去是一个可行的方向,在某些问题上,离我们的可解释性目标更近了一步。各种深度学习相关的顶会在近年来的paper分布上,图神经网络(GNN)一直处于蓬勃态势。GNN提供了一种解决问题的思路,覆盖范围很广,很多搜索推荐类算法,都可以纳入到GNN范式,因此无论从未来技术储备,还是当下应用扩展的角度,GNN都是一个非常值得投入的方向。

AliGraph定位

相比CNN、RNN等成熟技术而言,GNN还处于探索阶段,Graph之于GNN,不如图像之于CNN、自然语言之于RNN那样理所当然。即便有Graph数据,如何使用GNN没有可遵循的固定模式,更没有沉淀下来的类似卷积一样的算子可直接调用。GNN的有效性需要更多的场景去验证,而每一个场景都需要开发者的深入理解,开发者有能力处理Graph数据和编写之上的深度学习模型。有了百花齐放的应用场景做铺垫,才有可能抽象出共性的GNN算子和算法,再将这些相对成熟的能力赋给使用者,GNN才会真正的推广开来。出于这些考虑,比起开发一个成熟算法供用户使用,平台当前阶段会更侧重提供API给开发者,让开发者有能力贴近自己的场景去实现GNN。

另一方面,工业场景中的Graph数据十分复杂,而且数据量巨大。平台不能脱离场景而独立存在,必须以业务为驱动,才最可能孵化出有实际价值的产品。以阿里巴巴的电商推荐场景为例,每天的产生的图数据多达几百TB,而且高度异构(多种类型的顶点、多种类型的边),顶点和边具有丰富的属性,诸如商品的名称、类目、价格区间,甚至是其关联的图像、视频等,这些属性以明文存在而非已经向量化好的结构化信息。以这样的数据为输入,如何高效的进行GNN训练是一个非常有挑战的问题。如果使用数据预处理、预训练等手段把Graph数据结构化、向量化,会耗费大量的计算资源、存储资源和人力成本。真正对GNN开发者友好的平台,应该是端到端的,在一套IDE里,用户既可以操作复杂的Graph数据,又可以将数据与深度神经网络对接,自由编写上层模型。平台提供简单灵活的接口,满足GNN高速发展所需的可扩展性与生态的兼容性,和针对复杂的分布式环境的大规模与稳定性。

技术栈

层次化架构

AliGraph涵盖了从原始图数据到GNN应用的整体链路,把GNN算法的探索成本降低到和传统深度学习算法同等水平。平台可以分层来看:数据层,引擎层,应用层。

image.png

数据层,支持大规模同构图、异构图、属性图。数据无需提前build好,平台提供API来简化数据解析和建图的过程。数据层接口易扩展,方便对接不同格式、不同介质的Graph数据。

引擎层,包含Graph Engine和Tensor Engine。Graph Engine又可分为逻辑对象层与算子层。逻辑对象层,描述的是把原始数据加载到系统后展现给用户的形态是什么。每一个对象实体都会提供相关的语义接口,比如对于一个Graph对象而言,可以获取图的拓扑信息、异构程度、点边数量等。对于用户而言,实际使用中只需要声明一个逻辑对象并指定其数据源即可。

image.png

算子层,在逻辑对象之上可以进行的计算操作。比如对于Graph对象而言,支持各种Sampler算子,用于对上层GNN算法提供输入。算子层具有很强的扩展性,以满足场景多样化对算子种类的需求。目前,内置支持的算子围绕GNN算法及生态展开,包括图查询、图采样、负采样、KNN等。

image.png

Tensor Engine指深度学习引擎,如TensorFlow、PyTorch,或者其他支持Python接口的Library。GraphEngine的输出为格式对齐的NumPy对象,可无缝与深度学习引擎对接。GNN开发者可自由编写Graph之上的NN逻辑,并可与业务需求相结合,组成一个深度网络模型进行端到端训练。

应用层,强调与业务端到端结合,而非把Graph Embedding的结果割裂开使用。经场景打磨的成熟算法,也会沉淀到应用层,以算法组件的形式提供给用户。

一体化实现

由GCN框架引申,典型的GNN编程范式可概括如下,系统是为了高效支持该范式而设计。

image.png

其中,向量化和聚合操作可以利用深度学习引擎的表达能力,因此,为实现上述计算模式,主要在于图相关的操作以及这些操作如何与深度学习引擎对接。我们将技术栈细化成如下图所示,其中Storage、Sampler、Operator是系统要解决的主要问题。信息自底向上在层与层之间前向传播,梯度则自顶向下更新每一层的参数,整个GNN应用在一张深度网络里描述。Storage层的Graph对象是逻辑存储,在其之下有一层抽象的文件接口,可适配多种数据源,这是系统具备可迁移性的前提。Sampler提供丰富的算子,且可独立扩展,不依赖系统框架,满足多样化的需求。Operator进行图语义操作的封装,把性能优化、数据对接隐藏在简洁的接口之下。

image.png

高效图引擎

再具体的,图引擎是连接图数据与深度学习框架的桥梁,保证数据传递的高效与稳定。这里的图操作是面向GNN的,和一般意义的图计算有很大区别。Graph Engine是一个分布式服务,具有高性能和高可用的特点,支持百亿级边的异构图在2分钟以内完成构建、十毫秒级按batch多跳跨机采样,支持从失败中状态无损的failover。Graph Engine内部深度优化了RPC过程,实现了数据零拷贝,并且Server间的连接是线程级的,在最大化带宽利用率的同时,每个线程可独立无锁的处理请求。这也是系统性能优异的主要原因。此外,我们通过有效的Cache、去中心化等手段来加速采样和负采样,性能具有明显提升。

image.png

算子可扩展

为支持GNN的快速发展需求,系统允许算子自由扩展。系统框架包括用户接口分布式运行时分布式存储 3大部分。通过用户接口调用某个算子,算子读取数据并完成分布式计算。我们把分布式运行时和存储的接口进行提炼,将编程接口控制在安全范围内,用户可以基于这些接口开发一个自定义的算子。自定义算子可以统一注册到用户接口上,无需新增用户API。具体的,每种Operator都是一个分布式算子,计算所需的数据会分布在Service的各个Server上,我们抽象了Map()和Reduce()语义,Map()用于把计算请求拆分并转发到对应的Server上,保证数据和计算colocate从而避免数据搬迁的代价,Reduce()则把每个Server的结果进行整合。Operator还需实现Process(),用于本地计算,数据序列化、分布式通信等则无需关心。

image.png

取得成果

系统

  • 数据种类:支持同构图、异构图、属性图,有向图、无向图,可方便与任意分布式文件系统对接。
  • 数据规模:支持千亿级边、十亿级顶点的超大规模图(原始存储TB级)。
  • 算子种类:支持几十种可与深度学习相结合的图查询、采样算子,支持向量检索,支持算子按需自定义。
  • 性能指标:支持分钟级超大规模图构建,毫秒级多跳异构图采样,毫秒级大规模向量检索。
  • 用户接口:纯Python接口,与TensorFlow构成一体化IDE,开发成本相比一般TF模型无异。

算法

已支持业界主流的GraphEmbedding算法,包括:DeepWalk、Node2Vec、GraphSAGE、GATNE等。多种自研算法正在计划公开,已发表的相关paper参考如下。

  • Representation Learning for Attributed Multiplex Heterogeneous Network.KDD, 2019.
  • Is a Single Vector Enough? Exploring Node Polysemy for Network Embedding.KDD, 2019.
  • Towards Knowledge-Based Personalized Product Description Generation inE-commerce. KDD, 2019.
  • Sequential Scenario-Specific Meta Learner for Online Recommendation. KDD,2019.
  • AliGraph: A Comprehensive Graph Neural Network Platform. VLDB, 2019.
  • Large Scale Evolving Graphs with Burst Detection. IJCAI, 2019.
  • Hierarchical Representation Learning for Bipartite Graphs. IJCAI, 2019.
  • Cognitive Graph for Multi-Hop Reading Comprehension at Scale. ACL, 2019.
  • Bayes EMbedding (BEM): Refining Representation by Integrating KnowledgeGraphs and Behavior-specific Networks. CIKM 2019.
  • Towards Knowledge-Based Recommender Dialog System. EMNLP, 2019.
  • Learning Disentangled Representations for Recommendation. NeurIPS, 2019.

业务

在阿里巴巴集团内,已覆盖淘宝推荐、淘宝搜索、新零售、网络安全(反恐、垃圾或异常检测、反作弊)、线上支付、优酷、阿里健康等相关业务。典型场景效果如下:

手机淘宝首页猜你喜欢,云主题推荐(每天5500w PV)

相比其他系统实现的GE模型,在百亿级边、十亿级顶点规模的用户-商品二部构图上,AliGraph的实现能使单任务节省300TB存储、万CPU时算力,训练时间缩短2/3,CTR提升12%。

安全相关,反恐、垃圾检测、异常识别等5个场景

单天三十亿级边、亿级顶点的异构图,训练时间缩短1/2,模型覆盖准确率提升6%-41%不等。

此外,AliGraph已在阿里云公共云平台发布,我们会保持持续更新,希望看到GNN为更多的场景带去更优的解决方案,也希望更多的研究者愿意投入到这个方向。

结语

本文对AliGraph平台做了概况介绍,在传递我们背后思考的同时,希望给更多GNN方向的研究者带去便利,也希望感兴趣的同学加入我们,共同打造GNN的影响力并落地到实际应用。

image.png

原文链接:https://mp.weixin.qq.com/s/gy0U3tDeJHKUE11iTVYt7g

目录
相关文章
|
1月前
|
NoSQL 关系型数据库 MySQL
《docker高级篇(大厂进阶):4.Docker网络》包括:是什么、常用基本命令、能干嘛、网络模式、docker平台架构图解
《docker高级篇(大厂进阶):4.Docker网络》包括:是什么、常用基本命令、能干嘛、网络模式、docker平台架构图解
188 56
《docker高级篇(大厂进阶):4.Docker网络》包括:是什么、常用基本命令、能干嘛、网络模式、docker平台架构图解
|
3月前
|
安全 物联网 物联网安全
量子通信网络:安全信息交换的新平台
【10月更文挑战第6天】量子通信网络作为一种全新的安全信息交换平台,正逐步展现出其独特的优势和巨大的潜力。通过深入研究和不断探索,我们有理由相信,量子通信网络将成为未来信息安全领域的重要支柱,为构建更加安全、高效、可靠的信息社会贡献力量。让我们共同期待量子通信网络在未来的广泛应用和美好前景!
|
4月前
|
XML 网络协议 物联网
基于surging的木舟IOT平台如何添加网络组件
【8月更文挑战第30天】在基于 Surging 的木舟 IOT 平台中添加网络组件需经历八个步骤:首先理解 Surging 及平台架构;其次明确组件需求,选择合适技术库;接着创建项目并配置;然后设计实现网络功能;再将组件集成至平台;接着进行详尽测试;最后根据反馈持续优化与维护。具体实施时应参照最新文档调整。
84 10
|
23天前
|
运维 监控 Cloud Native
构建深度可观测、可集成的网络智能运维平台
本文介绍了构建深度可观测、可集成的网络智能运维平台(简称NIS),旨在解决云上网络运维面临的复杂挑战。内容涵盖云网络运维的三大难题、打造云原生AIOps工具集的解决思路、可观测性对业务稳定的重要性,以及产品发布的亮点,包括流量分析NPM、网络架构巡检和自动化运维OpenAPI,助力客户实现自助运维与优化。
|
4月前
|
缓存 算法 物联网
基于AODV和leach协议的自组网络平台matlab仿真,对比吞吐量,负荷,丢包率,剩余节点个数,节点消耗能量
本系统基于MATLAB 2017b,对AODV与LEACH自组网进行了升级仿真,新增运动节点路由测试,修正丢包率统计。AODV是一种按需路由协议,结合DSDV和DSR,支持动态路由。程序包含参数设置、消息收发等功能模块,通过GUI界面配置节点数量、仿真时间和路由协议等参数,并计算网络性能指标。 该代码实现了节点能量管理、簇头选举、路由发现等功能,并统计了网络性能指标。
199 73
|
7月前
|
JavaScript Java 测试技术
基于ssm+vue.js+uniapp小程序的网络游戏公司官方平台附带文章和源代码部署视频讲解等
基于ssm+vue.js+uniapp小程序的网络游戏公司官方平台附带文章和源代码部署视频讲解等
53 2
|
8月前
|
JavaScript Java 测试技术
基于ssm+vue.js+uniapp小程序的网络游戏交易平台信息管理系统附带文章和源代码设计说明文档ppt
基于ssm+vue.js+uniapp小程序的网络游戏交易平台信息管理系统附带文章和源代码设计说明文档ppt
53 1
|
4月前
|
机器学习/深度学习 人工智能 算法
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
文本分类识别系统。本系统使用Python作为主要开发语言,首先收集了10种中文文本数据集("体育类", "财经类", "房产类", "家居类", "教育类", "科技类", "时尚类", "时政类", "游戏类", "娱乐类"),然后基于TensorFlow搭建CNN卷积神经网络算法模型。通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型,并保存为本地的h5格式。然后使用Django开发Web网页端操作界面,实现用户上传一段文本识别其所属的类别。
139 1
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
4月前
|
机器学习/深度学习 人工智能 算法
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台。果蔬识别系统,本系统使用Python作为主要开发语言,通过收集了12种常见的水果和蔬菜('土豆', '圣女果', '大白菜', '大葱', '梨', '胡萝卜', '芒果', '苹果', '西红柿', '韭菜', '香蕉', '黄瓜'),然后基于TensorFlow库搭建CNN卷积神经网络算法模型,然后对数据集进行训练,最后得到一个识别精度较高的算法模型,然后将其保存为h5格式的本地文件方便后期调用。再使用Django框架搭建Web网页平台操作界面,实现用户上传一张果蔬图片识别其名称。
81 0
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
5月前
|
云安全 安全 物联网
惊叹:《黑神话:悟空》所在 Steam 发行平台遭网络狂袭,威胁流量猛增两万倍!
8月24日,热门游戏《黑神话:悟空》的玩家发现主要发行平台Steam无法登录,引发“#Steam崩了#”登上微博热搜。起初猜测是在线人数过多导致,但完美世界竞技平台公告表示系遭受DDoS攻击。奇安信Xlab实验室详细解析了此次攻击,发现攻击指令暴增两万多倍,涉及多个僵尸网络。此次攻击对Steam造成严重影响,但也凸显了网络安全的重要性。为保障游戏环境安全,需加强服务器防护并选择可靠的防御公司。德迅云安全提供高防服务器、DDoS高防IP和安全加速SCDN等服务,助力游戏企业提升安全性。

热门文章

最新文章