外滩大会蚂蚁开源大规模图学习系统AGL

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: AGL 将持续的系统优化和能力创新,并将优秀的系统和算法实践开放到社区,本次开源为 AGL v0.1 版本。

GitHub 地址:https://github.com/TuGraph-family/TuGraph-AntGraphLearning

0 1 图:是一种描述和认知世界的方式

图是一种描述和认知世界的方式,它能够表达万物之间的关联,是事物关系的原生表达。基于图进行学习,可以挖掘出事物的内在属性以及事物之间的联系。图的描述能力很强,能够进行高阶严谨的数据建模。在工业界,图学习技术有广泛的应用,如社交推荐、资金风控、企业授信、药物设计等。从 2016 年以来,图学习在各领域都得到了广泛的应用,图学习也成了当下人工智能领域的研究热点之一。

蚂蚁多元化的业务场景在生产经营、风险防控过程中,围绕商户、用户、企业、产品、风险事件等沉淀了海量的图数据和复杂的动态网络关联,自 2016 年开始,蚂蚁机器智能图学习团队持续深耕复杂、异构、动态网络的图学习应用,实现对复杂关系的拓扑感知和长尾稀薄客群的客户画像和风险防控。图学习技术在蚂蚁的业务中也得到了广泛的应用,并取得了优秀的业务成果。

蚂蚁图学习系统极大地提升了蚂蚁业务的效益和效率,如应用于网商银行数字化供应链“大雁”系统,使供应链识别精度提升 50%,贷款可得率从 30% 提升到 80%;应用于支付宝数字开放平台,帮助生态商家提升其权益、供给分发效率超过 50%。

图学习通过机器学习方法对图数据进行分析和建模的一种方法,TuGraph-AntGraphLearning(以下简称为 AGL)是行业首个通用的工业图学习系统,实现了万亿规模图数据上的信息协同和结构感知,构建了多个行业数字化图智能方案,也沉淀了多个优秀的算法实践,发表 CCF-A/B 类国际期刊会议论文 60 余篇,授权发明专利 40 余项,五项国际榜单/竞赛第一,也是图神经网络国家标准的核心参与单位。

2023年9月7日,AGL 外滩大会开源蚂蚁多年打磨的工业级图学习系统和一系列经过业务实践验证的图学习算法,通过开源这些技术和成果,希望为广大开发者提供一个强大的工具和平台,帮助大家更好地应用图学习技术解决实际业务问题,同时通过社区共建,吸收产研优秀的系统与算法实践,持续降低图学习的应用门槛,促进图学习技术的交流和创新,推动图学习在各行各业更的广泛应用。

0 2 图学习要做什么?

古人云 “物以类聚,人以群分”。那么反过来根据人的关联关系,以及关联的这些人的特征,大致也能够定义一个人是什么样的人。图学习要做的事便是联合图中的结构信息(边,关联关系)以及特征信息(点/边特征)学习出图(点/边)的内在属性,从而应用在推理预测任务中,典型的有节点分类、链接预测、图预测等。

通常可以通过图神经网络进行图学习任务,基本思想是节点汇集邻居信息,并进行聚合得到当前节点的属性信息。通过嵌套多次这样的处理,节点便能汇聚到更远的邻居的信息。由于通过“边”汇聚邻居的信息,这样的方式可以巧妙的将图的结构信息和属性信息结合起来。

0 3 工业级图学习任务有什么特点?

工业场景的复杂性给图学习任务带来巨大挑战。以蚂蚁的图学习任务为例,其特点概括如下:

图数据复杂:典型的图学习业务场景有数十亿点,数百亿边,复杂的业务场景有千亿条边。而图学习过程中,每个点的信息(embedding)依赖其邻居的信息,需要跨节点的数据交换和聚合传播,这样的数据依赖使得图学习难以像经典 DNN 一样进行并行/分布式训练。此外图数据中可能存在丰富的点/边类型,图也可能具有时序动态性。
任务类型复杂:为满足风险防控的实效性、一致性、计算性能要求,图学习需要提供离线全图学习、近线准事实增量预测、在线毫秒级高性能推理等要求,也给图学习的训练和推理提出了更高的要求。
因此工业场景中,需要图学习框架能够适应大规模的图数据,具有良好的扩展性,能够表达丰富类型的图数据;同时能够完善提供训练与推理能力,适应工业场景中稳定性,一致性,资源成本等方面的要求。

0 4 AGL如何应对这些挑战

AGL 为工业级大规模图学习任务提供全链路解决方案,包括支撑大规模图学习的离线批量预处理及在线交互式实时采样学习方案。其中,本次开源的离线批量预处理方案,在图表示及样本生成阶段,为了应对工业级图学习任务中复杂而规模庞大的图数据,AGL 支持了同质、异质、动态等图数据类型,设计了 k 阶邻域生成器,预先抽取目标节点的子图信息,从而把大图转换为一个个数据独立的小图。在抽取过程中,AGL 设计了索引和采样机制,通过配置可以实现数值过滤/逻辑过滤,权重采样/Top K 采样等,支持点/边/图级别的图样本生成。AGL 将这些不同种类的图样本通过统一的结构表达出来,把这个关于图的结构与特征的综合体称为 Graph Feature.

在图训练和预测阶段,因预先生成的图样本解决了数据依赖问题,图训练可以复用成熟的 DNN 训练方案(如分布式方案 PS,AllReduce 等)。通过图样本解析工具将统一表达的 Graph Feature 解析成模型所需的 点/边 特征矩阵,邻接矩阵等信息。在建模层,用经典的 Encoder-Decoder 的范式描述建模过程,并进行图卷积层、图算法层、图模型层的划分,方便用户复用。图预测过程可以直接使用图样本生成阶段已经生成好的样本,保证训练和预测阶段图样本的一致性。

在图学习算法层面,本次开源也提供一系列经典的开箱即用且业务实践应用过的算法,涵盖异质/同质/动态图等不同算法,对应节点表征/链接预测/自监督等多种任务。同时我们适配了开源算法库(如 PyG), 减轻用户开发负担。

0 5 AGL 当前开源版本(v0.1)的主要能力

AGL 当前开源版本已经能够支持较大规模复杂图数据的全链路图学习任务。总结起来,AGL 目前主要提供如下能力:

灵活可扩展的图样本生成:基于 Spark 支持大规模图数据k阶邻域生成,解除图学习任务中的数据依赖问题;支持丰富的图类型,如同质、异质、动态等图数据类型;抽取子图过程,支持灵活丰富的过滤与采样能力;支持点/边/图多个级别的图样本生成,并通过统一的 GraphFeature 进行表达。

简洁易用的图训练与图预测:因预先生成的图样本解决了数据依赖问题,用户可以使用像使用 DNN 的方式一样训练 GNN ,入门简单;使用统一的数据格式表达和解析不同类型,不同级别的图样本,用户只需简单的配置就能支持读取和解析相应的图样本,获得模型所需的点/边 特征矩阵,邻接矩阵等信息,方便易用;图预测过程可以直接使用图样本生成阶段已经生成好的样本,保证训练和预测阶段图样本的一致性。

丰富的图学习算法:用经典的 Encoder-Decoder 范式描述算法建模过程,并进行图卷积层、图算法层、图模型层的划分,可复用性强;提供提供一系列经典的开箱即用且业务实践应用过的算法,涵盖异质/同质/动态图等不同算法,对应节点表征/链接预测/自监督等多种任务;适配开源算法库,减轻开发负担;

目前 AGL 以 Docker 镜像的形式提供全流程的运行环境。即使是在普通PC电脑上,也能方便的基于 AGL 在一些小型图数据上进行图学习任务。

0 6 未来工作

AGL 将持续的系统优化和能力创新,并将优秀的系统和算法实践开放到社区,本次开源为 AGL v0.1 版本。未来,AGL 在系统层面未来会开放交互式采样、TuGraph 多引擎联动、复杂图特征计算等,为用户提供高效易用的图学习系统。在图数据表示层面,通过与新一代图谱语义框架(Semantic-enhanced Programmable Graph, SPG)的联动,将复杂的多主体深度关联显性知识化、稀疏关系稠密化,实现数据知识化增强。在推理学习能力上,驱动逻辑规则与图学习的双向驱动,支撑逻辑规则挖掘、规则引导可解释图学习等。欢迎各界同仁一起建设 AGL,推进图学习的技术创新和各领域落地应用。

相关文章
|
4月前
|
存储 人工智能 自然语言处理
社区供稿 | 开放开源!蚂蚁集团浙江大学联合发布开源大模型知识抽取框架OneKE
OneKE 是由蚂蚁集团和浙江大学联合研发的大模型知识抽取框架,具备中英文双语、多领域多任务的泛化知识抽取能力,并提供了完善的工具链支持。OneKE 以开源形式贡献给 OpenKG 开放知识图谱社区。
|
2月前
|
人工智能 自然语言处理 数据可视化
书生·浦语2.5开源,推理能力再创新标杆,怎么玩都在这里了!
上海人工智能实验室秉持“以持续的高质量开源赋能创新”理念,在为社区始终如一地提供高质量开源模型的同时,也将继续坚持免费商用授权。
|
4月前
|
搜索推荐 数据安全/隐私保护
ATEC“数星”计划发布,开源亿级工业数据集
9月8日,ATEC前沿科技探索社区在外滩大会见解论坛现场正式宣布,启动ATEC“数星”计划。
ATEC“数星”计划发布,开源亿级工业数据集
|
12月前
|
消息中间件 Cloud Native Serverless
阿里云在云原生领域喜获多项 OSCAR 开源尖峰案例奖
阿里云在云原生领域喜获多项 OSCAR 开源尖峰案例奖
|
存储 人工智能 自然语言处理
悦数图数据库:图技术加速行业大模型智能化应用落地|WAIC 2023 精彩回顾
7月8日,以“智联世界,生成未来”为主题的 2023 世界人工智能大会(WAIC)在上海顺利闭幕,悦数图数据库最新版本 v3.5.0在大会上首次亮相,并带来了悦数图数据库与 AI 大模型结合的实践成果分享,获得现场观众及媒体的广泛关注。
悦数图数据库:图技术加速行业大模型智能化应用落地|WAIC 2023 精彩回顾
|
存储 数据采集 人工智能
数智洞察 | 大国科技博弈,开放科学平台的“四步”开源之旅
编者按: 20世纪末,科学界发起了一系列体现“参与、包容、分享、合作、公开、透明”理念的开放科学运动,包括开源软件、开放获取、开放数据以及开放基础设施和平台等。开放科学运动的发起是为了克服传统封闭的科学模式造成的种种弊端,比如过高付费墙造成知识鸿沟与不平等。 当前,随着时代发展,从开放获取迈向开放科学,已经成为全球共识,全球科研模式也因此发生深刻变革。但我国目前要实现开放科学还面临着许多问题,如何构建开放科学的中国路径、制定互惠共享的国际科技合作战略是我国开放科学发展的未来思路。 本文约3562字,建议阅读时间9分钟。
119 0
|
数据采集 机器学习/深度学习 设计模式
卷麻了! nnUNet 研究团队重磅新作 | MedNeXt: 新一代分割架构之王,刷新多项榜单记录!
卷麻了! nnUNet 研究团队重磅新作 | MedNeXt: 新一代分割架构之王,刷新多项榜单记录!
946 0
|
存储 人工智能 运维
QCon大会精彩分享:数据湖、可观测、自动驾驶训练,阿里云存储独家技术详解与案例实践!
QCon 全球软件开发大会是由极客邦科技旗下 InfoQ 中国主办的综合性技术盛会,每年在伦敦、北京、纽约、圣保罗、上海、旧金山召开。自2007年3月份开始举办以来,已经有超万名有多年从业经验的技术人员参加过QCon大会。QCon 内容源于实践并面向社区,演讲嘉宾依据热点话题,面向5年以上工作经验的技术团队负责人、架构师、工程总监、开发人员分享技术创新和实践。
1062 2
QCon大会精彩分享:数据湖、可观测、自动驾驶训练,阿里云存储独家技术详解与案例实践!
|
运维 监控 Cloud Native
华为22级专家十年心血终成云原生服务网格进阶实战文档,是真的6
在All in Cloud时代,你不一定做云原生,但是必须要懂云原生,掌握云原生的开发者或架构师会更受企业的青睐!! 未来云原生应用也会逐步取代传统的本地开发应用。 云原生是基于分布部署和统一运管的分布式云 ,以容器、微服务、DevOps等技术为基础建立的一套云技术产品体系,既是一种新型技术体系,也是云计算未来的发展方向。
|
开发者
业技融合,数创未来 | 一图剧透阿里云研发效能峰会主论坛
面向企业开发者及技术管理者,探索研发效能的技术趋势、分享业界研发效能实践经验,共享云时代研发效能新成果——BizDevOps。
126 0
业技融合,数创未来 | 一图剧透阿里云研发效能峰会主论坛