图计算是理解世界的新方式

简介: 哪种技术可以更精准建模人脑?近日,蚂蚁图计算技术负责人陈文光博士受邀参加了2022极客公园创新大会并发表主旨演讲。陈文光认为,图计算以其丰富的表达能力,为处理复杂关系提供了一种全新的建模方式,也为更深刻地理解世界提供了一种有效工具。


导读

哪种技术可以更精准建模人脑?

近日,蚂蚁图计算技术负责人陈文光博士受邀参加了2022极客公园创新大会并发表主旨演讲。陈文光认为,图计算以其丰富的表达能力,为处理复杂关系提供了一种全新的建模方式,也为更深刻地理解世界提供了一种有效工具。

以下为陈文光分享内容。


1、什么是图


我们今天介绍的图计算,它既不是图像的图,也不是图形的图,它是数学中的一个门类叫做图论,图计算是图论的图。我们在屏幕上可以看到左右有两个图,它表示的是事物和它们的关系。我们用一种形式把它抽象出来,把这样的一种形式叫做图。


image.png

   

图的基本元素是点和边,点就是表示这个事物,表示这个实体,而边就表示他们之间有一定的关系。


我们看到左边的这张图,它的点有公司,有员工,还有项目。它们的边是什么呢?公司和员工之间是雇佣关系,员工和员工之间可以有好友关系,项目和员工之间也可以有参与关系。也就是说我们可以用图的方式来把事物和它们的关系抽象出来。


右边的图是一个金融交易图示意。我们每个人都有银行账号,我们的银行账号做一笔消费或者做一笔转账的时候,这个账号就是图上的点,而这个边呢,可以表示我们之间有这样一种转账关系。


从这个例子我们也可以看到,边可以附着信息,点也可以附着信息。点上可以附着这个账号在哪个银行,账号是什么。边上可以附着交易的金额,很多时候,如果你的交易金额很大,表示需要特别的关注。这个边上可能不一定是某一次转账的金额,可能是一段时间内累计的金额等等。图其实可以有非常丰富的表达能力。


另外,像金融这样的图,它的规模可能会非常的大。可能会有超过10亿个点,有千亿甚至万亿边这样一个巨大的图。可以想象,要真正处理这些图,其实还是很有挑战的。


2、 我们为什么要用图计算


有了图作为这个世界的抽象以后,大家可能想问,图计算是什么,为什么需要这样一个东西呢?


我们用信用卡套现的例子来给大家介绍为什么我们需要图计算。

image.png

左边这个例子,我们把它叫做一种简单的直接套现模式。一个人办了一张信用卡,他其实不是真的想去还款,他找了一个商店,这个商店提供一个非法的服务就是信用卡套现。那么他通过信用卡付款,把钱转到这个商店里面,这个图上面显示的是2020元钱,他把钱给到这个商店。这个商店直接就把其中的2000元钱返回给付款的人,就完成了一次套现。这样的一种套现是非常简单的,我们可以对这个个体,对这个商店的收款记录和付款记录做分析,就可以识别出套现行为。


但右边这张图就复杂了很多。我们可以看到,右上角的这个人,他还是通过信用卡付款,付了2020元钱给了商店。这个时候,商店没有直接把钱退给付款的人,他是由一个个人付了2000元钱给到一个第三人。这个个人和商店之间,我们可以通过一些分析发现,他实际上拥有这个商店,所以我们把这种关系叫做同人关系。就是店和人虽然看起来是不同的实体,但其实他们之间有一个非常强的关联。那么他付款给的第三人也不是最开始刷卡的人,而是刷卡人的一个亲友,店主付款到了刷卡人亲友的银行卡上。那这样的一个套现模式就比左边的复杂很多了。我们把这种模式叫做多跳闭环模式。


要分析这种多跳闭环模式,就需要复杂的关联关系,而不能只对这个个体进行分析。但是大家可能会说,你画的这张图很简单呀,我一眼就能看出来,这有一个环,这个坏人我很快就能抓住。


那我们来看看下面的图。下面的图中因为有很多其它交易和关系,就没那么容易看出来了。我刚才讲到,右边这张图可能会有千亿条甚至万亿条边,怎么很快地在这个图上把环找出来,这就对整个分析技术,复杂的关联分析技术提出了非常高的要求,性能成为了关键。


如果我们用传统的关系数据库的方法去分析的话,那就可能非常非常慢。而图计算技术恰恰就是处理这种大规模图上复杂关联关系的非常有用的工具,这也就是说我们为什么需要用这个图计算技术。


image.png


我们刚才举的是金融方面的例子,但是图计算的用途远远不限于金融行业。在互联网、工业领域、医药、公共卫生、公共安全等领域都有很多的应用。


举一个互联网的例子,大家每天都会用搜索引擎,大家知道Google最开始做搜索引擎的时候,它是怎么和其它搜索引擎产生区别的吗?为什么它的搜索质量更好呢?它其实主要做了一件事情,叫做网页排序。Google的两个创始人提出了一个算法,叫做PageRank。这个算法的核心就是把互联网上每一个网页抽象成一个点。然后网页上很多超链接又链接到其他的网页,就构成了这个点上的边。在这样一个大图上面,有这些点和他们之间的边的关系的时候,我们如何确定哪些网页是比另外一些网页重要,大家可以想象,这也是个非常非常大的图。


另外比如说公共安全,公共卫生方面,大家可能最近都有感同身受就是有一个词叫做“时空伴随者”,其实刻画的就是我们两个人或者一些人在同一段时间内,在一个空间里面,发生了这样的一些交互,那么这也是图计算可以有用武之地的地方。


3、图计算为理解世界提供了有效工具


图其实是多才多艺的,它在非常多的领域都可以有应用。因为它是对复杂关系的一种新的建模方式,为更深刻地理解这个世界提供了一种有效的工具。


像社交网络、电网,大家可能都已经习以为常了,大家可能注意到我把大脑放到了这张屏幕上,其实大脑也可以用图的模式来进行建模。


image.png

我们建模大脑的时候,用神经元作为图上的点。而神经元之间是靠的是突触来连接,也就是说,我们可以把大脑也抽象为一个由很多的点和很多的边组成的一个巨大的图,大家可以想象一下这个大脑的图有多大吗?


我们大概有一百亿的神经元,然后每个神经元的连接,就是这个突触数大概是1000-10000。所以大家可以想象,我们大概会有十万亿到一百万亿的边这么大的图。我们用图来建模世界,在大脑里面把世界建模成一个图,然后大脑本身也可以建模成一个图,大家觉得是不是一个非常有趣的一种巧合呢。


4、现在布局高性能图计算恰逢其时


我们刚才介绍了图计算的各种用处,它可以用来建模世界,非常的有趣。那现在我们的图计算,我们真正的分析工具发展到了什么样的阶段呢?


国际知名咨询公司Gartner,每年都会发布各种技术趋势的报告。在2021年的数据与分析的这个趋势报告中,Gartner提到了“Graph  relates  everything”。我觉得这是一个非常有趣的双关。就是图连接万物,一方面表示了图的本质,就是把各种东西都连起来,另外也表达了图会在数据分析的各个领域得到广泛应用。


下面这张图底下是一个数据库门户网站,叫做db-engines,它会收集各种各样的数据库信息。然后中间这张图,叫做数据库的热度信息,它会看各种类型的数据库在媒体上、网页上出现的次数,把这个东西统计出来,作为热度。我们可以看到最高的曲线就是图数据库的。也就是说,在过去八年间(2013-2021),这个图数据库的增长曲线是远远高于其他品类数据库的。图数据库的应用主要是面向企业的,比如大的公司、政府等。在这些人的关注中,图数据库其实已经是一个非常有热度的,非常受关注的一个领域了。

image.png


中国工程院院士、清华大学计算机系郑纬民教授,今年在人民日报上发表了一篇文章,其中提到布局图计算技术恰逢其时。抓住了图计算技术,就抓住了人工智能,大数据和高性能计算产业的牛鼻子,这个影响是不可低估的。


5、蚂蚁图计算技术保持多项世界纪录


大家可能也会关心目前整个世界图计算发展水平是什么样的。我们国家的发展水平是什么样的。这会不会是我们又一个被“卡脖子”的地方。我非常高兴地跟大家分享,蚂蚁集团图相关技术为代表的中国图计算技术,在全世界图计算技术中,不仅仅技术上领先,在应用上也是非常领先的,这是一个非常好的事情。


刚才我们提到分析欺诈这个事情,从个体的分析要变成复杂的关联分析,实际上我们还发现了一些其他的趋势。比如说,欺诈行为在过去很多时候是一种个体的欺诈,就是一些坏人个体在做这个事情,但是现在日益的演化成为了有组织的团伙欺诈的行为。


要有效地分析这样的欺诈行为,实际上对抗的工具也需要升级。从简单的静态分析到能够动态分析。当信息不断在变的时候,不停地有新的交易来的时候,我们能够在变化的数据中快速得出结果。另外,我们可能希望从事后的检查发展到预测这样的水平,也就是说,当欺诈或者一个坏的行为还没有发生的时候,我们就把黑名单识别出来,不让坏事发生。


蚂蚁集团有非常大的图规模,我们处理的最大的图边数可能达到千亿,甚至万亿,这在业界是非常非常大的规模,而且真正在线上使用的,我们是世界上非常领先的。


更挑战的是,这样规模的图,它还在非常高速地变化,吞吐率可能达到每秒钟100万次。也就是万亿条边的图,每秒钟可能要改100万次。这样巨大且飞速变化的图面前,我们对查询的延迟要求还很高。因为大家支付时,肯定希望马上就成功。不希望后台因为要分析这笔交易是不是合法,为了要抓坏人,让我们好人的交易也受到很大的延迟。所以留给我们分析的时间很短。虽然我们要在这么大的、变化这么快的图上做复杂的算法,但留给我们的时间仍然是非常非常短的,这样是为了更好的用户体验。


所有这些东西合起来以后,对我们整体的图计算技术提出了非常非常高的要求。在蚂蚁图团队的努力下,我们还是非常尽量去满足各种业务要求。我们提出了一种全栈的技术解决方案TuGraph,目前在蚂蚁已经部署了非常多的集群,在部署规模上也处于世界领先水平


蚂蚁图计算技术在国际标准的图数据库LDBC-SNB测试上,是冠军保持者,在国际上处于领先。这个测试由一个国际委员会提出测试标准,由他们委托第三方公司来执行测试,所以这个测试是非常标准化的,非常可信的。那么我们比第二名领先了多少呢?我们是第二名成绩的7.6倍,就是跑同样多的事情我们可以比他快差不多7倍。我们有信心地说,我们的技术上是世界领先的,这也是重要的原因。这个成果也获得了2021“世界互联网领先科技成果”奖,这个奖项全国每年只有约十项,是非常难得的一个事情。并且这个成果是由一个国际专家委员会评出,就表明我们这个系统它不仅在评测上获得了很好的成绩,实际上也获得了业界,包括学术界专家的一个认可。


6、图计算未来发展方向:标准化、更高性能、图智能


我们都知道技术其实是持续发展的,图计算相关技术实际上还有很大发展空间。如果和成熟的关系数据库等等相比,它还在很早期的一个阶段。我认为未来有三个重要的发展方向。

image.png


第一个是标准化。现在不同的图计算系统厂商都会提供自己的编程接口给用户,这个在初期是难以避免的。但这会造成使用了一个图计算系统的用户,很难迁移到另外一个系统上去。这个不标准化的事情,对整个产业的发展实际上是目前比较大的瓶颈之一。我们也非常积极地参与推动国际标准化组织(ISO)对图的查询语言GQL的标准化工作,并提出了一些相关提案。


第二个是性能。我们刚才提到,其实在很多的业务场景里面,对数据库,对图计算相关性能要求非常高。而现有的系统我们虽然取得了一定的成果,但是离真正的用户需求,比如说,我们可能希望在异常复杂的查询上仍然能够非常快地返回结果,这个其实目前是做不到的。目前相对来说还处于比较简单的查询可以很快返回的阶段。然后对于相对复杂的查询,当前采用的是一种叫做近线的方式,不是马上返回,而是延迟一段时间返回,可能没有办法实时阻止一笔坏的交易,要坏交易发生了一段时间以后才发现,再想办法去阻止。所以我们希望图计算性能上进一步提高。


第三个就是,图是一种关联描述世界的方式。今天其实有很多相关智能的讨论,人工智能显然也是目前非常非常重要的方向,那么图和人工智能的结合,比如大家可能听说过图神经网络,这种形式我觉得也是图计算日后发展的非常重要的趋势。


结语:技术推动世界变化,要敢于从基础层面来突破

 

最后我就稍微分享我对技术研发的一点点感悟。从我2011年开始做图计算,到现在已经有十年的时间了。我的感觉是说技术如果真正的想要去推动世界的变化,去推动世界的进步,一定要敢于从基础的层面来进行突破,然后在实际场景的应用中进行不断地锤炼,这样才能做到世界领先,而且我们要的不仅仅是技术领先,应用也要领先。我觉得非常高兴的是,中国的产业界目前已经完全能够提供这样的可能性,提供了这样的机会。我也非常期待能够看到有更多的好技术来推动世界的变化,推动世界的进步。

相关实践学习
阿里云图数据库GDB入门与应用
图数据库(Graph Database,简称GDB)是一种支持Property Graph图模型、用于处理高度连接数据查询与存储的实时、可靠的在线数据库服务。它支持Apache TinkerPop Gremlin查询语言,可以帮您快速构建基于高度连接的数据集的应用程序。GDB非常适合社交网络、欺诈检测、推荐引擎、实时图谱、网络/IT运营这类高度互连数据集的场景。 GDB由阿里云自主研发,具备如下优势: 标准图查询语言:支持属性图,高度兼容Gremlin图查询语言。 高度优化的自研引擎:高度优化的自研图计算层和存储层,云盘多副本保障数据超高可靠,支持ACID事务。 服务高可用:支持高可用实例,节点故障迅速转移,保障业务连续性。 易运维:提供备份恢复、自动升级、监控告警、故障切换等丰富的运维功能,大幅降低运维成本。 产品主页:https://www.aliyun.com/product/gdb
相关文章
|
机器学习/深度学习 图计算 图形学
同构图、异构图、属性图、非显式图
同构图(Homogeneous Graph)、异构图(Heterogeneous Graph)、属性图(Property Graph)和非显式图(Graph Constructed from Non-relational Data)。 (1)同构图:
1969 0
同构图、异构图、属性图、非显式图
|
3月前
|
缓存 运维 Serverless
函数计算产品使用问题之如何生成多张图
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
4月前
|
运维 监控 JavaScript
函数计算产品使用问题之如何查询文生图接口地址
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
6月前
|
机器学习/深度学习 算法 PyTorch
PyTorch中的动态计算图与静态计算图
【4月更文挑战第18天】PyTorch的动态计算图在运行时构建,灵活且易于调试,适合模型开发,但执行效率相对较低,不易优化。静态计算图预定义,执行效率高,利于优化,适用于对效率要求高的场景,但灵活性和调试难度较大。两者在模型开发与部署阶段各有优势。
|
6月前
|
算法 搜索推荐 数据挖掘
图计算中的图算法有哪些常见的类型?请举例说明每种类型的算法。
图计算中的图算法有哪些常见的类型?请举例说明每种类型的算法。
140 0
|
6月前
|
存储 搜索推荐 Java
图计算中的顶点和边是什么?请解释其概念和作用。
图计算中的顶点和边是什么?请解释其概念和作用。
178 0
|
6月前
|
算法 搜索推荐 Java
图计算中的图剪枝算法是什么?请解释其作用和常用方法。
图计算中的图剪枝算法是什么?请解释其作用和常用方法。
47 0
|
6月前
|
算法 搜索推荐 Java
图计算中的PageRank算法是什么?请解释其作用和计算原理。
图计算中的PageRank算法是什么?请解释其作用和计算原理。
83 0
|
数据库
设计分E-R图的步骤
设计分E-R图的步骤
222 0
|
Java API 图计算
统一识别_图计算| 学习笔记
快速学习统一识别_图计算
统一识别_图计算| 学习笔记