“大规模图计算系统GeaGraph”入选2021世界互联网领先科技成果

简介: 蚂蚁集团和清华大学联合研发的大规模图计算系统GeaGraph,能在万亿边图上进行实时查询,在国际标准图数据库测试中位列第一,处理规模和性能均达到了国际领先水平。

9月26日,2021年世界互联网大会乌镇峰会开幕。


14项世界互联网领先科技成果,也在当日的乌镇揭晓,蚂蚁集团联合清华大学自主研发的“大规模图计算系统GeaGraph”项目入选获奖。


112.jpg

(图说:CCTV2全程直播成果发布)


高性能图计算,被认为是全球尖端科技的一个重要前沿,在电信、医疗、制造、能源等领域有广阔的应用价值和前景。


蚂蚁集团和清华大学联合研发的大规模图计算系统GeaGraph,能在万亿边图上进行实时查询,在国际标准图数据库测试中位列第一,处理规模和性能均达到了国际领先水平。


中国工程院院士、清华大学计算机系教授郑纬民认为:“GeaGraph给了我们一个很好的例子:产、学、研结合,高校和科技领先企业共同突破技术难关,并将其规模化应用。”


113.jpg

(图说:蚂蚁集团董事长兼CEO井贤栋和蚂蚁图计算团队在成果发布现场)


以下为郑纬民发表在光明网的署名文章《郑纬民:加强产学研合作是加快解决我国自主基础软件升级的有效模式》全文:


加强产学研合作是加快解决我国自主基础软件升级的有效模式


    9月26日,世界互联网大会领先科技成果奖揭晓了,我非常欣喜地看到,蚂蚁集团和清华大学联合研究的《大规模图计算系统GeaGraph》位列其中。这不仅代表我国在一个系统软件的分支上取得了国际领先水平的成果,更是国内软件领域在产学研合作的一个成功案例,对未来国内基础软件的发展提供了很好的示范。


  图模型是一种新型的数据模型,通过将实体和关系抽象为图上的点和边,并在图上进行深入分析。与传统的关系模型相比,图模型能够进行更加深入的关系分析,因而在金融反欺诈、反洗钱、互联网搜索、智能制造、能源互联网等领域拥有广泛的应用前景。


  清华大学计算机系高性能所从2010年左右就开始研究图计算相关技术,并研究了一系列图计算系统。其中2016年研制成功的双子星图计算系统比业界常用的开源图计算引擎GraphX性能提高了约100倍,得到了业界的广泛关注。为了能推动技术的广泛应用,2016年从事图计算系统的清华师生成立了费马科技有限公司。费马公司在推进双子星系统应用的同时,进一步开发出了具有国际领先性能的图数据库产品TuGrpah,能支持完整的图数据库事务,并在2020年通过了国际图数据库标准组织LDBC的认证测试,是国内首家通过这一认证测试的图数据库,认证成绩高居第一,是第二名的7.6倍。


  蚂蚁集团是一家具有科技领先能力的公司,国内乃至全球最大的用户量和峰值交易量的需求使得蚂蚁集团对图计算有着丰富的场景。利用图计算技术处理支付宝的反欺诈、反套现等难题,可以比传统技术更加适用。从2015年起,蚂蚁集团开始自主研发了分布式图数据库、流式图计算等图计算技术系统,并在内部应用中得到了良好的效果。


  2020年,蚂蚁集团进一步整合了自有的技术系统,以及清华大学和费马公司研制的相关系统,升级形成了一套完整的图计算系统GeaGraph。这套系统集成了各方原有的优势,可以不夸张地说,无论从功能的完整性,还是吞吐率、响应时间等指标,GeaGraph都达到了世界领先水平,是当之无愧的世界领先科技成果。


  当然,我们也不应在现有的成绩上骄傲自满,固步自封。应该看到全球图计算领域的发展仍然处在早期阶段,比如图查询语言的定义还缺乏类似关系代数的坚实理论基础;许多国内外图数据库的写入性能都非常差,对于用户实际需要的混合事务处理与分析类任务处理还不够得心应手,大部分数据库甚至不能通过国际标准测试;类似物化视图这类能够极大提高复杂查询性能的技术在图数据库上基本还是空白。我们期待通过更加积极的产学研合作,进一步提高我国在图计算这一细分系统软件领域的领先优势。


  更重要的是,我们期待类似GeaGraph这样的产学研合作案例能够成规模的复制,从而大大加速我国先进基础软件的研发工作。


  我一直强调一个观点,基础软件领域的国产化不应只是低水平的替代,更不应该只是开源软件的换皮。我强调要学会“从头构建先进的系统软件”。那么先进性从何而来?我想GeaGraph给了我们一个很好的例子:产、学、研结合,高校和科技领先企业共同突破技术难关并将其规模化应用。


  我们期待有更多的中国大学和科技公司加入到这一模式的探索中来。这种“产学研”结合的技术开发和应用全链条实践的模式是硅谷成功的秘诀之一,如果能够在我国顺畅运行和广泛复制,必将大大加快解决我国基础软件领域的卡脖子问题的进度,逐步构建出源于中国的自己研发的先进基础软件集。(end)


相关实践学习
阿里云图数据库GDB入门与应用
图数据库(Graph Database,简称GDB)是一种支持Property Graph图模型、用于处理高度连接数据查询与存储的实时、可靠的在线数据库服务。它支持Apache TinkerPop Gremlin查询语言,可以帮您快速构建基于高度连接的数据集的应用程序。GDB非常适合社交网络、欺诈检测、推荐引擎、实时图谱、网络/IT运营这类高度互连数据集的场景。 GDB由阿里云自主研发,具备如下优势: 标准图查询语言:支持属性图,高度兼容Gremlin图查询语言。 高度优化的自研引擎:高度优化的自研图计算层和存储层,云盘多副本保障数据超高可靠,支持ACID事务。 服务高可用:支持高可用实例,节点故障迅速转移,保障业务连续性。 易运维:提供备份恢复、自动升级、监控告警、故障切换等丰富的运维功能,大幅降低运维成本。 产品主页:https://www.aliyun.com/product/gdb
相关文章
|
存储 C# 图形学
【Unity 3D】C#数据类型和变量、命名规范的讲解(附源码)
【Unity 3D】C#数据类型和变量、命名规范的讲解(附源码)
396 1
|
算法 搜索推荐 图计算
图计算中的社区发现算法是什么?请解释其作用和常用算法。
图计算中的社区发现算法是什么?请解释其作用和常用算法。
352 0
|
5月前
|
数据可视化 数据挖掘 BI
指标透明化+管理敏捷化:Dataphin指标关系图与业务指标管理
通过Dataphin的业务指标定义和管理功能,业务人员能够以标准化方式快速创建业务指标并详细说明其详情,从而实现与技术人员的高效沟通,促进相关技术指标的快速开发。此外,业务人员还可以利用Dataphin的指标关系图功能,直观地理解指标的加工逻辑,并迅速定位异常数据根因,从而显著提高问题解决的效率。
285 8
|
11月前
|
机器学习/深度学习 人工智能 并行计算
【AI系统】Tensor Core 基本原理
本文深入介绍了英伟达GPU中的Tensor Core,一种专为加速深度学习设计的硬件单元。文章从发展历程、卷积计算、混合精度训练及基本原理等方面,详细解析了Tensor Core的工作机制及其在深度学习中的应用,旨在帮助读者全面理解Tensor Core技术。通过具体代码示例,展示了如何在CUDA编程中利用Tensor Core实现高效的矩阵运算,从而加速模型训练和推理过程。
1460 0
|
9月前
|
存储 人工智能 API
七种RAG架构cheat sheet!
RAG 即检索增强生成,是一种结合检索技术和生成模型的人工智能方法。Weaviate厂商给出了七种RAG架构cheat sheet。
601 18
|
9月前
|
人工智能 开发者 Python
Chainlit:一个开源的异步Python框架,快速构建生产级对话式 AI 应用
Chainlit 是一个开源的异步 Python 框架,帮助开发者在几分钟内构建可扩展的对话式 AI 或代理应用,支持多种工具和服务集成。
817 9
|
11月前
|
自然语言处理 编译器 Linux
|
11月前
|
机器学习/深度学习 人工智能 搜索推荐
AI与体育训练:运动表现分析
【10月更文挑战第31天】本文探讨了AI在体育训练中的应用,特别是在运动表现分析方面。通过数据收集与处理、深度分析与挖掘、实时反馈与调整三个环节,AI为运动员和教练提供了高效、个性化的训练计划和比赛策略,显著提升了训练效率和比赛成绩。未来,AI将在数据隐私、情感理解及跨学科合作等方面继续发展,为体育事业带来更多可能性。
1032 1
|
11月前
|
安全 API 网络架构
Python中哪个框架最适合做API?
本文介绍了Python生态系统中几个流行的API框架,包括Flask、FastAPI、Django Rest Framework(DRF)、Falcon和Tornado。每个框架都有其独特的优势和适用场景。Flask轻量灵活,适合小型项目;FastAPI高性能且自动生成文档,适合需要高吞吐量的API;DRF功能强大,适合复杂应用;Falcon高性能低延迟,适合快速API开发;Tornado异步非阻塞,适合高并发场景。文章通过示例代码和优缺点分析,帮助开发者根据项目需求选择合适的框架。
2051 0
|
并行计算 PyTorch 算法框架/工具
【Pytorch】查看GPU是否可用
本文提供了使用PyTorch检查GPU是否可用的方法,包括查看PyTorch版本、编译时使用的CUDA版本以及当前CUDA是否可用于PyTorch。
1467 2