为什么使用图进行关联运算比表Join更具吸引力?

本文涉及的产品
云原生多模数据库 Lindorm,多引擎 多规格 0-4节点
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
简介: 为什么使用图进行关联运算比表Join更具吸引力?

GeaFlow(品牌名TuGraph-Analytics) 已正式开源,欢迎大家关注!!! 欢迎给我们 Star 哦! GitHub👉https://github.com/TuGraph-family/tugraph-analytics
更多精彩内容,关注我们的博客 https://geaflow.github.io/

作者:TuGraph

关系模型并不适合处理关系

关系模型被广泛应用于数据库和数仓等数据处理系统的数据建模,然而名称里带有关系一词的模型却并不适合处理关系

在关系模型所用的表结构建模下,关系的运算通过Join运算来处理。但在实际使用中,特别是在流式更新的数据中,这种方式存在诸多痛点。

痛点一:关系运算成本高

表模型的重点在于多条记录统一描述为表,但本身缺乏关系描述能力,只能通过Join运算来完成关系的计算

无论是在批或流的计算系统中,Join操作都涉及大量shuffle和计算开销。同时,Join产生的中间结果由于关联会放大多份,造成数据量指数级膨胀和冗余,存储消耗大。

在下图的实验中,我们模拟了依次执行一跳、两跳和三跳关系运算的场景。足以见得,越是复杂的多跳关系计算,关系模型中Join的性能表现越差。在总时间对比中,利用图的Match计算能够节约超过90%的耗时。
vs_join_total_time_cn.jpg

图1

痛点二:数据冗余,时效性低

在很多数仓分析的场景中,为了提高数据查询性能,往往将多张表提前物化成一张大宽表。

大宽表虽然可以加速查询性能,然而其数据膨胀和冗余非常严重。由于表与表之间一对多的关联关系,导致一张表的数据通过关联会放大多份,造成数据量指数级膨胀和冗余。

而且宽表一经生成就难以更改,否则需要重新生成新宽表,费时费力,不够灵活。

此时利用图模型建模,可以轻易解决这个问题。 图是对关系的一种天然描述,以点代表实体,以边代表关系。

比如在人际关系图里面,每一个人可以用一个点来表示,人和人之间的关系通过边来表示,人与人之间可以存在各种各样的复杂关系,这些关系都可以通过不同的边来表示。

显然,构造图的过程本质上是对事物之间关系的提炼,在数据存储层面实质是对关系做了物化,以获取更好的关联计算性能

相比宽表的关系物化方式,由于图结构本身的点边聚合性,构图表现得十分节约。 下图是GeaFlow中高性能构图的表现,可见构图操作本身极为迅速,且由于图可以分片的特性,具有十分良好的可扩展性。

insert_throuput_cn.jpg

图2

在图一的实验中也可以发现,实质上我们用少量的插入图(青色的insert to graph部分开销)耗时,换取了图建模方式对之后关联查询的加速效果。

痛点三:复杂关系查询难以描述

使用表建模的分析系统只支持SQL join一种方式进行关系分析,这在复杂场景中能力十分局限。 比如查询一个人4度以内所有好友,或者查询最短路径等,这些复杂关联关系通过SQL表的join方式很难描述。

GeaFlow提供融合GQL和SQL样式的查询语言,这是一种图表一体的数据分析语言,继承自标准SQL+ISO/GQL,可以方便进行图表分析。

code_style.jpg

图3

在融合DSL中,图计算的结果与表查询等价,都可以像表数据一样做关系运算处理。这意味着图3中GQL和SQL两种描述都可以达到类似的效果,极大灵活了用户的查询表达能力。

GeaFlow DSL引擎层还将支持SQL中的Join自动转化为GQL执行,用户可以自由混用SQL和GQL样式查询,同时做图匹配、图算法和表查询。

流图计算引擎TuGraph-Analytics

GeaFlow(品牌名TuGraph-Analytics)是蚂蚁集团开源的分布式流式图计算引擎。在蚂蚁内部,目前已广泛应用于数仓加速、金融风控、知识图谱以及社交网络等大量场景。

TuGraph-Analytics已经于2023年6月正式对外开源,开放其以图为数据模型的流批一体计算核心能力。相比传统的流式计算引擎,如Flink、Storm这些以表为模型的实时处理系统,GeaFlow以自研图存储为底座,流批一体计算引擎为矛,融合GQL/SQL DSL语言为旗帜,在复杂多度的关系运算上具备极大的优势。

query_throuput_cn.jpg

图4

图4展示了GeaFlow使用Match算子在图上进行多跳关联查询,相比Flink的Join算子带来的实时吞吐提升。在复杂多跳场景下,现有的流式计算引擎已经基本不能胜任实时处理。而图模型的存在,则突破这一限制,扩展了实时流计算的应用场景。


GeaFlow(品牌名TuGraph-Analytics) 已正式开源,欢迎大家关注!!!

欢迎给我们 Star 哦!

Welcome to give us a Star!

GitHub👉https://github.com/TuGraph-family/tugraph-analytics

更多精彩内容,关注我们的博客 https://geaflow.github.io/

相关文章
|
小程序 JavaScript 关系型数据库
微信小程序远程连接阿里云服务器mysql——我与阿里云的相遇
第一次接触阿里云服务器:用小程序通过nodejs连接远程服务器
2252 0
微信小程序远程连接阿里云服务器mysql——我与阿里云的相遇
|
消息中间件 缓存 NoSQL
Redis经典问题:缓存雪崩
本文介绍了Redis缓存雪崩问题及其解决方案。缓存雪崩是指大量缓存同一时间失效,导致请求涌入数据库,可能造成系统崩溃。解决方法包括:1) 使用Redis主从复制和哨兵机制提高高可用性;2) 结合本地ehcache缓存和Hystrix限流降级策略;3) 设置随机过期时间避免同一时刻大量缓存失效;4) 使用缓存标记策略,在标记失效时更新数据缓存;5) 实施多级缓存策略,如一级缓存失效时由二级缓存更新;6) 通过第三方插件如RocketMQ自动更新缓存。这些策略有助于保障系统的稳定运行。
1098 1
|
1月前
|
人工智能 运维 NoSQL
云栖大会|AI浪潮下的NoSQL演进:下一代数据库的破局之道
AI浪潮下的NoSQL演进:下一代数据库的破局之道
|
1月前
|
数据采集 存储 NoSQL
Python爬虫实战:新闻数据抓取与MongoDB存储全流程
本文以腾讯新闻为例,详解Python爬虫抓取新闻数据并存入MongoDB的完整流程,涵盖反爬突破、数据清洗、存储优化及分布式架构,助你构建高效、稳定的海量数据采集系统。
275 0
|
8月前
|
canal NoSQL 关系型数据库
Redis应用—7.大Value处理方案
本文介绍了一种用于监控Redis大key的方案设计及其实现步骤。主要内容包括:方案设计、安装与配置环境、binlog数据消费者。
344 29
Redis应用—7.大Value处理方案
|
11月前
|
存储 关系型数据库 MySQL
Mysql索引:深入理解InnoDb聚集索引与MyisAm非聚集索引
通过本文的介绍,希望您能深入理解InnoDB聚集索引与MyISAM非聚集索引的概念、结构和应用场景,从而在实际工作中灵活运用这些知识,优化数据库性能。
599 7
|
分布式计算 资源调度 Hadoop
Hadoop 2.0 与 Hadoop 1.x 有何不同?
【8月更文挑战第12天】
332 4
|
存储 NoSQL Java
深入理解Redis数据类型Hashes原理
本文深入分析了Redis中的hashes数据类型,这是一种用于存储行记录的数据结构,允许一个key下存储多条记录。
深入理解Redis数据类型Hashes原理
|
消息中间件 NoSQL Redis
【赵渝强老师】Redis的消息发布与订阅
本文介绍了Redis实现消息队列的两种场景:发布者订阅者模式和生产者消费者模式。其中,发布者订阅者模式通过channel频道进行解耦,订阅者监听特定channel的消息,当发布者向该channel发送消息时,所有订阅者都能接收到消息。文章还提供了相关操作命令及示例代码,展示了如何使用Redis实现消息的发布与订阅。
357 0
|
存储 NoSQL 数据库
为什么要用 Tair 来服务低延时场景 - 从购物车升级说起
“购物车升级”是今年双十一期间提升用户体验的关键项目,展示了大淘宝技术团队致力于通过技术突破消费者和商家体验的天花板。低延迟是这些挑战中的核心,内存数据库Tair因其高吞吐、大连接数、热点请求处理、异常流量管理和复杂计算逻辑优化等特点,在低延迟场景下表现出色。Tair使用内存/SCM混合存储和各种索引来提供低延迟服务,并通过无锁并发、水平扩展分区等技术应对高并发。此外,Tair还通过热点策略、流控和执行流程优化等手段确保在大促时的稳定性和性能。Tair在双十一期间支持了购物车、销量统计、卖家优惠券召回和互动场景等多种业务,展现其低延迟和高并发的能力。
77387 11