Vineyard 论文被 SIGMOD'2023 接收,助力计算引擎之间高效数据交换

本文涉及的产品
性能测试 PTS,5000VUM额度
注册配置 MSE Nacos/ZooKeeper,118元/月
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
简介: Vineyard 论文被 SIGMOD'2023 接收,助力计算引擎之间高效数据交换

Vineyard (CNCF sandbox 项目)是脱胎于 GraphScope 底层存储、用于在复杂工作流中不同计算引擎之间进行高效数据交换的中间件,该工作的论文被数据库领域顶级学术会议 SIGMOD 2023 接收录用。


近日,CCF-A 类学术会议、数据库领域最为优秀的学术会议之一的 SIGMOD 2023(The 42nd ACM SIGMOD International Conference on Management of Data)Industrial Track 结果揭晓,致力于不同计算引擎之间进行高效数据交互的项目 Vineyard (v6d) 被成功接收!


Vineyard: Optimizing Data Sharing in Data-Intensive Analytics. Wenyuan Yu, Tao He, Lei Wang, Ke Meng, Ye Cao, Diwen Zhu, Sanhong Li, Jingren Zhou. The 42nd ACM International Conference on Management of Data (SIGMOD), Seattle, Washington, USA, June 2023.


真实的生产环境存在着大量的复杂的分析型作业:单个作业中包含若干子任务,而各个子任务可能属于不同的计算类型(例如 SQL、深度学习、图计算)。为了处理这些复杂的作业,往往将每个子任务分配到某个特定的计算引擎(例如将图计算任务分配到 GraphScope,将深度学习任务分配到 PyTorch)。为了在不同计算引擎之间进行中间结果的交换,目前通用的做法是将中间结果以文件的形式存储到外部存储中(例如本地磁盘、S3 和 OSS),但是这个过程会导致巨大的数据序列化/反序列化、I/O等开销,从而拖慢整个作业的执行时间。我们发现尽管不同的计算引擎往往对同一数据结构(例如 DataFrame、HashMap)有不同的实现,但是同一数据结构的接口则基本保持一致,而计算引擎的计算逻辑往往只关注数据结构提供的接口而非接口的具体实现。


基于这个观察,我们设计了 Vineyard (v6d),它允许用户向 v6d 注册自己的数据结构,在计算引擎与 v6d 中的数据结构进行对接后,计算引擎产生的中间结果以高层的 object 分享,使得计算引擎可以通过内存映射(memory mapping)和方法共享(method sharing)高效地进行数据分享。同时,为了降低计算引擎与 v6d 的集成难度,v6d 针对跨编程语言的计算引擎进行了针对性的优化。在真实数据集和作业中,v6d 与传统的通过文件和外部存储进行数据交换的方案相比,能够取得最高 68.4 倍的加速。


Vineyard 目前已经开源,并成为 CNCF sandbox 项目,点击此处即可获得 Vineyard 的进一步介绍和详细的文档以及源码。

相关文章
|
9月前
|
机器学习/深度学习 人工智能 分布式计算
跨越时代的数据力量:大规模数据处理的技术突破
在信息爆炸的时代,大规模数据处理成为了推动科技进步的重要驱动力。本文将探讨大规模数据处理所涉及的技术突破,包括分布式计算、机器学习和人工智能等,以及其在各个领域的应用,展现数据的无限潜力。
|
机器学习/深度学习 算法 安全
「隐语小课」联邦学习之通信优化
「隐语小课」联邦学习之通信优化
402 0
|
存储 缓存 算法
《信息物理融合系统(CPS)设计、建模与仿真——基于 Ptolemy II 平台》——第3章 数据流 3.1同步数据流
Ptolemy II 能够使异构系统的开发和仿真一同进行,将开发和仿真作为整个系统建模的一部分。正如前两章讨论的那样,不同于其他设计和建模环境,Ptolemy II的一个关键创新在于支持多种计算模型,这些计算模型可被剪裁以适应具体的建模问题。
1663 0
|
大数据 数据采集 数据挖掘
|
网络架构 网络协议 网络安全
带你读《计算机网络问题与解决方案:一种构建弹性现代网络的创新方法》之三:网络传输建模
本书分为三个主要部分,涵盖了数据传输、控制平面,以及具体设计(或者更确切地说是技术)场景。
|
搜索推荐 算法
SIGIR阿里论文 | 一种端到端的模型:基于异构内容流的动态排序
为了给用户提供更多的购物帮助,内容搜索引擎应运而生。在用户搜索商品的时候,给用户推荐高质量的内容流,帮助用户选择自己中意的以及用户可能喜欢的商品。
1116 0
|
大数据 安全 缓存
|
前端开发 JavaScript API
这可能是大型复杂项目下数据流的最佳实践
在旧的 Done 项目中,代码复杂度高,已经到了“牵一发而动全身”,技术债极高的情况。由于旧代码“错综复杂”,导致实现一个简单的功能,都需要比正常时间多2~3倍的工作估时。
这可能是大型复杂项目下数据流的最佳实践