Vineyard 论文被 SIGMOD'2023 接收,助力计算引擎之间高效数据交换

简介: Vineyard 论文被 SIGMOD'2023 接收,助力计算引擎之间高效数据交换

Vineyard (CNCF sandbox 项目)是脱胎于 GraphScope 底层存储、用于在复杂工作流中不同计算引擎之间进行高效数据交换的中间件,该工作的论文被数据库领域顶级学术会议 SIGMOD 2023 接收录用。


近日,CCF-A 类学术会议、数据库领域最为优秀的学术会议之一的 SIGMOD 2023(The 42nd ACM SIGMOD International Conference on Management of Data)Industrial Track 结果揭晓,致力于不同计算引擎之间进行高效数据交互的项目 Vineyard (v6d) 被成功接收!


Vineyard: Optimizing Data Sharing in Data-Intensive Analytics. Wenyuan Yu, Tao He, Lei Wang, Ke Meng, Ye Cao, Diwen Zhu, Sanhong Li, Jingren Zhou. The 42nd ACM International Conference on Management of Data (SIGMOD), Seattle, Washington, USA, June 2023.


真实的生产环境存在着大量的复杂的分析型作业:单个作业中包含若干子任务,而各个子任务可能属于不同的计算类型(例如 SQL、深度学习、图计算)。为了处理这些复杂的作业,往往将每个子任务分配到某个特定的计算引擎(例如将图计算任务分配到 GraphScope,将深度学习任务分配到 PyTorch)。为了在不同计算引擎之间进行中间结果的交换,目前通用的做法是将中间结果以文件的形式存储到外部存储中(例如本地磁盘、S3 和 OSS),但是这个过程会导致巨大的数据序列化/反序列化、I/O等开销,从而拖慢整个作业的执行时间。我们发现尽管不同的计算引擎往往对同一数据结构(例如 DataFrame、HashMap)有不同的实现,但是同一数据结构的接口则基本保持一致,而计算引擎的计算逻辑往往只关注数据结构提供的接口而非接口的具体实现。


基于这个观察,我们设计了 Vineyard (v6d),它允许用户向 v6d 注册自己的数据结构,在计算引擎与 v6d 中的数据结构进行对接后,计算引擎产生的中间结果以高层的 object 分享,使得计算引擎可以通过内存映射(memory mapping)和方法共享(method sharing)高效地进行数据分享。同时,为了降低计算引擎与 v6d 的集成难度,v6d 针对跨编程语言的计算引擎进行了针对性的优化。在真实数据集和作业中,v6d 与传统的通过文件和外部存储进行数据交换的方案相比,能够取得最高 68.4 倍的加速。


Vineyard 目前已经开源,并成为 CNCF sandbox 项目,点击此处即可获得 Vineyard 的进一步介绍和详细的文档以及源码。

相关文章
|
关系型数据库 Serverless 分布式数据库
|
存储 弹性计算 NoSQL
libcuckoo论文概述
本文简要阐述libcuckoo项目的两篇论文基础。如有错漏之处,欢迎指出一起讨论交流。 ## 论文1 《MemC3: Compact and Concurrent MemCache with Dumber Caching and Smarter Hashing》 这篇论文主要讲了在多线程模式下如何提升cuckoo hash table的吞吐。 ### 问题 传统hash表在并发效率上并不
2174 0
libcuckoo论文概述
|
存储 安全 API
NFS 的版本
【10月更文挑战第13天】
726 62
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
视觉感知RAG×多模态推理×强化学习=VRAG-RL
通义实验室自然语言智能团队发布并开源了VRAG-RL,一种视觉感知驱动的多模态RAG推理框架。它能像人一样“边看边想”,通过粗到细的视觉仿生感知机制,逐步聚焦关键区域,精准提取信息。VRAG-RL结合强化学习与多专家采样策略,优化检索与推理路径,在多个视觉语言基准数据集上表现出色,显著提升准确性和效率。项目已发布技术方案并开源代码,支持快速部署和二次开发。
519 11
|
9月前
|
存储 人工智能 固态存储
DeepSeek开源周第五弹之一!3FS:支撑V3/R1模型数据访问的高性能分布式文件系统
3FS是DeepSeek开源的高性能分布式文件系统,专为AI训练和推理任务设计,提供高达6.6 TiB/s的读取吞吐量,支持强一致性保障和通用文件接口,优化AI工作负载。
1400 2
DeepSeek开源周第五弹之一!3FS:支撑V3/R1模型数据访问的高性能分布式文件系统
|
SQL 关系型数据库 BI
草率了!没想pgadmin这么强大
草率了!没想pgadmin这么强大
1136 0
|
存储 Java 测试技术
ClickHouse Keeper: 一个用 C++ 编写的 ZooKeeper 替代品
ClickHouse Keeper: 一个用 C++ 编写的 ZooKeeper 替代品介绍
71473 34
ClickHouse Keeper: 一个用 C++ 编写的 ZooKeeper 替代品
|
机器学习/深度学习 安全 网络安全
网络安全词云图与技术浅谈
### 网络安全词云图与技术浅谈 本文介绍了通过词云图展示网络安全关键术语的方法,并探讨了构建现代网络安全体系的关键要素。词云图利用字体大小和颜色突出高频词汇,如恶意软件、防火墙、入侵检测系统等。文中提供了生成词云图的Python代码示例,包括安装依赖库和调整参数。此外,文章详细讨论了恶意软件防护、加密技术、身份验证、DDoS防御、社会工程学防范及威胁情报等核心技术,强调了多层次、多维度的安全策略的重要性。
491 11
网络安全词云图与技术浅谈
|
11月前
|
人工智能 Kubernetes Cloud Native
跨越鸿沟:PAI-DSW 支持动态数据挂载新体验
本文讲述了如何在 PAI-DSW 中集成和利用 Fluid 框架,以及通过动态挂载技术实现 OSS 等存储介质上数据集的快速接入和管理。通过案例演示,进一步展示了动态挂载功能的实际应用效果和优势。