Vineyard 论文被 SIGMOD'2023 接收,助力计算引擎之间高效数据交换

简介: Vineyard 论文被 SIGMOD'2023 接收,助力计算引擎之间高效数据交换

Vineyard (CNCF sandbox 项目)是脱胎于 GraphScope 底层存储、用于在复杂工作流中不同计算引擎之间进行高效数据交换的中间件,该工作的论文被数据库领域顶级学术会议 SIGMOD 2023 接收录用。


近日,CCF-A 类学术会议、数据库领域最为优秀的学术会议之一的 SIGMOD 2023(The 42nd ACM SIGMOD International Conference on Management of Data)Industrial Track 结果揭晓,致力于不同计算引擎之间进行高效数据交互的项目 Vineyard (v6d) 被成功接收!


Vineyard: Optimizing Data Sharing in Data-Intensive Analytics. Wenyuan Yu, Tao He, Lei Wang, Ke Meng, Ye Cao, Diwen Zhu, Sanhong Li, Jingren Zhou. The 42nd ACM International Conference on Management of Data (SIGMOD), Seattle, Washington, USA, June 2023.


真实的生产环境存在着大量的复杂的分析型作业:单个作业中包含若干子任务,而各个子任务可能属于不同的计算类型(例如 SQL、深度学习、图计算)。为了处理这些复杂的作业,往往将每个子任务分配到某个特定的计算引擎(例如将图计算任务分配到 GraphScope,将深度学习任务分配到 PyTorch)。为了在不同计算引擎之间进行中间结果的交换,目前通用的做法是将中间结果以文件的形式存储到外部存储中(例如本地磁盘、S3 和 OSS),但是这个过程会导致巨大的数据序列化/反序列化、I/O等开销,从而拖慢整个作业的执行时间。我们发现尽管不同的计算引擎往往对同一数据结构(例如 DataFrame、HashMap)有不同的实现,但是同一数据结构的接口则基本保持一致,而计算引擎的计算逻辑往往只关注数据结构提供的接口而非接口的具体实现。


基于这个观察,我们设计了 Vineyard (v6d),它允许用户向 v6d 注册自己的数据结构,在计算引擎与 v6d 中的数据结构进行对接后,计算引擎产生的中间结果以高层的 object 分享,使得计算引擎可以通过内存映射(memory mapping)和方法共享(method sharing)高效地进行数据分享。同时,为了降低计算引擎与 v6d 的集成难度,v6d 针对跨编程语言的计算引擎进行了针对性的优化。在真实数据集和作业中,v6d 与传统的通过文件和外部存储进行数据交换的方案相比,能够取得最高 68.4 倍的加速。


Vineyard 目前已经开源,并成为 CNCF sandbox 项目,点击此处即可获得 Vineyard 的进一步介绍和详细的文档以及源码。

相关文章
|
存储 缓存 固态存储
存储性能软件加速库(SPDK)
存储性能软件加速库(SPDK)
|
11月前
|
存储 机器学习/深度学习 缓存
性能最高提升7倍?探究大语言模型推理之缓存优化
本文探讨了大语言模型(LLM)推理缓存优化技术,重点分析了KV Cache、PagedAttention、Prefix Caching及LMCache等关键技术的演进与优化方向。文章介绍了主流推理框架如vLLM和SGLang在提升首Token延迟(TTFT)、平均Token生成时间(TPOT)和吞吐量方面的实现机制,并展望了未来缓存技术的发展趋势。
3577 12
性能最高提升7倍?探究大语言模型推理之缓存优化
|
存储 缓存 人工智能
Mooncake 最新进展:SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架
Mooncake 的架构设计兼具高性能和灵活性,为未来的扩展性和生态建设奠定了坚实基础。
|
存储 固态存储 索引
DeepSeek 3FS解读与源码分析(3):Storage模块解读
2025年2月28日,DeepSeek 正式开源其颠覆性文件系统Fire-Flyer 3FS(以下简称3FS),重新定义了分布式存储的性能边界。本文将结合代码和design_notes 对storage部分进行分析和探讨。
|
存储 缓存 开发者
Mooncake 最新进展:SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架
近期,Mooncake 项目与 SGLang、vLLM 等主流大模型推理框架实现合作和适配,这些开源大模型推理框架可以通过使用 Mooncake 发布的 whl 包,支持 pip安装,docker 镜像部署等,实现了 PD 分离框架,极大提升了模型推理效率。
|
机器学习/深度学习 安全 网络安全
网络安全词云图与技术浅谈
### 网络安全词云图与技术浅谈 本文介绍了通过词云图展示网络安全关键术语的方法,并探讨了构建现代网络安全体系的关键要素。词云图利用字体大小和颜色突出高频词汇,如恶意软件、防火墙、入侵检测系统等。文中提供了生成词云图的Python代码示例,包括安装依赖库和调整参数。此外,文章详细讨论了恶意软件防护、加密技术、身份验证、DDoS防御、社会工程学防范及威胁情报等核心技术,强调了多层次、多维度的安全策略的重要性。
637 11
网络安全词云图与技术浅谈
|
人工智能 API
通义千问 Qwen 衍生模型包揽 HuggingFace 开源榜单全球前十!
通义千问 Qwen 衍生模型包揽 HuggingFace 开源榜单全球前十!
|
存储 数据挖掘
服务器数据恢复—ZFS文件系统下数据恢复案例
服务器存储数据恢复环境: ZFS Storage 7320存储阵列中有32块硬盘。32块硬盘分为4组,每组8块硬盘,共组建了3组RAIDZ,每组raid都配置了热备盘。 服务器存储故障: 服务器存储运行过程中突然崩溃,排除人为误操作、断电、进水和其他机房不稳定因素。管理员重启服务器存储,系统无法进入,需要恢复服务器存储中的数据。
|
机器学习/深度学习 数据采集 存储
算法金 | 决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost 算法大全
**摘要:** 这篇文章介绍了决策树作为一种机器学习算法,用于分类和回归问题,通过一系列特征测试将复杂决策过程简化。文章详细阐述了决策树的定义、构建方法、剪枝优化技术,以及优缺点。接着,文章讨论了集成学习,包括Bagging、Boosting和随机森林等方法,解释了它们的工作原理、优缺点以及如何通过结合多个模型提高性能和泛化能力。文中特别提到了随机森林和GBDT(XGBoost)作为集成方法的实例,强调了它们在处理复杂数据和防止过拟合方面的优势。最后,文章提供了选择集成学习算法的指南,考虑了数据特性、模型性能、计算资源和过拟合风险等因素。
871 0
算法金 | 决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost 算法大全
|
缓存 运维 Cloud Native
李钰:从 OLAP 到湖仓,阿里云与 StarRocks 的共创共荣
本文根据 StarRocks Summit 2023 演讲实录整理而成
1277 2