阿里巴巴集群追踪计划Alibaba Cluster Trace Program

简介: 在阿里巴巴集群追踪程序是由阿里巴巴集团出版。通过提供来自实际生产的集群跟踪,该计划帮助研究人员、学生和对该领域感兴趣的人更好地了解现代互联网数据中心 (IDC) 的特征和工作负载。

阿里巴巴集群追踪计划

概述

阿里巴巴集群追踪程序是由阿里巴巴集团出版。通过提供来自实际生产的集群跟踪,该计划帮助研究人员、学生和对该领域感兴趣的人更好地了解现代互联网数据中心 (IDC) 的特征和工作负载。

到目前为止,已经发布了三个版本的trace:

  • cluster-trace-v2017在 12 小时内包含大约 1300 台机器。trace-v2017 首先介绍了在线服务(又名长时间运行的应用程序)和批处理工作负载的搭配。要查看有关此跟踪的更多信息,请参阅相关文档 ( trace_2017 )。完成简短调查后即可获得下载链接(调查链接)。
  • cluster-trace-v2018在 8 天内包含大约 4000 台机器。除了具有比 trace-v2017 更大的缩放器外,这条 trace 还包含我们生产批次工作负载的 DAG 信息。更多详情请查看相关文档(trace_2018)。调查后提供下载链接(不到一分钟,调查链接)。
  • cluster-trace-gpu-v2020在 2 个月内包含大约 6500 台机器。它描述了由阿里巴巴 PAI(人工智能平台)在 GPU 集群上提供的 MLaaS(机器学习即服务)中的 AI/ML 工作负载。查看已发布数据、数据模式和数据处理脚本和 Jupyter notebook 的子目录( pai_gpu_trace_2020 )。

我们将在接下来的几个月发布与微服务相关的 cluster-trace-v2021。这些跟踪包含所有完整调用过程的详细信息,包括微服务之间的调用依赖关系、响应时间、接口和通信范式。

我们鼓励任何人将跟踪用于学习或研究目的,如果您在使用跟踪时有任何疑问,请通过电子邮件联系我们:alibaba-clusterdata,或在 Github 上提交问题。建议提交问题,因为讨论将有助于所有社区。请注意,您提出的问题越清楚,您就越有可能得到明确的答案。

如果您能在使用我们的跟踪的任何出版物可用时告诉我们,我们将不胜感激,因为我们正在维护相关出版物的列表,以便更多的研究人员更好地相互交流。

未来,我们会尝试定期发布新的痕迹,请继续关注。

我们的动力

正如开头所说,我们发布数据的动机是为了帮助相关领域的人们更好地了解现代数据中心,并为研究人员提供生产数据以改变他们的想法。只要用于研究或学习目的,您可以随意使用跟踪。

从我们的角度来看,提供数据是为了解决阿里巴巴在 IDC 中面临的挑战,其中在线服务和批处理作业并置。我们将挑战提炼为以下主题:

  1. 工作负载特性。如何以一种我们可以模拟各种生产工作负载的方式表征阿里巴巴工作负载,以进行调度和资源管理策略研究。
  2. 将工作负载分配给机器的新算法。如何为机器分配和重新安排工作负载以提高资源利用率并确保不同应用程序的性能 SLA(例如,通过减少资源争用和定义适当的优先级)。
  3. 在线服务调度器 (Sigma) 和批处理作业调度器 (Fuxi) 之间的协作。如何调整在线服务和批处理作业之间的资源分配,以提高批处理作业的吞吐量,同时保持在线服务可接受的 QoS(服务质量)和快速故障恢复。随着配置规模(由不同调度器管理的工作负载)不断增长,协作机制的设计变得越来越重要。

最后但并非最不重要的一点是,我们始终乐于与研究人员合作,以提高我们集群的效率,并为研究实习生提供职位空缺。如果你有在你的心中什么想法,请通过以下方式联系我们aliababa-Cluster数据海阳丁(海阳维护该集群跟踪和作品阿里巴巴的资源管理和调度组)。

跟踪结果

使用阿里巴巴集群trace的论文

我们发布集群数据的基本理念是让研究人员和从业人员能够使用更真实的数据进行研究、模拟,从而使结果更接近行业采用。使用我们的数据看到更多的作品对我们来说是一个巨大的鼓励。以下是使用阿里巴巴集群数据的现有作品列表。如果您的论文使用了我们的跟踪,如果您通过发送电子邮件( aliababa-clusterdata )告诉我们,那就太好了

  • 集群跟踪 GPU v2020
  • “野外 MLaaS:大规模异构 GPU 集群中的工作负载分析和调度”,作者 Qizhen Weng、Wencong Xiao、Yinghao Yu、Wei Wang、Cheng Wang、Jian He、Yong Li、Liping Zhang、Wei Lin 和 Yu Ding ,将于 2022 年 4 月在华盛顿州伦顿举行的第 19 届 USENIX 网络系统设计和实现研讨会 (NSDI'22) 上发表。
  • 集群跟踪 v2018
  • 本文发布了一个有趣的模拟器:CloudSimPy。您可以在CloudSimPy 上查看
  • 表征和综合阿里云中数据并行作业的任务依赖性,作者 Huangshi Tian、Yunchuan Zheng 和 Wei Wang,将于 2019 年 11 月在加利福尼亚州圣克鲁斯举行的 ACM 云计算研讨会 (SoCC '19) 上发表。
  • Aladdin: Optimized Maximum Flow Management for Shared Production Clusters , Heng Wu, Wenbo ZHANG, Yuanjia XU, Hao XIANG, Tao HUANG, Haiyang Ding, Zheng ZHANG, 2019 IEEE International Parallel and Distributed Processing Symposium (IPDPS)。
  • 集群跟踪 v2017

关于分析跟踪的技术报告和项目

到目前为止,这个会话是空的。未来,我们将在所有者的许可下,将一些报告和开源 repo 链接到如何在此处分析跟踪。

这样做的目的是帮助更多的初学者开始学习基本的数据分析或如何从统计的角度检查集群。

相关文章
|
机器学习/深度学习 算法 决策智能
智能解决装箱问题:使用优化算法实现高效包装
装箱问题(Bin Packing Problem)是组合优化领域中的一个经典问题,主要涉及如何将一系列对象高效地装入有限数量的容器(或“箱”)中,同时满足特定的约束条件。这个问题的目标是最小化所需使用的箱子数量或者最大化箱子的装载效率,以减少空间或资源的浪费。
|
存储 Prometheus Kubernetes
解决k8s调度不均衡问题
在近期的工作中,我们发现 k8s 集群中有些节点资源使用率很高,有些节点资源使用率很低,我们尝试重新部署应用和驱逐 Pod,发现并不能有效解决负载不均衡问题。在学习了 Kubernetes 调度原理之后,重新调整了 Request 配置,引入了调度插件,才最终解决问题。这篇就来跟大家分享 Kubernetes 资源和调度相关知识,以及如何解决k8s调度不均衡问题。
2700 0
解决k8s调度不均衡问题
|
机器学习/深度学习 监控
数据漂移、概念漂移以及如何监控它们(mona)
在机器学习模型监控的上下文中经常提到数据和概念漂移,但它们到底是什么以及如何检测到它们?此外,考虑到围绕它们的常见误解,是不惜一切代价避免数据和概念漂移的事情,还是在生产中训练模型的自然和可接受的后果?请仔细阅读,找出答案。在本文中,我们将提供模型漂移的细粒度细分,以及检测它们的方法以及处理它们时的最佳实践。
|
机器学习/深度学习 资源调度 Kubernetes
进击的Kubernetes调度系统(三):支持批任务的Binpack Scheduling
阿里云容器服务团队结合多年Kubernetes产品与客户支持经验,对Kube-scheduler进行了大量优化和扩展,逐步使其在不同场景下依然能稳定、高效地调度各种类型的复杂工作负载。 《进击的Kubernetes调度系统》系列文章将把我们的经验、技术思考和实现细节全面地展现给Kubernetes用户和开发者,期望帮助大家更好地了解Kubernetes调度系统的强大能力和未来发展方向。
5217 111
|
6月前
|
边缘计算 缓存 人工智能
EdgeShard:通过协作边缘计算实现高效的大语言模型推理——论文解读
EdgeShard是一种基于协作边缘计算的大语言模型(LLM)推理框架,旨在解决LLM在云端部署面临的延迟高、带宽压力大和隐私泄露等问题。通过将LLM分片部署在多个边缘设备上,结合云边协同与设备间协作,EdgeShard实现了高效的模型推理。其核心创新包括:联合设备选择与模型划分优化、支持流水线并行与微批处理、提出EdgeShard-No-Bubbles策略以减少设备空闲时间,从而显著提升推理吞吐量并降低延迟。实验表明,EdgeShard在异构边缘设备上可实现高达50%的延迟降低和2倍的吞吐量提升,支持全精度模型推理而无精度损失,为资源受限的边缘环境提供了高效的LLM部署方案。
1155 2
|
存储 Kubernetes 调度
|
网络协议
伪头部校验
伪头部校验
1099 6
|
Kubernetes 监控 调度
k8s学习--kubernetes服务自动伸缩之垂直伸缩(资源伸缩)VPA详细解释与安装
k8s学习--kubernetes服务自动伸缩之垂直伸缩(资源伸缩)VPA详细解释与安装
754 2
|
机器学习/深度学习 人工智能 调度
显著提升深度学习 GPU 利用率,阿里云拿下国际网络顶会优胜奖!
显著提升深度学习 GPU 利用率,阿里云拿下国际网络顶会优胜奖!
1174 7

热门文章

最新文章