阿里巴巴集群追踪计划Alibaba Cluster Trace Program

2021-09-02 2033

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在阿里巴巴集群追踪程序是由阿里巴巴集团出版。通过提供来自实际生产的集群跟踪，该计划帮助研究人员、学生和对该领域感兴趣的人更好地了解现代互联网数据中心 (IDC) 的特征和工作负载。

阿里巴巴集群追踪计划

概述

在阿里巴巴集群追踪程序是由阿里巴巴集团出版。通过提供来自实际生产的集群跟踪，该计划帮助研究人员、学生和对该领域感兴趣的人更好地了解现代互联网数据中心 (IDC) 的特征和工作负载。

到目前为止，已经发布了三个版本的trace：

cluster-trace-v2017在 12 小时内包含大约 1300 台机器。trace-v2017 首先介绍了在线服务（又名长时间运行的应用程序）和批处理工作负载的搭配。要查看有关此跟踪的更多信息，请参阅相关文档 ( trace_2017 )。完成简短调查后即可获得下载链接（调查链接）。
cluster-trace-v2018在 8 天内包含大约 4000 台机器。除了具有比 trace-v2017 更大的缩放器外，这条 trace 还包含我们生产批次工作负载的 DAG 信息。更多详情请查看相关文档（trace_2018）。调查后提供下载链接（不到一分钟，调查链接）。
cluster-trace-gpu-v2020在 2 个月内包含大约 6500 台机器。它描述了由阿里巴巴 PAI（人工智能平台）在 GPU 集群上提供的 MLaaS（机器学习即服务）中的 AI/ML 工作负载。查看已发布数据、数据模式和数据处理脚本和 Jupyter notebook 的子目录( pai_gpu_trace_2020 )。

我们将在接下来的几个月发布与微服务相关的 cluster-trace-v2021。这些跟踪包含所有完整调用过程的详细信息，包括微服务之间的调用依赖关系、响应时间、接口和通信范式。

我们鼓励任何人将跟踪用于学习或研究目的，如果您在使用跟踪时有任何疑问，请通过电子邮件联系我们：alibaba-clusterdata，或在 Github 上提交问题。建议提交问题，因为讨论将有助于所有社区。请注意，您提出的问题越清楚，您就越有可能得到明确的答案。

如果您能在使用我们的跟踪的任何出版物可用时告诉我们，我们将不胜感激，因为我们正在维护相关出版物的列表，以便更多的研究人员更好地相互交流。

未来，我们会尝试定期发布新的痕迹，请继续关注。

我们的动力

正如开头所说，我们发布数据的动机是为了帮助相关领域的人们更好地了解现代数据中心，并为研究人员提供生产数据以改变他们的想法。只要用于研究或学习目的，您可以随意使用跟踪。

从我们的角度来看，提供数据是为了解决阿里巴巴在 IDC 中面临的挑战，其中在线服务和批处理作业并置。我们将挑战提炼为以下主题：

工作负载特性。如何以一种我们可以模拟各种生产工作负载的方式表征阿里巴巴工作负载，以进行调度和资源管理策略研究。
将工作负载分配给机器的新算法。如何为机器分配和重新安排工作负载以提高资源利用率并确保不同应用程序的性能 SLA（例如，通过减少资源争用和定义适当的优先级）。
在线服务调度器 (Sigma) 和批处理作业调度器 (Fuxi) 之间的协作。如何调整在线服务和批处理作业之间的资源分配，以提高批处理作业的吞吐量，同时保持在线服务可接受的 QoS（服务质量）和快速故障恢复。随着配置规模（由不同调度器管理的工作负载）不断增长，协作机制的设计变得越来越重要。

最后但并非最不重要的一点是，我们始终乐于与研究人员合作，以提高我们集群的效率，并为研究实习生提供职位空缺。如果你有在你的心中什么想法，请通过以下方式联系我们aliababa-Cluster数据或海阳丁（海阳维护该集群跟踪和作品阿里巴巴的资源管理和调度组）。

跟踪结果

使用阿里巴巴集群trace的论文

我们发布集群数据的基本理念是让研究人员和从业人员能够使用更真实的数据进行研究、模拟，从而使结果更接近行业采用。使用我们的数据看到更多的作品对我们来说是一个巨大的鼓励。以下是使用阿里巴巴集群数据的现有作品列表。如果您的论文使用了我们的跟踪，如果您通过发送电子邮件( aliababa-clusterdata )告诉我们，那就太好了。

集群跟踪 GPU v2020

“野外 MLaaS：大规模异构 GPU 集群中的工作负载分析和调度”，作者 Qizhen Weng、Wencong Xiao、Yinghao Yu、Wei Wang、Cheng Wang、Jian He、Yong Li、Liping Zhang、Wei Lin 和 Yu Ding ，将于 2022 年 4 月在华盛顿州伦顿举行的第 19 届 USENIX 网络系统设计和实现研讨会 (NSDI'22) 上发表。

集群跟踪 v2018

谁限制了我的数据中心的资源效率：阿里巴巴数据中心跟踪分析，Jing Guo, Zihao Chang, Sa Wang, Haiyang Ding, Yihui Feng, Liang Mao, Yungang Bao, IEEE/ACM International Symposium on Quality of Service, IWQoS 2019
DeepJS：基于深度强化学习的云数据中心作业调度，由 Fengcun Li 和 Bo Hu。

本文发布了一个有趣的模拟器：CloudSimPy。您可以在CloudSimPy 上查看

表征和综合阿里云中数据并行作业的任务依赖性，作者 Huangshi Tian、Yunchuan Zheng 和 Wei Wang，将于 2019 年 11 月在加利福尼亚州圣克鲁斯举行的 ACM 云计算研讨会 (SoCC '19) 上发表。
Aladdin: Optimized Maximum Flow Management for Shared Production Clusters , Heng Wu, Wenbo ZHANG, Yuanjia XU, Hao XIANG, Tao HUANG, Haiyang Ding, Zheng ZHANG, 2019 IEEE International Parallel and Distributed Processing Symposium (IPDPS)。