【科学脱口秀】EB级计算平台调度系统 “愚公” : 实现跨地域的数据和计算调度

简介: 大数据平台的数据与计算分布在多个数据中心的不同集群,每个集群的存储和计算能力有限,受地域影响,集群间的网络带宽和延迟也各有差异。如何平衡各集群的存储和计算利用率,降低带宽成本,是亟待解决的一大难题。

伏羲(Fuxi)是十年前最初创立飞天平台时的三大服务之一(分布式存储 Pangu,分布式计算 MaxCompute,分布式调度 Fuxi),当时的设计初衷是为了解决大规模分布式资源的调度问题(本质上是多目标的最优匹配问题)。

随阿里经济体和阿里云丰富的业务需求(尤其是双十一)和磨练,伏羲的内涵不断扩大,从单一的资源调度器(对标开源系统的YARN)扩展成大数据的核心调度服务,覆盖数据调度(Data Placement)、资源调度(Resouce Management)、计算调度(Application Manager)、和本地微(自治)调度等多个领域,并在每一个细分领域致力于打造超越业界主流的差异化能力。

MaxCompute作为阿里经济体的大数据计算平台,每天运行着数以千万计的作业,处理EB级别的数据,这些作业和数据分布在全球各个数据中心的不同集群,当作业运行和输入数据不在同一个集群中时,称之为跨集群数据依赖。随着MaxCompute业务的高速发展,跨集群依赖量也急速增长。复杂的业务依赖关系不可避免的会产生大量的跨数据中心的网络传输,而跨数据中心的网络具有带宽小,延迟高,稳定性低的特点,并且价格还贵。如何平衡各集群的计算和存储利用率,降低带宽成本,成为了亟待解决的一个难题。

这次我们不再给你万字长文,而是请到了“愚公”系统的两位主要技术负责人,以脱口秀方式,为大家介绍阿里巴巴MaxCompute团队对于多集群数据和计算调度最优解决方案的探索和阶段性成果。

技术人的脱口秀来啦~~~

image



image



image
image

想了解更多?
欢迎加入 MaxCompute开发者社区钉钉群,与更多阿里巴巴大数据技术专家和大数据开发者共同交流
image

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3月前
|
Kubernetes 网络性能优化 调度
Koordinator v1.4 正式发布!为用户带来更多的计算负载类型和更灵活的资源管理机制
Koordinator v1.4 正式发布!为用户带来更多的计算负载类型和更灵活的资源管理机制
|
1月前
|
数据处理 数据安全/隐私保护
智能推荐映射关系,加速数据标准落地进程
在V4.0版本中,Dataphin推出了智能推荐映射关系功能,用户可以基于内置特征或创建自定义特征,对数据内容进行表示,并将其与数据标准关联,进而智能映射映射关系,尤其在字段分布广泛和命名多变的情况下,可以提高映射的准确性和效率,加速了数据标准实施。
241 0
|
4月前
|
分布式计算 大数据 调度
大数据计算MaxCompute怎么将一个Quota的资源优先供给给标准模式的生产库调度使用?
大数据计算MaxCompute怎么将一个Quota的资源优先供给给标准模式的生产库调度使用?
33 2
|
分布式计算 大数据 Java
Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流
Apache Spark Meetup | 1 月线上直播报名通道已开启,赶快报名预约吧!
452 0
Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流
|
机器学习/深度学习 人工智能 监控
详解灵骏智能算力之可预期高性能网络
从灵骏解析阿里云可预期高性能网络
详解灵骏智能算力之可预期高性能网络
|
传感器 消息中间件 Kubernetes
机械师实时调度示例(I) - OptaPlanner实时规划(实时调度)
OptaPlanner创办人Geoffrey De Smet及其团队,在Red Hat 技术峰会上主题会场上,演示了一个通过OptaPlanner实现实时规划与调度的示例。Geoffrey及其团队专门为此分三篇博文描述了该程序。该程序及其相关博文是OptaPlanner在VRP领域极之经典之作。本系列也分三篇对博文进行翻译,以飨各位ORer, APSer和Planner.
485 0
机械师实时调度示例(I) - OptaPlanner实时规划(实时调度)
|
缓存 人工智能 弹性计算
函数计算 GB 镜像秒级启动:下一代软硬件架构协同优化揭秘
本文将介绍借助函数计算下一代 IaaS 底座神龙裸金属和安全容器,进一步降低绝对延迟且能够大幅降低冷启动频率。
函数计算 GB 镜像秒级启动:下一代软硬件架构协同优化揭秘
|
人工智能 弹性计算 缓存
函数计算GB镜像秒级启动:下一代软硬件架构协同优化揭秘
函数计算在2020年8月创新地提供了容器镜像的函数部署方式。AWS Lambda在2020年12月Re-Invent,国内其他FaaS提供商在2021年6月也相继宣布了FaaS支持容器的重磅功能。冷启动一直都是FaaS的痛点,引入比代码压缩包大几十倍的容器镜像后冷启动恶化便成为开发者最大的担忧。
290 0
函数计算GB镜像秒级启动:下一代软硬件架构协同优化揭秘
|
存储 资源调度 分布式计算
【科学脱口秀】EB级计算平台调度系统 “愚公” : 实现跨地域的数据和计算调度
大数据平台的数据与计算分布在多个数据中心的不同集群,每个集群的存储和计算能力有限,受地域影响,集群间的网络带宽和延迟也各有差异。如何平衡各集群的存储和计算利用率,降低带宽成本,是亟待解决的一大难题。
2217 0
【科学脱口秀】EB级计算平台调度系统 “愚公” : 实现跨地域的数据和计算调度
|
SQL 分布式计算 资源调度
EB 级系统空中换引擎:阿里调度执行框架如何全面升级?
作为阿里巴巴核心大数据底座——伏羲调度和分布式执行系统,支撑着阿里集团内部以及阿里云上大数据平台绝大部分的大数据计算需求,在其上运行的 MaxCompute(ODPS) 以及 PAI 等多种计算引擎,每天为用户进行海量的数据运算。为了支撑计算平台下个 10 年的发展,伏羲团队启动了 DAG 2.0 项目,从代码和功能方面实现完全的升级换代,支持更多 DAG 执行过程中的动态性及计算模式。本文将分享 DAG 2.0 核心架构及整体设计,以及与上层各个计算引擎的对接,较长,同学们可收藏后再看。(文末免费下载《领军行业大数据及 AI 实战》)
853 0
EB 级系统空中换引擎:阿里调度执行框架如何全面升级?