【云计算与大数据技术】资源管理、调度模型策略的讲解

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 【云计算与大数据技术】资源管理、调度模型策略的讲解

一、资源管理模型

集群资源管理模型通常由两个部分组成,即资源表示模型和资源分配模型,由于这两个部分是耦合的,所有优化集群资源管理时需要同时结合这两个部分考虑,资源表示模型用于描述集群资源的组织方式,是集群资源统一管理的基础,从狭义上来讲,计算资源是指具有计算能力的资源,如CPU GPU等等,但实际上,对系统计算有影响的资源都可以划分到计算资源的范畴,包括内存容量,磁盘容量 IO和网络带宽等等,合理的资源表示模型可以有效的利用资源,提高集群的利用率

1:基于slot的资源表示模型

集群中每个节点的资源都是多维的,包括CPU 、内存 、网络 I/O 和磁盘 I/O,采用slot组织各个节 点上的计算资源。实际上,基于slot的资源表示模型就是各个节点上的资源等量切分成若干份,每一份用一个slot表示,同时规定任务可以根据实际需求占用多个slot。通过引入slot这一概念,各个节点上的多维度资源被抽象成单一维度的slot,这样可以把复杂的多维度资源分配问题转化成简单的slot分配问题,从而大大降低了资源管理问题的复杂度

更进一步说,slot相当于任务运行许可证,一个任务只有得到该许可证后才能获得运行的机会,这意味着每个节点上的slot数量决定了该节点上最大允许的任务并发度

2:基于最大最小公平原则的资源分配模型

对于任何共享集群的系统,资源分配都是一个至关重要的模块,一个最常用的分配策略是最大最小公平原则,其最早用于控制网络流量,以实现公平分配网络带宽,最大最小策略的基本含义就是使得资源分配的最小分配量尽可能最大,它可以防止任何网络流被饿死,同时在一定程度上尽可能地增加每个流的速率,因此最大最小公平策略被认为是一种很好的权衡有效性和公平性的自由分配策略

二、资源调度策略

在分布式计算领域中,资源分配问题是一个 任务调度问题,它的主要任务是根据当前集群中各个节点上的资源的剩余情况与各个用户作业的服务质量要求在资源和作业之间做出最优的匹配,由于用户对作业服务质量的要求是多样化的,分布式系统中的任务调度是一个多目标优化的问题,也是要给NP-Hard问题

1:Capacity Scheduler调度

Capacity Scheduler 调度器是解决多用户情况下共享集群资源的调度方式 ,使每个提交的计算任务都可以在合理的时间内完成

将总体的集群资源以可以预测和简单的方式划分到公司的多个子部门和机构,主要是Job队列的方式

每个Job队列都有一个 capacity 的保证,也同时提供资源弹性功能

2:Fair Scheduler调度

公平调度是一种赋予作业(Job)资源的方法,它的目的是让所有作业随着时间的 推移都能平均地获取等同的共享资源

当单独一个作业运行时,它将使用整个集群。 当有其他作业被提交上来时 ,系 统会将任务 (task)空闲时间片 (slot)赋给这些新的作业,以使每一个作业大概获取到等量的 CPU 时间

三、在YARN上运行计算框架

YARN 是一个资源管理系统,负责集群资源的管理和分配。如果想将一个新的应用程序运行在 YARN 之上,通常需要编写两个组件,即 Client和 ApplicationMaster

编写一个 YARN Application 涉及下面3个RPC协议

ClientRMProtocol

AMRMProtocol

ContainerManager

创作不易 觉得有帮助请点赞关注收藏~~~

相关文章
|
8天前
|
存储 大数据 数据处理
大数据环境下的性能优化策略
大数据环境下的性能优化策略
15 2
|
13天前
|
资源调度 监控 大数据
大数据计算资源管理
【10月更文挑战第25天】
13 4
|
14天前
|
存储 人工智能 大数据
物联网、大数据、云计算、人工智能之间的关系
物联网、大数据、云计算、人工智能之间的关系是紧密相连、相互促进的。这四者既有各自独立的技术特征,又能在不同层面上相互融合,共同推动信息技术的发展和应用。
123 0
|
23天前
|
算法 大数据 数据库
云计算与大数据平台的数据库迁移与同步
本文详细介绍了云计算与大数据平台的数据库迁移与同步的核心概念、算法原理、具体操作步骤、数学模型公式、代码实例及未来发展趋势与挑战。涵盖全量与增量迁移、一致性与异步复制等内容,旨在帮助读者全面了解并应对相关技术挑战。
33 3
|
1月前
|
消息中间件 分布式计算 算法
大数据-67 Kafka 高级特性 分区 分配策略 Ranger、RoundRobin、Sticky、自定义分区器
大数据-67 Kafka 高级特性 分区 分配策略 Ranger、RoundRobin、Sticky、自定义分区器
47 3
|
1月前
|
缓存 分布式计算 NoSQL
大数据-47 Redis 缓存过期 淘汰删除策略 LRU LFU 基础概念
大数据-47 Redis 缓存过期 淘汰删除策略 LRU LFU 基础概念
62 2
|
3月前
|
机器学习/深度学习 监控 API
基于云计算的机器学习模型部署与优化
【8月更文第17天】随着云计算技术的发展,越来越多的数据科学家和工程师开始使用云平台来部署和优化机器学习模型。本文将介绍如何在主要的云计算平台上部署机器学习模型,并讨论模型优化策略,如模型压缩、超参数调优以及分布式训练。
654 2
|
3月前
|
存储 分布式计算 数据处理
面向业务增长的数据平台构建策略
【8月更文第13天】为了构建一个能够支持企业业务增长的数据平台,我们需要考虑几个关键的方面:数据的收集与整合(数据集成)、存储、处理和分析。本文将详细介绍这些步骤,并提供具体的代码示例来帮助理解。
133 1
|
3月前
|
分布式计算 并行计算 大数据
【数据挖掘】百度2015大数据云计算研发笔试卷
百度2015年大数据云计算研发笔试卷的题目总结,涵盖了Hadoop、Spark、MPI计算框架特点、TCP连接建立过程、数组最大和问题、二分查找实现以及灯泡开关问题,提供了部分题目的解析和伪代码。
54 1
|
3月前
|
存储 分布式计算 数据处理
MaxCompute 的成本效益分析与优化策略
【8月更文第31天】随着云计算技术的发展,越来越多的企业选择将数据处理和分析任务迁移到云端。阿里云的 MaxCompute 是一款专为海量数据设计的大规模数据仓库平台,它不仅提供了强大的数据处理能力,还简化了数据管理的工作流程。然而,在享受这些便利的同时,企业也需要考虑如何有效地控制成本,确保资源得到最优利用。本文将探讨如何评估 MaxCompute 的使用成本,并提出一些优化策略以降低费用,提高资源利用率。
206 0