• 关于

    节点调度

    的搜索结果

回答

您可以通过 Web 界面设置节点调度,从而合理分配各节点的负载。 操作步骤 登录容器服务管理控制台。 在 Kubernetes 菜单下,单击左侧导航栏中的集群 > 节点,进入节点列表页面。 选择所需的集群,在该集群下勾选所需的节点,单击节点维护。 节点清单 在弹出的对话框中,进行调度设置。 选择设置为不可调度,您在后续进行应用部署时,Pod 不会再调度到该节点。 选择排空节点(同时设置为不可调度),您在后续进行应用部署时,则 Pod 不会再调度到该节点,并且该节点上由 DaemonSet 控制的 Pod 不会被排空。 在本例中,单击设置为不可调度,将节点设为不可调度的节点。节点维护 单击确定。 可以看到节点的调度状态发生变化。节点列表 后续步骤 如果您需要将不可调度的节点重新上线,您可以单击节点上线,在弹出的对话框中,单击确定,此时该节点状态又变成可调度。
1934890530796658 2020-03-26 22:49:44 0 浏览量 回答数 0

回答

客户端 ping 加速域名网络延迟大,甚至丢包,这种情况需要搜集客户端的 IP、 客户端的 DNS 以及 ping 截图、mtr 截图信息。因为 CDN 调度节点是通过客户端的 DNS 来分配调度的,根据客户端 IP、DNS 以及 CDN 节点可以判断调度是否异常, 通过 ping 以及 mtr 截图可以看到网络延迟以及具体延迟在哪个网络链路节点。通常 这类情况可能有以下几种情况: (1) 加速区域设置错误 比如中国大陆的用户被解析到了海外的节点,或者海外用户被解析到国内。这种 情况建议将加速区域设置为“全球加速”。 ● 如果 CDN 的加速区域选择的是“仅中国大陆”,那么该域名的调度域就只有中 国大陆的 CDN 节点,海外用户访问的时候也会调度到中国大陆的 CDN 节点 ● 如果加速区域选择的是“全球(不包含中国大陆)”,那么该域名的调度域里就 只有海外的 CDN 节点,中国大陆用户也会请求到海外的 CDN 节点 (2) 客户端 DNS 设置错误 ● 例如一个广东移动的用户,用了联通的 DNS,则会导致该用户被调度到联通 CDN 节点上,存在跨运营商的情况 ● 例如一个广东移动的用户,用了哈尔滨移动的 DNS,则会导致该用户被调度 到哈尔滨移动的 CDN 节点上,远距离调度拉长了网络链路。 这种场景需要用户侧修改使用对应所在地对应运营商的 DNS。 说明:如果加速区域和 DNS 设置正确,在 CDN 正确分配调度的情况下,网 络质量还是差,那就需要搜集 traceroute 和 mtr 信息来进一步诊断了
Lee_tianbai 2021-01-05 14:21:00 0 浏览量 回答数 0

回答

E-HPC 混合云集群 您可以通过E-HPC创建HPC混合云集群,利用本地的HPC集群向阿里云扩容计算资源,统一调度公共云上资源和用户本地计算节点。 集群的调度结点(头节点),域账号管理节点都在本地,您可以通过以下方式进行本地和云上的节点通信: 云企业网:请参见 什么是云企业网。 物理专线:请参见 申请专线接入。 VPN网关:请参见 什么是VPN网关。 如何搭建VPN网关和建立连接,请参见 配置站点到站点连接。本地网关如果使用strongswan,请参见 strongSwan配置。 注意:本地网关需要允许 UDP 端口 500 和 4500 连入, strongswan 对外监听端口是 500 和 4500。本地网关需要允许域账号系统以及 HPC 集群头结点相关服务监听的端口连入。 环境要求 本地HPC集群管理节点的环境要求如下: 操作系统: Linux CentOS 6.8、6.9 或者 7.2、7.3、7.4 调度集群类型:PBSPro 18.1.1、Slurm 17.2.4 账号管理类型:nis 2.31、ldap 2.4 创建混合云集群 准备工作 搭建好网络连接、VPN、云企业网或者物理专线。 提供本地HPC集群调度节点信息:hostname、ip。 提供本地域账号节点信息: hostname、ip、账号域名 (domain name)。 E-HPC支持如下两种方式创建混合云集群 本地集群已经存在,那么本地集群节点不需要做额外的配置 本地集群还不存在,E-HPC会自动安装配置本地集群调度节点和域账号节点 API调用创建混合云集群 OpenAPI:CreateHybridCluster, 这里假设选择的地域是杭州(regionId:cn-hangzhou)。有关 API 文档,请参见 混合云管理API。 部分参数说明: VpcId:指定以上搭建网络连接相关的VPC。 Nodes:json格式的字符串,内容包含本地集群的调度节点以及账号节点的信息,可以参照以下的例子。 [ {"Role":"AccountManager", "HostName":"account", "IpAddress":"...", "AccountType":"nis"}, {"Role":"ResourceManager", "HostName":"scheduler","IpAddress":"...","SchedulerType":"pbs"} ] 注意: 如果本地调度节点和账号节点为同一个节点,以上 AccountManager 和 ResourceManager 下只需配置 HostName 和 IpAddress 的其中一个。 集群创建成功之后,通过E-HPC控制台可以查看集群基本信息,集群状态处于“安装中”。 本地集群配置 获取集群配置 在混合云集群创建成功之后,通过 API 获取集群配置信息。OpenAPI GetHybridClusterConfig,有关文档请参见 混合云管理API。 配置本地集群节点 登录本地集群调度节点和域账号管理节点,执行如下命令: echo -e "集群配置信息" > /root/ehpc.conf 账号节点和调度节点为两个节点 登录本地域账号管理节点运行如下命令安装配置 E-HPC agent: curl -O http://e-hpc-hangzhou.oss-cn-hangzhou.aliyuncs.com/packages/deploy_ehpc_agent.sh chmod +x deploy_ehpc_agent.sh ./deploy_ehpc_agent.sh -r AccountManager -i -r: # 指定节点角色 -i: # 如果本地集群是已经存在的,指定这个选项就会跳过安装配置域账号服务 登录本地集群调度节点运行如下命令安装配置E-HPC agent: 下载或者从以上域账号节点拷贝部署脚本 curl -O http://e-hpc-hangzhou.oss-cn-hangzhou.aliyuncs.com/packages/deploy_ehpc_agent.sh chmod +x deploy_ehpc_agent.sh ./deploy_ehpc_agent.sh -r ResourceManager -i -r: # 指定节点角色 -i: # 如果本地集群是已经存在的,指定这个选项就会跳过安装配置HPC集群调度服务 账号节点和调度节点为同一个节点 登录本地集群节点运行如下命令安装配置E-HPC agent curl -O http://e-hpc-hangzhou.oss-cn-hangzhou.aliyuncs.com/packages/deploy_ehpc_agent.sh chmod +x deploy_ehpc_agent.sh ./deploy_ehpc_agent.sh -r AccountManager,ResourceManager -i -r: #指定节点角色 -i: #如果本地集群是已经存在的,指定这个选项就会跳过安装配置HPC集群调度服务 本地管理节点部署之后,通过E-HPC控制台可以查看集群基本信息,集群状态会转变为“运行中”。 增加节点 调用 E-HPC OpenAPI AddNodes,请参见 节点管理API。 管理本地节点 E-HPC支持管理部署本地计算节点,将本地计算节点加入到混合云集群,也可以加入到云上的集群,最终统一调度管理。目前支持API方式接入: 增加本地计算节点到E-HPC集群 调用 E-HPC OpenAPI AddLocalNodes,请参见 混合云管理API。 获取新增加的节点配置 调用 E-HPC OpenAPI GetHybridClusterConfig获取该节点配置信息,注意请求参数’Node’必须设置为本地节点的hostname,请参见 混合云管理API。 登录本地计算节点运行如下命令安装配置E-HPC agent: 设置节点配置 echo -e "节点配置信息" > /root/ehpc.conf 下载或者从以上域账号节点拷贝部署脚本 curl -O http://e-hpc-hangzhou.oss-cn-hangzhou.aliyuncs.com/packages/deploy_ehpc_agent.sh chmod +x deploy_ehpc_agent.sh ./deploy_ehpc_agent.sh -r ComputeNode -i -r: # 指定节点角色 -i: # 如果本地计算节点已经安装配置好,指定这个选项就会跳过安装配置HPC集群调度相关服务
1934890530796658 2020-03-23 17:49:08 0 浏览量 回答数 0

问题

节点管理如何设置节点调度?

节点管理如何设置节点调度?...
1934890530796658 2020-03-26 22:46:35 0 浏览量 回答数 1

问题

Swarm 集群 应用管理 GPU 指定设备序号调度

在容器调度领域,对于 nvidia GPU 的调度一直是以 GPU 卡独占为前提的。原因是 nvidia GPU 仅仅支持应用层面的显存上限设置,并不支持硬件层面,或者说平台层面的设备隔离。这种方案...
青蛙跳 2019-12-01 21:35:03 853 浏览量 回答数 0

回答

CDN智能调度系统会对所有CDN节点做健康检查,主要是针对各个节点做80端口检查,如果健康检查失败,访问该节点的请求会被重新调度到附近的节点,保证节点可用性。
元芳啊 2019-12-02 00:41:57 0 浏览量 回答数 0

问题

节点管理如何利用阿里云Kubernetes的GPU节点标签进行调度?

节点管理如何利用阿里云Kubernetes的GPU节点标签进行调度?...
1934890530796658 2020-03-26 22:49:02 2 浏览量 回答数 1

问题

K8s调度守护进程集

我想在群集的所有节点上安排一个pod。没有例外。当资源不足时,DaemonSet似乎可以完成工作。但有时其他pod会在某些节点上进行调度,因此不再需要为DaemonSet的pod调度资源。强制在所有节点上调度DaemonSet的pod的最佳...
k8s小能手 2019-12-01 19:30:32 675 浏览量 回答数 1

回答

弹性高性能计算E-HPC的管理控制台提供了E-HPC集群节点相关的节点查询、重启、重置、删除、停机等功能,以及调度器管理功能,如节点队列创建、迁移、删除。 进入节点管控界面 进入E-HPC管理控制台,点选左侧栏的节点和队列标签,进入如下界面: node-management_summary 选择节点 选出需要调整的节点主要有以下步骤: 选择地域 关于地域的说明,请参考地域和可用区 节点所属集群所在的地域即为节点所在地域,需通过地域筛选出节点所在集群。 选择集群 在地域标签下方,点击集群选择框旁边的下拉菜单,根据集群名称可选择节点所在的集群。 选择节点类型 E-HPC集群主要有三种节点类型,可在节点类型按钮旁边的下拉框选择节点。 (1)管控节点,包括调度服务器和域帐户服务器。 调度服务器:主要作用是运行PBS或SLURM等调度工具的服务端,处理作业提交、管理调度等。 域帐户服务器:集中管理E-HPC集群内用户帐户。 (2)计算节点 运行高性能计算作业的服务器,其配置决定了E-HPC集群总体性能。 (3)登录节点 E-HPC集群普通用户能够操作的唯一节点类型。您可在登录节点上进行软件调试、编译和安装,作业提交等操作。 管理节点 完成以上节点所在地域、集群以及节点类型选择后,您可从节点概要信息表中找到需要调整的节点,在右侧操作栏点击“重启”或“更多”按钮,进行重启节点、重置节点、删除节点、查看详情等操作;对于多个节点,可进行批量停机、启动、删除操作。 重启节点 注意:如无特殊需要(如故障修复等),请勿对处于运行中状态的节点执行重启操作。 点击重启按钮,在弹出界面选择普通重启或强制重启。 node-management_node_reboot 普通重启:向节点上运行的操作系统(如CentOS)远程发送重启指令,由操作系统完成终止进程,系统重启等操作。相当于物理机按下Ctrl+Alt+Del触发的重启。 强制重启:直接重启节点运行的虚拟机,相当于物理机按下Reset按钮。一般是普通重启无效时才使用强制重启方式。 提醒:当节点重启无法修复故障时可尝试 重置节点。 重置节点 注意:如无特殊需要(如故障修复等),请勿对处于运行中状态的节点执行重置操作。 点开更多下拉菜单,点击重置节点按钮,确认后即触发节点重置流程: 把当前节点恢复到刚创建ECS实例云服务器的初始状态 重新安装初始化E-HPC管控系统,如调度配置或域帐号管理配置等 重新安装E-HPC集群软件栈 加入E-HPC集群 3. 删除节点 注意:仅计算节点可从集群移除,管控节点和登录节点不可删除。且删除计算节点是目前集群缩容的唯一途径。若需增加计算节点,请参考集群扩容。 单个节点删除:点开更多按钮下拉菜单,点击删除节点按钮,确认后节点将释放。 批量节点删除:勾选需要删除的计算节点,点击界面上方批量删除按钮,确认后选中节点将被全部释放。 4. 停机和启动 注意:仅计算节点可进行停机操作,管控节点和登录节点不可停机。 E-HPC控制台支持批量节点的停机和启动操作。 节点停机:首先,勾选需要停机的节点,然后点击上方停机按钮,确认后选中的节点将全部被停机。 节点启动:同理,勾选需要启动的节点(说明:节点已处在停机状态,否则不可启动),点击上方启动按钮,确认后停机节点将在5分钟左右被全部启动。 节点启动推荐使用上面的方法。 除了以上启动方式外,您也可以进入云服务器ECS管理控制台,选择左侧的 实例 标签,跳转后选择您集群所在region,找到被停止的实例,点击 实例ID 进入停止实例页面,最后在右上角,点击启动按钮,启动该节点。操作完成之后,再去E-HPC管理控制台的节点界面,查看节点启动成功。 调度器管理 为更高效的管理大量运行作业的计算节点,E-HPC推出调度器管理功能,将运行不同作业或执行不同任务的节点进行分类,加入到不同的队列进行分类管理。如下图所示: newqueue 首先,选择集群节点类型为计算节点,点击新建队列按钮,在弹出框输入队列名称,确认后队列创建完成。 说明:新建的队列,可以在”队列”栏的下拉框中查看。 其次,新创建的队列中不包含节点,您可以勾选需要移动到新队列的节点,然后点击移动到队列按钮,在弹出框选择目标队列,确认后即可完成迁移。 最后,删除不需要的队列时,只需要在“队列”栏选择需要删除的队列名称,然后点击删除队列按钮,确认后即可完成删除操作。 说明: 1. 默认队列不可删除;2. 使用pbs调度器的集群,队列中存在节点时不可删除;
1934890530796658 2020-03-23 17:11:57 0 浏览量 回答数 0

回答

简介 本文主要介绍把 ECI 通过虚拟节点(virtual node)方式接入到您的阿里云 Kubernetes 集群,ECI 与 Kubernetes 的Pod 为一一对应的关系。有了虚拟节点,当您的 Kubernetes 集群需要扩容时,无需规划node节点计算容量,直接使用虚拟节点动态创建ECI实例,ECI实例与您集群中的真实节点上的Pod网络互联互通。虚拟节点的工作原理参考 virtual-kubelet 。此外,虚拟节点以Pod为单位按需收费,收费规则参考 ECI计费ack-vn-scenario 前置准备 登录阿里云容器服务 Kubernetes 控制台 查看您的集群。如果您还没有集群,参考创建 Kubernetes 集群 安装 ack-virtual-node 插件 配置虚拟节点(可选) 1. 在控制台配置虚拟节点 登录容器服务 Kubernetes 控制台,依次选择 『节点』—>『集群』,确认虚拟节点已经部署完成 ack1 登录容器服务 Kubernetes 控制台,依次点击 『市场』 —>『应用目录』 —> 『Helm 发布列表』 ack2 选择需要编辑的虚拟节点,点击『更新』 ack3 更改配置,本章节主要介绍配置多可用区和Pod quota, 其余配置参考 部署virtual-kubelet 配置多可用区:编辑env下的 ECI_VSWITCH ,配置多可用区交换机ID(交换机ID与可用区为一一对应关系,您可以访问 专有网络控制台 查询您的交换机信息),注意VSwitch要属于同一个VPC下,编辑完成后点击 『更新』,配置完成之后,新创建的Pod将会随机调度到多可用区,如果某个可用区出现库存不足,虚拟节点将会为您往其他可用区调度。ack5 配置虚拟节点Pod quota,以下是相关参数说明,由于virtual-kubelet会以Pod形态部署在您集群的真实节点,如果Pod数量超过1000,virtual-kubelet负载较大,建议把virtual-kubelet所在真实节点的配置升级到8c16g以上。参考 升级ECS配置 参数 参数说明 ECI_VSWITCH 虚拟节点交换机配置 ECI_QUOTA_POD 虚拟节点可弹出的Pod上限,默认值1000个 ECI_QUOTA_CPU 虚拟节点可以弹出的CPU总核数,默认值64000 ECI_QUOTA_MEMORY 虚拟节点可以弹出的Memory总数,默认值64Ti 在集群中配置虚拟节点 通过以下命令获取虚拟节点的运行状况,注意这里需要指定命名空间为 kube-system kubectl get deploy -n kube-system 下图中的 ack-virtaul-node-controller 就是虚拟节点 ack6 通过以下命令编辑虚拟节点的配置信息,注意这里需要指定命名空间为 kube-system kubectl edit deploy ack-virtual-node-controller -n kube-system --record 将Pod创建调度到虚拟节点上 请参考 在虚拟节点上创建Pod 真实节点资源不够自动调度到虚拟节点 当您的真实节点cpu、mem资源不够时,您可以使用 virtual-kubelet-autoscaler 插件将Pod创建调度到虚拟节点,无需再预先分配node资源,具体方式参考 通过 virtual-kubelet-autoscaler 将Pod自动调度到虚拟节点
1934890530796658 2020-03-20 18:47:11 0 浏览量 回答数 0

问题

P2P单节点不可用是否影响PCDN服务质量?

P2P方案的一大优势是技术上支持单节点故障容错,且拥有百万量级边缘节点,P2P调度系统可以随时获知节点当前状态,并实时调度最优节点为用户提供数据,因此单节点不可用不会影响PCDN服务质...
云栖大讲堂 2019-12-01 21:17:20 1086 浏览量 回答数 0

问题

节点管理

若您尚未拥有E-HPC集群,请先 创建E-HPC集群 弹性高性能计算E-HPC的管理控制台提供了E-HPC集群节点相关的节点查询、重启、重置和释放等功能。 进入节点管控界面 进入 E-HPC管理控制台,...
反向一觉 2019-12-01 21:07:35 1091 浏览量 回答数 0

回答

kube-apiserver遵循横向扩展架构,是主节点控制面板的前端。这将公开Kubernetes主节点组件的所有API,并负责在Kubernetes节点和Kubernetes主组件之间建立通信。kube-scheduler负责工作节点上工作负载的分配和管理。因此,它根据资源需求选择最合适的节点来运行未调度的pod,并跟踪资源利用率。它确保不在已满的节点上调度工作负载。
一人吃饱,全家不饿 2021-01-11 16:05:07 0 浏览量 回答数 0

回答

通过容器服务控制台,您可查看 Kubernetes 集群各节点资源占用情况。 前提条件 您已成功创建一个 Kubernetes 集群,参见创建 Kubernetes 集群。 操作步骤 登录容器服务管理控制台。 在 Kubernetes 菜单下,单击左侧导航栏中的集群 > 节点,进入节点列表页面。 您可查看各个节点 CPU 和内存的资源使用情况,即请求量和使用量,其计算方式如下: CPU 请求量 = sum(当前节点所有 Pod 的 CPU request 值) / 当前节点 CPU 总量。 CPU 使用量 = sum(当前节点所有 Pod 的 CPU 实际使用量) / 当前节点 CPU 总量。 内存请求量 = sum(当前节点所有 Pod 的内存 request 值) / 当前节点内存总量。 内存使用量 = sum(当前节点所有 Pod 的内存实际使用量) / 当前节点内存总量。 说明 您可根据节点的资源占用情况,规划节点的工作负载,参见设置节点调度。 当节点的请求量和使用量达到 100% 时,新的 Pod 不会被调度到当前节点上。 查看节点资源
1934890530796658 2020-03-26 22:51:26 0 浏览量 回答数 0

回答

随着业务诉求的变化,节点管理已不再局限于安装 docker / kubelet 等组件,我们需要实现如等待日志采集 DaemonSet 部署完成才可以开启调度的需求,而且这类需求变得越来越多。 如果将终态统一交由 Machine-Operator 管理,势必会增加 Machine-Operator 与其它组件的耦合性,而且系统的扩展性会受到影响。因此,我们设计了一套节点终态管理的机制,来协调 Machine-Operator 和其它节点运维 Operators。 设计如下图所示: 全量 ReadinessGates: 记录节点可调度需要检查的 Condition 列表;Condition ConfigMap: 各节点运维 Operators 终态状态上报 ConfigMap; 协作关系: 外部节点运维 Operators 检测并上报与自己相关的子终态数据至对应的 Condition ConfigMap; 2.Machine-Operator 根据标签获取节点相关的所有子终态 Condition ConfigMap,并同步至 Machine status 的 conditions 中; 3.Machine-Operator 根据全量 ReadinessGates 中记录的 Condition 列表,检查节点是否达到终态,未达到终态的节点不开启调度。
问问小秘 2019-12-02 03:14:54 0 浏览量 回答数 0

问题

Swarm 集群  服务管理 重新调度服务

您可以重新平衡各个节点运行容器数量,将负载较重节点的容器迁移到新加入的节点和负载较轻的节点上,实现集群负载重新的平衡。 操作步骤 登录容器服务管理控制台。在 Swarm 菜单下,单击左侧导...
青蛙跳 2019-12-01 21:35:30 779 浏览量 回答数 0

问题

【百问百答】《深入浅出Kubernetes》

Kubernetes集群的核心组件有哪些Kubernetes组件逻辑上可以被分为几个部分Kubernetes中SharedInformer作用是什么Kubernetes中常用的控制器有哪些Kubernetes服务控制器工作流程是怎样的Kub...
一人吃饱,全家不饿 2021-01-12 19:15:41 807 浏览量 回答数 1

问题

最近4-5天,大数据开发套件中运维中心的任务都没有被自动调度起来。 每天只有两个虚节点调度了,其他任务都没有被调度起来。去“项目管理”->"调度资源管理"中查看,服务状态是”暂停“,点了”恢复“后,这一天的任务才正常。 请问这个是什么原因?我们之前半年这调度都好了,就最近开始这情况了。

最近4-5天,大数据开发套件中运维中心的任务都没有被自动调度起来。每天只有两个虚节点调度了,其他任务都没有被调度起来。去“项目管理”->"调度资源管理"中查看,服务状态是”暂停“,点了”恢复“后,这一天的任务才正常。请问这个是什么原因...
祁同伟 2019-12-01 20:18:41 1114 浏览量 回答数 1

问题

Swarm 集群如何重新调度服务

您可以重新平衡各个节点运行容器数量,将负载较重节点的容器迁移到新加入的节点和负载较轻的节点上,实现集群负载重新的平衡。 操作流程 登录 容器服务管理控制台。单击左侧导航栏中的 [backcolor=t...
反向一觉 2019-12-01 21:19:30 1386 浏览量 回答数 0

回答

在使用Kubernetes集群实现GPU计算时,为了有效利用GPU设备,可根据需要将应用调度到具有GPU设备的节点上,为此,您可利用GPU节点标签进行灵活调度。 前提条件 您已成功创建一个拥有GPU节点的Kubernetes集群,参见Kubernetes GPU集群支持GPU调度。 您已连接到Master节点,方便快速查看节点标签等信息,参见通过 kubectl 连接 Kubernetes 集群。 背景信息 阿里云Kubernetes在部署Nvidia GPU节点的时候会发现GPU的属性,并且作为NodeLabel信息暴露给用户,拥有如下优势: 可以快速筛选GPU节点 部署时可以作为调度条件使用 操作步骤 登录容器服务管理控制台。 在Kubernetes菜单下,单击左侧导航栏中的集群 > 节点,查看该集群的节点。 说明 本例中,该集群中拥有3个Worker节点,其中有两个Worker节点挂载了GPU设备,请查看节点IP,方便进行验证。 查看节点 选择GPU节点,单击操作列的更多 > 详情,进入Kubernetes Dashboard页面,查看GPU节点提供的节点标签。 节点详情 您也可登录到Master节点,执行以下命令,查看GPU节点的标签。 kubectl get nodes NAME STATUS ROLES AGE VERSION cn-beijing.i-2ze2dy2h9w97v65uuaft Ready master 2d v1.11.2 cn-beijing.i-2ze8o1a45qdv5q8a7luz Ready 2d v1.11.2 #可与控制台进行比对,确定GPU节点 cn-beijing.i-2ze8o1a45qdv5q8a7lv0 Ready 2d v1.11.2 cn-beijing.i-2ze9xylyn11vop7g5bwe Ready master 2d v1.11.2 cn-beijing.i-2zed5sw8snjniq6mf5e5 Ready master 2d v1.11.2 cn-beijing.i-2zej9s0zijykp9pwf7lu Ready 2d v1.11.2 选择一个GPU节点,执行以下命令,查看该GPU节点的标签。 kubectl describe node cn-beijing.i-2ze8o1a45qdv5q8a7luz Name: cn-beijing.i-2ze8o1a45qdv5q8a7luz Roles: Labels: aliyun.accelerator/nvidia_count=1 #注意 aliyun.accelerator/nvidia_mem=12209MiB aliyun.accelerator/nvidia_name=Tesla-M40 beta.kubernetes.io/arch=amd64 beta.kubernetes.io/instance-type=ecs.gn4-c4g1.xlarge beta.kubernetes.io/os=linux failure-domain.beta.kubernetes.io/region=cn-beijing failure-domain.beta.kubernetes.io/zone=cn-beijing-a kubernetes.io/hostname=cn-beijing.i-2ze8o1a45qdv5q8a7luz ...... 本例中,该GPU节点包含如下3个节点标签(NodeLabel)。 key value aliyun.accelerator/nvidia_count GPU核心数量 aliyun.accelerator/nvidia_mem GPU显存,单位为MiB aliyun.accelerator/nvidia_name nvida设备的GPU计算卡名称 同一类型的GPU云服务器的GPU计算卡名称相同,因此,您可通过该标签筛选节点。 kubectl get no -l aliyun.accelerator/nvidia_name=Tesla-M40 NAME STATUS ROLES AGE VERSION cn-beijing.i-2ze8o1a45qdv5q8a7luz Ready 2d v1.11.2 cn-beijing.i-2ze8o1a45qdv5q8a7lv0 Ready 2d v1.11.2 返回容器服务控制台主页,单击左侧导航栏应用 > 无状态,单击右上角使用模板创建。 创建一个tensorflow的Deployment,将该应用调度到GPU节点上。 创建应用 本例的yaml编排如下所示。 Define the tensorflow deployment apiVersion: apps/v1 kind: Deployment metadata: name: tf-notebook labels: app: tf-notebook spec: replicas: 1 selector: # define how the deployment finds the pods it mangages matchLabels: app: tf-notebook template: # define the pods specifications metadata: labels: app: tf-notebook spec: nodeSelector: #注意 aliyun.accelerator/nvidia_name: Tesla-M40 containers: - name: tf-notebook image: tensorflow/tensorflow:1.4.1-gpu-py3 resources: limits: nvidia.com/gpu: 1 #注意 ports: - containerPort: 8888 hostPort: 8888 env: - name: PASSWORD value: mypassw0rdv 您也可避免将某些应用部署到GPU节点。下面部署一个nginx的Pod,利用节点亲和性的特性进行调度,具体参见镜像创建无状态Deployment应用中关于节点亲和性的说明。 该示例的yaml编排如下所示: apiVersion: v1 kind: Pod metadata: name: not-in-gpu-node spec: affinity: nodeAffinity: requiredDuringSchedulingIgnoredDuringExecution: nodeSelectorTerms: - matchExpressions: - key: aliyun.accelerator/nvidia_name operator: DoesNotExist containers: - name: not-in-gpu-node image: nginx 单击左侧导航栏应用 > 容器组,选择所需的集群和命名空间,进入容器组列表。 查看容器组 执行结果 在容器组列表中,您可看到两个示例的Pod(容器组)成功调度到对应的节点上,从而实现基于GPU节点标签的灵活调度。
1934890530796658 2020-03-26 23:03:59 0 浏览量 回答数 0

问题

如何指定节点调度?

如何指定节点调度?...
1934890530796658 2020-03-31 15:14:27 1 浏览量 回答数 1

回答

当需要在机器上运行的容器或者镜像数量不断增加时,磁盘的大小可能不再满足需求,您需要通过增加数据盘的方式对 Docker 的数据目录进行扩容。 前提条件 如需挂载数据盘,请确保您的集群是 1.10.4 以后版本。 挂载数据盘 您通常可以选择以下两种方案对集群已有节点进行数据盘扩容: 如果已有节点之前没有挂载盘,请参考为容器服务的Docker增加数据盘。 如果已有节点购买了数据盘,但是未能成功挂载,一般可以通过以下步骤进行挂载。 说明 为降低操作过程的风险,建议操作前可以对节点做快照或者进行数据备份。 需要评估集群的应用是否支持被调度到其他节点。 请选择在业务低峰期间操作。 节点排水会导致节点上的 Pod 被调度到其他节点,请确保集群有多余节点资源。如果资源不足,请考虑提前临时扩容。 在执行操作之前,您可以在 worker 节点上执行 df 命令,通过查看命令执行结果中 /var/lib/docker 是否成功挂载到 /dev/vdb1 来判断数据盘是否成功挂载。若挂载成功,则无需处理。若未成功挂载,您需要按照以下步骤完成挂载。挂载数据盘 设置节点为不可调度。 详细操作请参见 Mark node as unschedulable。 节点排水。 详细操作请参见 Safely-Drain-Node。 移除该节点。 本文中仅就容器服务控制台中的操作进行说明。 登录容器服务管理控制台。 单击左侧导航栏中的集群 > 节点。 选择要移除的节点,单击批量移除或者选择更多 > 移除。 移除节点 在弹出的移除节点对话框中,单击确定。 释放ECS 说明 不要选择同时释放 ECS 复选框。 重新添加刚才移除的节点。 单击左侧导航栏中的集群 > 集群。 选择要添加节点的集群。单击更多 > 添加已有节点。 添加节点 选择自动添加或手动添加节点。本文中以自动添加为例。自动添加 选择已有云服务器并单击下一步。 选择在添加节点过程中格式化数据盘。 格式化数据盘 按照界面提示完成其余操作。 成功添加节点后,您可以登录该节点并执行 df 命令查看数据盘的挂载情况。 如果数据盘挂载成功,如下图所示。挂载成功 通过以上两种方案,您可以为已有节点添加或者重新挂载数据盘
1934890530796658 2020-03-31 15:05:11 0 浏览量 回答数 0

回答

当需要在机器上运行的容器或者镜像数量不断增加时,磁盘的大小可能不再满足需求,您需要通过增加数据盘的方式对 Docker 的数据目录进行扩容。 前提条件 如需挂载数据盘,请确保您的集群是 1.10.4 以后版本。 挂载数据盘 您通常可以选择以下两种方案对集群已有节点进行数据盘扩容: 如果已有节点之前没有挂载盘,请参考为容器服务的Docker增加数据盘。 如果已有节点购买了数据盘,但是未能成功挂载,一般可以通过以下步骤进行挂载。 说明 为降低操作过程的风险,建议操作前可以对节点做快照或者进行数据备份。 需要评估集群的应用是否支持被调度到其他节点。 请选择在业务低峰期间操作。 节点排水会导致节点上的 Pod 被调度到其他节点,请确保集群有多余节点资源。如果资源不足,请考虑提前临时扩容。 在执行操作之前,您可以在 worker 节点上执行 df 命令,通过查看命令执行结果中 /var/lib/docker 是否成功挂载到 /dev/vdb1 来判断数据盘是否成功挂载。若挂载成功,则无需处理。若未成功挂载,您需要按照以下步骤完成挂载。挂载数据盘 设置节点为不可调度。 详细操作请参见 Mark node as unschedulable。 节点排水。 详细操作请参见 Safely-Drain-Node。 移除该节点。 本文中仅就容器服务控制台中的操作进行说明。 登录容器服务管理控制台。 单击左侧导航栏中的集群 > 节点。 选择要移除的节点,单击批量移除或者选择更多 > 移除。 移除节点 在弹出的移除节点对话框中,单击确定。 释放ECS 说明 不要选择同时释放 ECS 复选框。 重新添加刚才移除的节点。 单击左侧导航栏中的集群 > 集群。 选择要添加节点的集群。单击更多 > 添加已有节点。 添加节点 选择自动添加或手动添加节点。本文中以自动添加为例。自动添加 选择已有云服务器并单击下一步。 选择在添加节点过程中格式化数据盘。 格式化数据盘 按照界面提示完成其余操作。 成功添加节点后,您可以登录该节点并执行 df 命令查看数据盘的挂载情况。 如果数据盘挂载成功,如下图所示。挂载成功 通过以上两种方案,您可以为已有节点添加或者重新挂载数据盘。
1934890530796658 2020-03-31 14:24:11 0 浏览量 回答数 0

回答

您可以通过容器服务 Web 界面对节点进行标签管理,包括批量添加节点标签、通过标签筛选节点和快速删除节点标签。 前提条件 您已经成功创建一个 Kubernetes 集群,请参见创建Kubernetes 集群。 背景信息 关于如何使用节点标签实现节点调度,请参见设置节点调度。 批量添加节点标签 登录容器服务管理控制台。 在 Kubernetes 菜单下,单击左侧导航栏中的集群 > 节点,进入节点列表页面。 选择所需的集群,在页面右上角单击标签管理。 批量管理标签 在节点列表中,批量选择节点,然后单击添加标签。 批量添加标签1 在弹出的添加标签对话框中,输入标签的名称和值,然后单击确定。 添加标签 您可以在标签管理页面,看到批量节点具有相同的标签。 查看标签 通过标签筛选节点 在 Kubernetes 菜单下,单击左侧导航栏中的集群 > 节点,进入节点列表页面。 选择所需的集群,在页面右上角单击标签管理。 标签管理 选择某个节点,单击右侧的标签,如 group:worker,可通过标签来筛选节点。 您可看到通过 group:worker 标签成功筛选出所需的节点。 筛选节点 删除节点标签 在 Kubernetes 菜单下,单击左侧导航栏中的集群 > 节点,进入节点列表页面。 选择所需的集群,在页面右上角单击标签管理。 标签管理 选择某个节点,单击标签的删除图标,如 group:worker。 删除图标 您可以看到该节点右侧的标签消失,节点标签被删除。 删除节点标签
1934890530796658 2020-03-26 22:40:43 0 浏览量 回答数 0

问题

Kubernetes 集群 节点标签管理

您可以通过容器服务 Web 界面对节点进行标签管理,包括批量添加节点标签、通过标签筛选节点和快 速 删 除节点标签。 关于如何使用节点标签实现节点调度,请参见 指定节点调度。 前提条件 您已经成功创建一...
青蛙跳 2019-12-01 21:32:47 735 浏览量 回答数 0

回答

目前kubernetes调度器的调度方式是Pod-by-Pod,也是当前调度器不足的地方。主要瓶颈如下:kubernets目前调度的方式,每个pod会对所有节点都计算一遍,当集群规模非常大,节点数很多时,pod的调度时间会非常慢。 这也是percentage-of-nodes-to-score 尝试要解决的问题pod-by-pod的调度方式不适合一些机器学习场景。 kubernetes早期设计主要为在线任务服务,在一些离线任务场景,比如分布式机器学习中,我们需要一种新的算法gang scheduler,pod也许对调度的即时性要求没有那么高,但是提交任务后,只有当一个批量计算任务的所有workers都运行起来时,才会开始计算任务。 pod-by-pod 方式在这个场景下,当资源不足时非常容易引起资源死锁。3。 当前调度器的扩展性不是十分好,特定场景的调度流程都需要通过硬编码实现在主流程中,比如我们看到的bindVolume部分, 同样也导致Gang Scheduler 无法在当前调度器框架下通过原生方式实现
一只刺猬 2019-12-02 01:59:26 0 浏览量 回答数 0

问题

节点管理如何Kubernetes 集群支持 NPU 调度?

节点管理如何Kubernetes 集群支持 NPU 调度?...
1934890530796658 2020-03-26 22:48:49 5 浏览量 回答数 1

问题

Kubernetes Pod 调度到节点网络是如何分配的

Kubernetes Pod 调度到节点网络是如何分配的...
一人吃饱,全家不饿 2021-01-11 15:05:37 0 浏览量 回答数 1

问题

节点管理如何Kubernetes GPU 集群支持 GPU 调度?

节点管理如何Kubernetes GPU 集群支持 GPU 调度?...
1934890530796658 2020-03-26 22:48:11 5 浏览量 回答数 1

问题

节点管理如何Kubernetes 集群支持轻量级 GPU 调度?

节点管理如何Kubernetes 集群支持轻量级 GPU 调度?...
1934890530796658 2020-03-26 22:48:44 5 浏览量 回答数 1

云产品推荐

上海奇点人才服务相关的云产品 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT