弹性高性能计算E-HPC的管理控制台提供了E-HPC集群节点相关的节点查询、重启、重置、删除、停机等功能,以及调度器管理功能,如节点队列创建、迁移、删除。
进入节点管控界面 进入E-HPC管理控制台,点选左侧栏的节点和队列标签,进入如下界面:
node-management_summary
选择节点 选出需要调整的节点主要有以下步骤:
节点所属集群所在的地域即为节点所在地域,需通过地域筛选出节点所在集群。
选择集群 在地域标签下方,点击集群选择框旁边的下拉菜单,根据集群名称可选择节点所在的集群。
选择节点类型 E-HPC集群主要有三种节点类型,可在节点类型按钮旁边的下拉框选择节点。
(1)管控节点,包括调度服务器和域帐户服务器。
调度服务器:主要作用是运行PBS或SLURM等调度工具的服务端,处理作业提交、管理调度等。 域帐户服务器:集中管理E-HPC集群内用户帐户。 (2)计算节点
运行高性能计算作业的服务器,其配置决定了E-HPC集群总体性能。 (3)登录节点
E-HPC集群普通用户能够操作的唯一节点类型。您可在登录节点上进行软件调试、编译和安装,作业提交等操作。 管理节点 完成以上节点所在地域、集群以及节点类型选择后,您可从节点概要信息表中找到需要调整的节点,在右侧操作栏点击“重启”或“更多”按钮,进行重启节点、重置节点、删除节点、查看详情等操作;对于多个节点,可进行批量停机、启动、删除操作。
点击重启按钮,在弹出界面选择普通重启或强制重启。
node-management_node_reboot
普通重启:向节点上运行的操作系统(如CentOS)远程发送重启指令,由操作系统完成终止进程,系统重启等操作。相当于物理机按下Ctrl+Alt+Del触发的重启。 强制重启:直接重启节点运行的虚拟机,相当于物理机按下Reset按钮。一般是普通重启无效时才使用强制重启方式。 提醒:当节点重启无法修复故障时可尝试 重置节点。
点开更多下拉菜单,点击重置节点按钮,确认后即触发节点重置流程:
把当前节点恢复到刚创建ECS实例云服务器的初始状态 重新安装初始化E-HPC管控系统,如调度配置或域帐号管理配置等 重新安装E-HPC集群软件栈 加入E-HPC集群 3. 删除节点 注意:仅计算节点可从集群移除,管控节点和登录节点不可删除。且删除计算节点是目前集群缩容的唯一途径。若需增加计算节点,请参考集群扩容。
单个节点删除:点开更多按钮下拉菜单,点击删除节点按钮,确认后节点将释放。 批量节点删除:勾选需要删除的计算节点,点击界面上方批量删除按钮,确认后选中节点将被全部释放。 4. 停机和启动 注意:仅计算节点可进行停机操作,管控节点和登录节点不可停机。
E-HPC控制台支持批量节点的停机和启动操作。
节点停机:首先,勾选需要停机的节点,然后点击上方停机按钮,确认后选中的节点将全部被停机。
节点启动:同理,勾选需要启动的节点(说明:节点已处在停机状态,否则不可启动),点击上方启动按钮,确认后停机节点将在5分钟左右被全部启动。
节点启动推荐使用上面的方法。
除了以上启动方式外,您也可以进入云服务器ECS管理控制台,选择左侧的 实例 标签,跳转后选择您集群所在region,找到被停止的实例,点击 实例ID 进入停止实例页面,最后在右上角,点击启动按钮,启动该节点。操作完成之后,再去E-HPC管理控制台的节点界面,查看节点启动成功。
调度器管理 为更高效的管理大量运行作业的计算节点,E-HPC推出调度器管理功能,将运行不同作业或执行不同任务的节点进行分类,加入到不同的队列进行分类管理。如下图所示:
newqueue
首先,选择集群节点类型为计算节点,点击新建队列按钮,在弹出框输入队列名称,确认后队列创建完成。
说明:新建的队列,可以在”队列”栏的下拉框中查看。
其次,新创建的队列中不包含节点,您可以勾选需要移动到新队列的节点,然后点击移动到队列按钮,在弹出框选择目标队列,确认后即可完成迁移。
最后,删除不需要的队列时,只需要在“队列”栏选择需要删除的队列名称,然后点击删除队列按钮,确认后即可完成删除操作。
说明: 1. 默认队列不可删除;2. 使用pbs调度器的集群,队列中存在节点时不可删除;
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。