若您尚未拥有E-HPC集群,请先
创建E-HPC集群
弹性高性能计算E-HPC的管理控制台提供了E-HPC集群节点相关的节点查询、重启、重置和释放等功能。
进入节点管控界面
进入
E-HPC管理控制台,点选左侧栏的[backcolor=transparent]节点标签,进入如下界面:
选择节点
选出需要调整的节点主要有以下步骤
选择地域
关于地域的说明,请参考
地域和可用区
节点所属集群所在的地域即为节点所在地域,需通过地域筛选出节点所在集群。
选择集群
在地域标签下方,点击集群旁边的下拉菜单,根据集群名称可选择节点所在的集群。
选择节点类型
E-HPC集群主要有三种节点类型:
1.管控节点,包括调度服务器和域帐户服务器。
- 调度服务器:主要作用是运行PBS或SLURM等调度工具的服务端,处理作业提交、管理调度等。
- 域帐户服务器:集中管理E-HPC集群内用户帐户。
2.计算节点
- 运行高性能计算作业的服务器,其配置决定了E-HPC集群总体性能。
3.登录节点
- E-HPC集群普通用户能够操作的唯一节点类型。用户可在登录节点上进行软件调试、编译和安装,作业提交等操作。
管理节点
完成以上节点所在地域、集群以及节点类型选择后,用户可从节点概要信息表中找到需要调整的节点,在[backcolor=transparent]操作栏点选所需操作
重启节点
[backcolor=transparent]注意:如无特殊需要(如故障修复等),请勿对处于运行中状态的节点执行重启操作。
点击重启,在弹出界面选择普通重启或强制重启
- 普通重启:向节点上运行的操作系统(如CentOS)远程发送重启指令,由操作系统完成终止进程,系统重启等操作。相当于物理机按下Ctrl+Alt+Del触发的重启。
- 强制重启:直接重启节点运行的虚拟机,相当于物理机按下Reset按钮。一般是普通重启无效时才使用强制重启方式。
重置节点
[backcolor=transparent]注意:如无特殊需要(如故障修复等),请勿对处于运行中状态的节点执行重置操作。
点开更多下拉菜单,点击重置节点。确认后即触发节点重置流程。
重置节点的流程:
- 把当前节点恢复到刚创建ECS实例云服务器的初始状态
- 重新安装初始化E-HPC管控系统,如调度配置或域帐号管理配置等
- 重新安装E-HPC集群软件栈
- 加入E-HPC集群
当节点重启无法修复故障时可尝试重置节点。
删除节点
[backcolor=transparent]注:仅[backcolor=transparent]计算节点可从集群移除,[backcolor=transparent]管控节点和[backcolor=transparent]登录节点不可删除。且删除计算节点是目前集群缩容的唯一途径。若需增加计算节点,请参考
集群扩容
点开更多下拉菜单,点击删除节点。确认后节点将停机释放。