如何进行节点管理?-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

如何进行节点管理?

小天使爱美 2020-03-23 17:08:29 302

弹性高性能计算E-HPC如何进行节点管理?

节点管理
分享到
取消 提交回答
全部回答(1)
  • 小天使爱美
    2020-03-23 17:11:57

    弹性高性能计算E-HPC的管理控制台提供了E-HPC集群节点相关的节点查询、重启、重置、删除、停机等功能,以及调度器管理功能,如节点队列创建、迁移、删除。

    进入节点管控界面 进入E-HPC管理控制台,点选左侧栏的节点和队列标签,进入如下界面:

    node-management_summary

    选择节点 选出需要调整的节点主要有以下步骤:

    1. 选择地域 关于地域的说明,请参考地域和可用区

    节点所属集群所在的地域即为节点所在地域,需通过地域筛选出节点所在集群。

    1. 选择集群 在地域标签下方,点击集群选择框旁边的下拉菜单,根据集群名称可选择节点所在的集群。

    2. 选择节点类型 E-HPC集群主要有三种节点类型,可在节点类型按钮旁边的下拉框选择节点。

    (1)管控节点,包括调度服务器和域帐户服务器。

    调度服务器:主要作用是运行PBS或SLURM等调度工具的服务端,处理作业提交、管理调度等。 域帐户服务器:集中管理E-HPC集群内用户帐户。 (2)计算节点

    运行高性能计算作业的服务器,其配置决定了E-HPC集群总体性能。 (3)登录节点

    E-HPC集群普通用户能够操作的唯一节点类型。您可在登录节点上进行软件调试、编译和安装,作业提交等操作。 管理节点 完成以上节点所在地域、集群以及节点类型选择后,您可从节点概要信息表中找到需要调整的节点,在右侧操作栏点击“重启”或“更多”按钮,进行重启节点、重置节点、删除节点、查看详情等操作;对于多个节点,可进行批量停机、启动、删除操作。

    1. 重启节点 注意:如无特殊需要(如故障修复等),请勿对处于运行中状态的节点执行重启操作。

    点击重启按钮,在弹出界面选择普通重启或强制重启。

    node-management_node_reboot

    普通重启:向节点上运行的操作系统(如CentOS)远程发送重启指令,由操作系统完成终止进程,系统重启等操作。相当于物理机按下Ctrl+Alt+Del触发的重启。 强制重启:直接重启节点运行的虚拟机,相当于物理机按下Reset按钮。一般是普通重启无效时才使用强制重启方式。 提醒:当节点重启无法修复故障时可尝试 重置节点。

    1. 重置节点 注意:如无特殊需要(如故障修复等),请勿对处于运行中状态的节点执行重置操作。

    点开更多下拉菜单,点击重置节点按钮,确认后即触发节点重置流程:

    把当前节点恢复到刚创建ECS实例云服务器的初始状态 重新安装初始化E-HPC管控系统,如调度配置或域帐号管理配置等 重新安装E-HPC集群软件栈 加入E-HPC集群 3. 删除节点 注意:仅计算节点可从集群移除,管控节点和登录节点不可删除。且删除计算节点是目前集群缩容的唯一途径。若需增加计算节点,请参考集群扩容。

    单个节点删除:点开更多按钮下拉菜单,点击删除节点按钮,确认后节点将释放。 批量节点删除:勾选需要删除的计算节点,点击界面上方批量删除按钮,确认后选中节点将被全部释放。 4. 停机和启动 注意:仅计算节点可进行停机操作,管控节点和登录节点不可停机。

    E-HPC控制台支持批量节点的停机和启动操作。

    节点停机:首先,勾选需要停机的节点,然后点击上方停机按钮,确认后选中的节点将全部被停机。

    节点启动:同理,勾选需要启动的节点(说明:节点已处在停机状态,否则不可启动),点击上方启动按钮,确认后停机节点将在5分钟左右被全部启动。

    节点启动推荐使用上面的方法。

    除了以上启动方式外,您也可以进入云服务器ECS管理控制台,选择左侧的 实例 标签,跳转后选择您集群所在region,找到被停止的实例,点击 实例ID 进入停止实例页面,最后在右上角,点击启动按钮,启动该节点。操作完成之后,再去E-HPC管理控制台的节点界面,查看节点启动成功。

    调度器管理 为更高效的管理大量运行作业的计算节点,E-HPC推出调度器管理功能,将运行不同作业或执行不同任务的节点进行分类,加入到不同的队列进行分类管理。如下图所示:

    newqueue

    首先,选择集群节点类型为计算节点,点击新建队列按钮,在弹出框输入队列名称,确认后队列创建完成。

    说明:新建的队列,可以在”队列”栏的下拉框中查看。

    其次,新创建的队列中不包含节点,您可以勾选需要移动到新队列的节点,然后点击移动到队列按钮,在弹出框选择目标队列,确认后即可完成迁移。

    最后,删除不需要的队列时,只需要在“队列”栏选择需要删除的队列名称,然后点击删除队列按钮,确认后即可完成删除操作。

    说明: 1. 默认队列不可删除;2. 使用pbs调度器的集群,队列中存在节点时不可删除;

    0 0
云计算
使用钉钉扫一扫加入圈子
+ 订阅

时时分享云计算技术内容,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。

最新问题