如何创建及配置集群? -问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

如何创建及配置集群?

小天使爱美 2020-03-23 15:49:18 141

弹性高性能计算E-HPC如何创建及配置集群?

分享到
取消 提交回答
全部回答(1)
  • 小天使爱美
    2020-03-23 16:48:30

    本文介绍了创建及配置集群的基本配置流程和查看配置清单的方法,并详细说明了各高级配置项的用法。

    基本配置流程 开通并创建NAS 首次创建E-HPC集群之前,需要先登录文件存储产品页面 开通NAS服务,NAS服务开通后,登录到NAS控制台开始 创建NAS文件系统,并为文件系统 添加挂载点,操作完成之后,就可以登录到EHPC控制台创建集群了。

    创建集群 1.. 登录E-HPC管理控制台。如果尚未注册,请先单击 免费注册 完成注册流程(按照最新国家规定,需要实名制注册)。登录后定位到 弹性高性能计算,会直接显示如下的集群界面:

    ClusterView

    2.. 在该 集群 界面,先选择地域(如华东1),单击右上角开始 创建集群。

    注意1:请先了解地域和可用区。

    注意2: 在创建、管理或使用E-HPC集群时,非特殊情况请勿使用云服务器ECS管理控制台调整单个集群节点。建议通过E-HPC集群管控平台操作。详情见 为什么不能使用ECS管理控制台对E-HPC集群节点进行操作?

    第一步:硬件配置 硬件配置项包括:可用区、付费类型、部署方式和节点配置,如下图所示:HardwareConfig

    1. 选择可用区。 ZoneSelect

    说明:为了保证E-HPC节点间的网络通讯效率,所有开通的节点均位于同一地域同一可用区,请参见地域和可用区。如果在开通E-HPC集群时发现想用的区域不可选,请参见为什么某些地域无法开通E-HPC集群

    1. 选择付费类型 付费类型是指集群节点ECS实例的计费方式,其中不包括弹性IP、NAS存储的费用。共有三种付费类型供您选择:包年包月、按量付费和竞价实例。ChargeMode

    2. 选择部署方式 DeployMode

    说明:

    标准:登录节点、管控节点和计算节点分离部署,管控节点可以选2台或4台(HA)。 简易:登录、管控服务混合部署在一台节点上,计算节点分离。 One-box: 所有类型的服务都部署在一台计算节点上,整个集群只有一个节点,可选择使用本地存储或NAS存储。使用NAS存储时可支持集群扩容。 4. 节点配置 NodeSelect

    如上图,系统中默认分配2个管控节点实例,还可以自己选择1个或者4(HA)。计算节点的数量指定为3台。登录节点默认分配1台。点击节点的打开下拉菜单可进一步选择所需机型。

    说明: E-HPC集群主要由以下3种节点构成

    计算节点:用于执行高性能计算作业的节点 管控节点:用于进行作业角度和域账户管理的节点,包括相互独立的2种节点: 作业调度节点:部署作业调度器 域帐户管理节点:部署集群的域账号管理软件 登录节点:具备公网IP,用户可远程登录该节点,通过命令行操作HPC集群 一般来说,作业调度节点只处理作业调度,域帐户管理节点只处理帐户信息,都不参与作业运算,因此原则上管控节点选用较低配置的企业级实例(如小于4CPU核的sn1ne实例)保证高可用性即可。计算节点的硬件配置选择是影响集群性能的关键点。登录节点通常会被配置为开发环境,需要为集群所有用户提供软件开发调试所需的资源及测试环境,因此推荐登录节点选择与计算节点配置一致或内存配比更大的实例。各种机型的详细信息可参考推荐配置。

    完成硬件配置后,点击下一步进入软件配置界面。

    第二步:软件配置 软件配置项包括:镜像类型、操作系统、调度器和软件包,如下图所示:SoftwareConfig

    说明:

    选择不同的镜像类型,操作系统的可选项也会变化。操作系统指部署在集群所有节点上的操作系统。“镜像类型”说明: 若用户选择镜像为"自定义镜像类型",则不能使用基于已有E-HPC集群节点创建产生的自定义镜像,否则,创建集群计算节点将会产生异常。 调度器是指HPC集群上部署的作业调度软件。选择不同的作业调度软件,向集群提交作业时作业脚本和参数也会有相应的不同。 软件包是指HPC集群上部署的HPC软件,HPC提供多种类型的典型配置软件包如GROMACS、OpenFOAM和LAMMPS等,包含相应的软件和运行依赖,集群创建完毕之后,所选的软件将会预装到集群上。 第三步:基础配置 基础配置项包括:基本信息和登录设置,如下图所示:BaseConfig

    说明:

    基本信息中的名称是指集群名称,该名称将会在集群列表中显示,便于用户查找。 登录设置填写的是登录该集群的密码,该密码用于远程SSH访问集群登录节点时使用,对应的用户名为root。 完成基本配置后,勾选《E-HPC服务条款》,点击确认即可创建集群。

    查看配置清单 您可以在创建集群界面的右侧查看当前配置清单。默认情况下,配置清单仅显示基础配置,您可以勾选高级配置选项查看更多配置项。

    ConfigList

    查看配置拓扑图 在创建完集群之后,点击右上角查看详情,我们可以查看到集群的在拓扑图。TopoButton

    可以看到当前配置拓扑图中,包括VPC名称、交换机名称、NAS实例名、登录节点、管控节点、计算节点的配置及数量等。ClusterTopo

    查询创建状态 大约20分钟后,您可以回到E-HPC集群页面,查看新集群状态。若新集群所有节点皆处于 运行中 的状态,则集群已创建完毕。下一步用户可登录到集群进行操作,请参见指引使用集群。

    高级配置 按照基本配置流程可创建通用E-HPC集群,如果用户需要更灵活的配置,可以在高级配置选项下进行选择。创建集群的三个步骤中前两个步骤都有高级配置可供用户选择。

    硬件高级配置 依次打开创建集群 > 硬件配置 > 高级配置,可以看到如下配置选项(本例在创建集群前已事先创建了网络、存储等基础服务):

    HardwareAdvConfig

    网络配置 上图中的网络配置部分,用户可自行在阿里云专有网络控制台创建VPC、交换机,在阿里云云服务器控制台创建安全组,创建完成后即可在这里可以选择所需的VPC、交换机、安全组等网络配置。如果不想跳转到其他服务的控制台,也可点击此处的“创建VPC”、“创建子网(交换机)”链接,在右侧的滑动窗口中创建相应的组件。

    说明:如果用户事先没有创建VPC和交换机,创建集群的流程将会自动创建默认一个默认的VPC和交换机,VPC网段为192.168.0.0/16,交换机网段为192.168.0.0/20。用户如果自行创建了VPC,需要在所需的可用区下自行创建交换机才可继续创建集群。如果用户自行创建了VPC和交换机,使用基础配置流程创建集群时将会自动选择第一个VPC和交换机,请确保交换机下的IP地址空间足够(可用IP数大于集群所有节点的数量),用户也可以在高级配置下的VPC和交换机配置中自行选择任何已创建的VPC和交换机。

    共享存储配置 上图中的共享存储部分,E-HPC所有用户数据、用户管理、作业共享数据等信息都会存储在共享存储上以供集群各节点访问。目前共享存储是由文件存储NAS提供。而要使用NAS还要配套挂载点和远程目录。

    说明:如果用户事先没有在当前可用区创建NAS实例和挂载点,创建集群的流程将会在可用区下自动创建默认一个默认的NAS实例与挂载点。如果用户在当前可用区自行创建了NAS实例和挂载点,使用基础配置流程创建集群时将会自动选择第一个NAS实例和挂载点。如果在该NAS实例在可用区下没有可用的挂载点,创建集群的流程会自动创建一个挂载点。请确保该NAS实例还有可用的挂载点余量。

    系统盘大小配置 用户可以根据自己实际需求,在这里指定创建集群计算节点的系统盘大小,默认值是40,范围在40-500(G)之间。

    该值与集群扩容时系统盘大小的默认值保持一致,用户也可以在集群扩容时为新扩容的节点重新设置系统盘大小。

    软件高级配置 依次打开创建集群 > 软件配置 > 高级配置,进行高级选项配置。

    队列配置 用户可在此处为创建的集群指定队列,当不指定时集群会加入到默认的队列,如,PBS集群的默认队列为workq,slurm集群的默认队列为comp.

    queueconfig

    安装后执行脚本 集群部署完毕后,用户可以在此处执行脚本。PostScript

    说明:

    下载地址是指脚本文件所在的地址,一般将脚本上传到OSS服务,这里填写OSS文件的url。 执行参数是指执行脚本时需要传入的命令行参数。 软件版本 用户可以在此处选择域账号服务软件类型和具体的软件清单:VersionConfig

    注意:在选择预装高性能计算应用软件时,必须选择所依赖的软件包(如mpich或openmpi,参见软件包名后缀)。如选择”-gpu”后缀的软件,必须确保计算节点使用GPU系列机型。否则会有集群创建失败或软件无法正常运行的风险。

    0 0
云计算
使用钉钉扫一扫加入圈子
+ 订阅

时时分享云计算技术内容,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。

推荐文章