开发者社区> 问答> 正文

如何进行作业管理?

弹性高性能计算E-HPC如何进行作业管理?

展开
收起
小天使爱美 2020-03-23 17:43:17 981 0
1 条回答
写回答
取消 提交回答
  • 弹性高性能计算E-HPC的管理控制台提供了作业相关的创建作业、停止作业、查看作业状态等功能,用户可通过作业管理功能快速创建作业。

    进入作业界面 进入E-HPC管理控制台,点选左侧栏的作业标签,进入如下界面:

    job_list

    上图,显示为已完成的作业列表,用户也可以切换到未完成页面,查看正在进行中的作业列表。

    创建作业 操作步骤 点击作业界面右上角的“创建作业”按钮; 在弹出的界面(如下图所示)中配置需要创建的作业信息。用户也可以通过直接 导入作业配置 文件的方式来配置信息。若用户需要保存该配置信息,可通过 导出作业配置 文件,将作业信息保存在本地。 所有信息配置完之后,点击 “确认” 按钮可将作业提交到集群,开始执行。 submit_job

    作业相关参数说明如下: 作业名:该作业的名称,所设置的作业名将会在作业列表中展示,另外如需自动下载解压作业文件,解压目录也以作业名命名。 作业模板:可选择已配置的作业模板快速创建作业。 用户名/密码:执行该作业使用的用户名和密码,该用户名需要提前在“用户”界面创建。 作业执行命令:向调度器提交的作业执行命令,可以是脚本文件,也可以是一段命令文本。 后处理命令:作业执行完成后的后处理脚本。 启动job array:是否启用调度器的job array功能。 作业优先级: 在提交了多个作业时,对于需要优先执行的作业,用户可通过设置高优先级来优先执行。 调度器队列: 在创建集群时,若计算节点已加入了指定的QUEUE,则需要将作业提交到对应的指定Queue;若没有指定,则需要将作业提交到调度器默认的队列中,否则作业会执行失败。 编辑作业文件:可在线新建,编辑,保存作业文件。当存在多个作业文件时,可通过显示文件列表来进行查看、编辑、删除操作。 文件: 作业要执行的脚本文件名称。为了方便查询区分,请设置时注意名称区别。 使用OSS作业文件:可选择一个已上传到OSS上的作业文件。用户可以将作业执行脚本、作业输入数据文件以及后处理脚本打包为一个压缩包上传到OSS,E-HPC在执行作业时可自动下载。点击”选择文件“按钮,可以打开OSS资源管理器对话框,展示当前区域下的OSS bucket。如果用户事先没有创建OSS bucket,可以点击资源管理器对话框内的”OSS控制台上传“链接,在弹出的OSS控制台界面中创建OSS Bucket。OSS上传流程具体可参考OSS帮助文档。

    注意:使用此功能需先开通OSS服务。

    下载后解压:打开该选项后,E-HPC在执行作业之前会自动解压作业文件包,目前支持zip格式、tar打包以及gzip格式。

    注意: E-HPC会将压缩包解压到当前工作目录(即用户的home目录)下以作业名命名的文件夹中,因此如果要执行压缩包内的脚本,需要加上作业名目录,如图中”作业执行命令”所示。

    标准输出路径/错误输出路径:定义Linux系统的stderr/stdout输出重定向路径,包含输出文件名。 环境变量:运行作业时需要的环境变量,环境变量会输出到作业执行脚本中,可以在脚本内引用。点击“+”号可按名值对的方式配置。 查看作业 点击作业列表右侧的 “详情” 按钮,可以查看到如下的作业详细信息。如果是正在运行中或者排队中的作业,可在作业信息界面右下角停止作业。 job_detail

    停止作业 处于”QUEUE”或“RUNNING”状态的作业可以停止。点击作业详情界面的“停止作业”即可。

    准备工作 在使用命令行提交作业前,请确保:

    已通过用户管理创建了非root用户。 了解登录集群的SSH登录相关操作。 了解如何导入数据,把数据放在当前用户的$HOME目录。 您需要先通过ssh客户端远程登录到集群。

    注意:不推荐使用root帐号进行任何作业提交,避免作业脚本中的误操作导致E-HPC集群数据遭受破坏。

    提交作业 相关约定 以下假定作业相关文件路径为:

    $HOME/test.py # 作业执行程序 $HOME/test.data # 作业相关数据 作业执行命令行为:

    test.py -i test.data 作业调度 E-HPC目前支持多种主流的高性能计算作业调度器:

    PBS pro SLURM SGE(Sun GridEngine) PBS $ cat > test.pbs #!/bin/sh #PBS -l ncpus=4,mem=1gb #PBS -l walltime=00:10:00 #PBS -o test_pbs.log #PBS -j oe cd $HOME test.py -i test.data $ qsub test.pbs PBS作业调度脚本test.pbs解释如下:

    Line3是对作业所需计算资源的预估:需要4个CPU核及1GB内存。 Line4是对作业运行时间的预估:10分钟。 Line5是指定stdout输出文件。 Line6是把stderr和stdout的输出合并到上面指定的输出文件。 Line7~8为作业具体执行命令。 PBS结合算例的使用示例可参考:

    GROMACS(算例2) LAMMPS(PBS提交作业部分) 更详细的使用文档可参考PBS官方的PBS User Guide。

    SLURM $ cat > test.slurm #!/bin/sh #SBATCH --job-name=slurm-quickstart #SBATCH --output=test_slurm.log #SBATCH --nodes=1 #SBATCH --ntasks=1 #SBATCH --cpus-per-task=1 #SBATCH --time=00:10:00 #SBATCH --mem-per-cpu=1024 cd $HOME test.py test.data $ sbatch test.slurm SLURM结合算例的使用示例可参考:

    LAMMPS WRF 更详细的使用文档可参考SLURM官方说明。

    SGE qsub -V -b y -cwd hostname qsub -V jobscript.sh 更详细的使用参考qsub的manual

    弹性高性能计算E-HPC的管理控制台提供了作业模板相关的创建模板、删除模板、编辑模板等功能,用户可通过作业模板管理功能,快速创建作业。

    进入模板界面 进入E-HPC管理控制台,点选左侧栏的模板标签,进入如下界面:image.png | center | 832x277

    创建作业模板 点击界面右上角的“创建作业模板”,在弹出的界面中可填写作业模板信息,具体参数可参考作业管理。

    image.png | center | 832x319点击“保存模板”可保存该模板,同一个区域下最大可保存20个作业模板,作业模板名不能重复。

    编辑作业模板 点击模板管理界面的“编辑”按钮,在弹出的窗口中可以修改作业模板的参数:

    edit_job点击“保存模板”将保存修改后的参数。

    点击“由模板创建作业”将进入创建作业界面需要填写作业名、选择运行作业的集群并填写执行作业的用户密码,点击“创建作业”即可向指定集群提交作业并执行。

    删除作业模板 点击模板管理界面的“删除”按钮,可删除相应作业模板。

    2020-03-23 17:45:50
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
“伏羲”神算 立即下载
低代码开发师(初级)实战教程 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载