本期笔记以曙光超算为例,介绍超级计算机集群的入门使用方法,包括Slurm作业管理、环境配置、资源管理、软件使用、脚本自动化运行等内容,目的是短时间内学会使用超算进行简单实践操作。
为什么要用超算?
生物信息分析的数据量通常比较大,涉及到序列分析、模型计算等高运算量的任务,需要消耗很大的计算资源。
常见个人电脑的处理器只有十几个核心,内存一般也只有32GB,而超算集群可以同时调用几百个CPU核心、TB级运行内存,大大提升计算的效率,原本个人电脑几个月的计算任务,超算短时间内就能完成。
什么是超算?
高性能计算(High Performance Computing,简称HPC),HPC 是一种技术,它使用并行工作的强大处理器集群,处理海量多维数据集(大数据),并以极高的速度解决复杂问题。
在实际应用中,有一些负载(例如 DNA 测序)对于任何一台计算机来说都过于庞大。对此,HPC 或超级计算环境可以使多个节点(计算机)以集群(互联组)的形式协同作业,在短时间内执行海量计算。
怎么使用超算?
在此,以曙光超算为例,根据下方提示可以免费体验90天,申请成功后就可以进行使用(不是打广告)
https://ac.sugon.com/ac/api/auth/loginSsoRedirect.action
基础操作
注册完成,登录后出现如下界面,点击数据管理即可上传或者下载文件,操作和普通云盘类似。点击命令行Eshell即可进入网页版远程连接入口,后续的使用基本也一致。可用资源部分显示了当前配置,体验版最大支持320核心(5个节点,每个节点64个核心)
https://ac.sugon.com/
通过网页即可进行环境部署、任务提交、结果查看等基础操作,也可以下载客户端,功能差不多。
文件传输
点击文件管理,进入如下界面,然后上传原始数据文件和代码脚本,可以提前编写并测试好,然后放在超算运行,生成的结果文件也可以在这里下载。
环境部署
点击进入命令行Eshell后,显示如下界面,该处是login登录节点,不能进行大量计算,在这里进行相关环境搭建和修改。查看工作目录,可以发现文件已经上传成功
软件安装
默认的初始环境下没有conda,因此需要自行下载安装,安装过程如下。安装完成后,会出现如下提示。利用conda安装最新版的R语言,如果需要创建虚拟环境,则在这一步处额外create env,安装镜像选择任意即可。出现下列提示,表示安装正常进行,正在下载所需的扩展软件包,安装完成后即可使用。在命令行界面输入R,能够顺利进入交互式R界面说明安装成功,然后在R语言中安装相关R包。如果某些R包没法从R自带的CRAN安装,可以尝试使用conda安装,一般需要在R包名字前添加‘r-’进行搜索。使用编译安装时,调用R CMD,安装完成后测试是否能够正常加载。
提交任务
每次安装或者运行任务时会占用该登录节点,例如此处的04节点,可以点击旁边的加号,进入一个新的登录节点,这样的话可以同时打开好几个通道,便于操作。如果想要提交计算任务,需要使用特定代码提交到计算节点,通过以下命令可以查看作业情况。
推荐使用网页提交计算任务
假如已经部署好了计算所需的环境,相关软件安装完成,那么就可以开始计算了。打开网站,点击作业提交菜单,然后选择BASH脚本方式,选择好参数进行提交。
- 核心/节点:
表示每个节点占用多少核心,越多算的越快,单节点处理器最大64核心。 - 节点:
节点个数,体验版支持5个节点,总共320核心,响应配备的运行内存在1TB左右。
工作目录
需要把用到的数据文件、代码脚本等文件全部存放在该目录中,后续的所有计算都会基于工作目录。Bash脚本内容可以参考如下设置,第一行代码用于激活环境,第二行切换指定目录,第三行启动conda,最后一行运行R语言脚本,如果需要传递参数可以在此修改,SVM.Rout是运行输出日志。作业提交后无法中途修改代码,智能强制终止或等待其完成。
查看结果
提交任务后会自动运行,查看文件目录,可以发现生成的输出文件。作业详情中可以查看报错等信息,同时会生成日志文件。作业运行完毕后,可以下载并保存相关输出结果,还可以通过快传进行分享。
Notebook
使用Rstudio、vscode、jupyter等应用时,需要创建一个notebook,然后选择相应的配置,开启后就可以用任意设备打开浏览器,访问网址使用软件,非常的方便。而且支持配置的选择,推荐使用。
本次笔记到此结束,欢迎交流~
END
© 素材来源于网络,侵权请联系后台删除
往期推荐: