超算入门使用笔记丨大规模数据分析时电脑配置不够用?试试超级计算机集群

简介: 超算入门使用笔记丨大规模数据分析时电脑配置不够用?试试超级计算机集群

本期笔记以曙光超算为例,介绍超级计算机集群的入门使用方法,包括Slurm作业管理、环境配置、资源管理、软件使用、脚本自动化运行等内容,目的是短时间内学会使用超算进行简单实践操作。

为什么要用超算?

生物信息分析的数据量通常比较大,涉及到序列分析、模型计算等高运算量的任务,需要消耗很大的计算资源。

常见个人电脑的处理器只有十几个核心,内存一般也只有32GB,而超算集群可以同时调用几百个CPU核心、TB级运行内存,大大提升计算的效率,原本个人电脑几个月的计算任务,超算短时间内就能完成。

什么是超算?

高性能计算(High Performance Computing,简称HPC),HPC 是一种技术,它使用并行工作的强大处理器集群,处理海量多维数据集(大数据),并以极高的速度解决复杂问题。

在实际应用中,有一些负载(例如 DNA 测序)对于任何一台计算机来说都过于庞大。对此,HPC 或超级计算环境可以使多个节点(计算机)以集群(互联组)的形式协同作业,在短时间内执行海量计算。

怎么使用超算?

在此,以曙光超算为例,根据下方提示可以免费体验90天,申请成功后就可以进行使用(不是打广告)

https://ac.sugon.com/ac/api/auth/loginSsoRedirect.action

基础操作

注册完成,登录后出现如下界面,点击数据管理即可上传或者下载文件,操作和普通云盘类似。点击命令行Eshell即可进入网页版远程连接入口,后续的使用基本也一致。可用资源部分显示了当前配置,体验版最大支持320核心(5个节点,每个节点64个核心)

https://ac.sugon.com/

通过网页即可进行环境部署、任务提交、结果查看等基础操作,也可以下载客户端,功能差不多。

文件传输

点击文件管理,进入如下界面,然后上传原始数据文件和代码脚本,可以提前编写并测试好,然后放在超算运行,生成的结果文件也可以在这里下载。

环境部署

点击进入命令行Eshell后,显示如下界面,该处是login登录节点,不能进行大量计算,在这里进行相关环境搭建和修改。查看工作目录,可以发现文件已经上传成功

软件安装

默认的初始环境下没有conda,因此需要自行下载安装,安装过程如下。安装完成后,会出现如下提示。利用conda安装最新版的R语言,如果需要创建虚拟环境,则在这一步处额外create env,安装镜像选择任意即可。出现下列提示,表示安装正常进行,正在下载所需的扩展软件包,安装完成后即可使用。在命令行界面输入R,能够顺利进入交互式R界面说明安装成功,然后在R语言中安装相关R包。如果某些R包没法从R自带的CRAN安装,可以尝试使用conda安装,一般需要在R包名字前添加‘r-’进行搜索。使用编译安装时,调用R CMD,安装完成后测试是否能够正常加载。

提交任务

每次安装或者运行任务时会占用该登录节点,例如此处的04节点,可以点击旁边的加号,进入一个新的登录节点,这样的话可以同时打开好几个通道,便于操作。如果想要提交计算任务,需要使用特定代码提交到计算节点,通过以下命令可以查看作业情况。

推荐使用网页提交计算任务

假如已经部署好了计算所需的环境,相关软件安装完成,那么就可以开始计算了。打开网站,点击作业提交菜单,然后选择BASH脚本方式,选择好参数进行提交。

  • 核心/节点:
    表示每个节点占用多少核心,越多算的越快,单节点处理器最大64核心。
  • 节点:
    节点个数,体验版支持5个节点,总共320核心,响应配备的运行内存在1TB左右。

工作目录

需要把用到的数据文件、代码脚本等文件全部存放在该目录中,后续的所有计算都会基于工作目录。Bash脚本内容可以参考如下设置,第一行代码用于激活环境,第二行切换指定目录,第三行启动conda,最后一行运行R语言脚本,如果需要传递参数可以在此修改,SVM.Rout是运行输出日志。作业提交后无法中途修改代码,智能强制终止或等待其完成。

查看结果

提交任务后会自动运行,查看文件目录,可以发现生成的输出文件。作业详情中可以查看报错等信息,同时会生成日志文件。作业运行完毕后,可以下载并保存相关输出结果,还可以通过快传进行分享。

Notebook

使用Rstudio、vscode、jupyter等应用时,需要创建一个notebook,然后选择相应的配置,开启后就可以用任意设备打开浏览器,访问网址使用软件,非常的方便。而且支持配置的选择,推荐使用。


本次笔记到此结束,欢迎交流~

END

© 素材来源于网络,侵权请联系后台删除

往期推荐:

文献丨群体转录组分析锁定关键转录因子

文献丨转录组RNA seq——青年阶段!

笔记丨ggplot2热图入门学习笔记

笔记丨PCA分析基本知识和数学原理

相关文章
|
3月前
|
机器学习/深度学习 数据可视化 数据挖掘
使用Python进行数据分析的入门指南
【8月更文挑战第29天】在数据驱动的时代,掌握数据分析技能变得尤为重要。本文将引导您了解如何使用Python这一强大工具来进行数据分析,从设置开发环境到实际操作案例,逐步深入,帮助您建立起数据分析的基本框架和思维模式。通过阅读本文,您将学会如何利用Python处理、分析和可视化数据,为进一步深入学习奠定坚实的基础。
|
1月前
|
数据可视化 数据挖掘 大数据
Python 数据分析入门:从零开始处理数据集
Python 数据分析入门:从零开始处理数据集
|
1月前
|
机器学习/深度学习 数据采集 算法
探索Python科学计算的边界:NumPy、Pandas与SciPy在大规模数据分析中的高级应用
【10月更文挑战第5天】随着数据科学和机器学习领域的快速发展,处理大规模数据集的能力变得至关重要。Python凭借其强大的生态系统,尤其是NumPy、Pandas和SciPy等库的支持,在这个领域占据了重要地位。本文将深入探讨这些库如何帮助科学家和工程师高效地进行数据分析,并通过实际案例来展示它们的一些高级应用。
49 0
探索Python科学计算的边界:NumPy、Pandas与SciPy在大规模数据分析中的高级应用
|
1月前
|
数据采集 数据可视化 数据挖掘
使用Python进行数据分析:从入门到实践
使用Python进行数据分析:从入门到实践
50 2
|
24天前
|
数据采集 机器学习/深度学习 数据可视化
深入浅出:用Python进行数据分析的入门指南
【10月更文挑战第21天】 在信息爆炸的时代,掌握数据分析技能就像拥有一把钥匙,能够解锁隐藏在庞大数据集背后的秘密。本文将引导你通过Python语言,学习如何从零开始进行数据分析。我们将一起探索数据的收集、处理、分析和可视化等步骤,并最终学会如何利用数据讲故事。无论你是编程新手还是希望提升数据分析能力的专业人士,这篇文章都将为你提供一条清晰的学习路径。
|
1月前
|
机器学习/深度学习 数据可视化 数据挖掘
使用Python进行数据分析的入门指南
【9月更文挑战第33天】本文旨在为初学者提供一个关于使用Python进行数据分析的全面概述。我们将从基本的安装和设置开始,逐步介绍数据处理、数据可视化以及机器学习的基本概念和应用。文章将通过实际代码示例来展示如何使用Python及其相关库来解决常见的数据分析问题。
|
1月前
|
数据挖掘 索引 Python
Python数据分析篇--NumPy--入门
Python数据分析篇--NumPy--入门
33 0
|
1月前
|
机器学习/深度学习 数据采集 数据可视化
Python中的简单数据分析:入门指南
【10月更文挑战第2天】Python中的简单数据分析:入门指南
33 0
|
1月前
|
数据挖掘 大数据 Serverless
Python Polars:为大规模数据分析释放速度和效率
Python Polars:为大规模数据分析释放速度和效率
73 0
|
2月前
|
机器学习/深度学习 数据可视化 数据挖掘
深入浅出:使用Python进行数据分析的入门指南
【9月更文挑战第11天】本文旨在为初学者提供一条清晰的道路,通过Python探索数据科学的奇妙世界。我们将从基础语法讲起,逐步深入到数据处理、可视化以及机器学习等高级话题。文章不仅分享理论知识,还将通过实际代码示例,展示如何应用这些知识解决实际问题。无论你是编程新手,还是希望扩展技能的数据分析师,这篇文章都将是你宝贵的资源。