阿里云超算集谛优化GPU异构并行性能:GROMACS

本文涉及的产品
轻量应用服务器 2vCPU 4GiB,适用于搭建容器环境
轻量应用服务器 2vCPU 4GiB,适用于搭建Web应用/小程序
轻量应用服务器 2vCPU 4GiB,适用于网站搭建
简介: 阿里云超算集谛优化GPU异构并行性能:GROMACS

作者:慕笛
“集谛”是一款内置于阿里云弹性高性能计算(Elastic High Performance Computing,E-HPC)的云上性能监控与分析引擎,支持集群资源利用情况的实时监控和用户作业运行情况的在线分析。对于采用GPU加速的异构计算应用场景,“集谛”除了监控节点host端资源外还能监控GPU device端的资源利用情况,给出GPU利用率、显存利用率和PCI-E数据传输带宽等性能指标随时间的变化,帮助用户更好得了解应用运行状态,指导应用改进。

分子动力学(Molecular Dynamic,MD)模拟是一种基于经典牛顿力学建立分子结构模型,对分子及分子体系的结构和性质进行研究分析的计算机模拟方法,是人类打开微观运动世界的钥匙。作为高性能计算领域的重要研究方向之一,分子动力学模拟在新材料研制、化学工业模拟、生物医药等多个领域被广泛应用,相关研究成果多次入选美国三大工程奖之一的戈登贝尔奖。分子动力学模拟包含了大量分子间相互作用力的计算,计算过程密集且规整,因此非常适合使用CPU向量运算部件和GPU卡进行加速。目前主流的几款分子动力学模拟软件GROMACS、NAMD、LAMMPS均可以采用GPU卡来加速其核心计算过程。下图给出的使用分子动力学模拟方法后得到的生物大分子构型的演变。
image.png

对GPU资源的充分利用是分子动力学软件获取理想模拟效率的关键。本文以GROMACS为例,使用“集谛”对其运行时性能特征进行多方位展示,分析当前性能瓶颈,从而对软件性能进行优化。

“集谛”GPU性能监控介绍

image.png

节点维度:“集谛”按照用户选取的节点构造出多个坐标平面,每个坐标平面对应展示一个节点的GPU资源利用情况。其中,节点内不同GPU卡的性能数据以时间为横轴展示在同一个坐标平面内。这种节点维度的呈现方式有利于用户对比节点内不同GPU卡间的负载情况。
image.png

指标维度:“集谛”根据用户选取的GPU子设备和性能指标构造出多个坐标平面,每个坐标平面对应展示某一GPU子设备&某一性能指标上不同节点的性能表现,方便用户对比节点间的GPU负载情况。
image.png

“集谛”指导GROMACS性能优化

本文在ecs.gn5实例(8 core,16 vCPU,120GB内存,2 P100)上运行分子动力学软件GROMACS的GPU版本,并使用“集谛”监控软件执行过程中的系统资源利用情况。

节点维度:
image.png

指标维度:
image.png

从上图可以看出:

  1. CPU利用率持续保持在85%以上
  2. GPU利用率在45%到70%之间,并且波动较大
  3. GPU显存利用率在25%左右
  4. GPU设备PCI-E传输带宽基本不超过2GB/s

由此可见,CPU端计算资源接近用满,负载较重;而GPU端计算资源、显存和PCI-E带宽均未达到瓶颈,尚有进一步可用的空间。GROMACS软件本身采用“CPU+GPU”的主从协同计算模式,CPU和GPU任一端的性能瓶颈都会拖慢软件的整体性能。因此为了提升GROMACS的软件执行效率,我们选择将CPU端的PME计算过程进一步offload到GPU端。通过这种方式,我们在减少CPU端计算任务的同时又充分利用了GPU端的计算资源,从而使CPU和GPU两端的计算负载更加均衡。完成该步优化后,我们再次使用“集谛”监控GROMACS执行过程中的系统资源利用情况。

节点维度:
image.png

指标维度:
image.png

从上图可以看出,在将PME计算过程offload到GPU端之后:

  1. CPU利用率降到30%~35%之间
  2. GPU利用率基本稳定在70%以上,并且波动较小
  3. GPU显存利用率提升到50%以上
  4. GPU设备PCI-E传输带宽达到3GB/s以上
  5. 相同任务量下,执行时间降为优化前的50%
    由此可见,对于采用“CPU+GPU”主从加速模式的软件,通过平衡CPU端和GPU端的计算负载,能够大幅提升软件的执行效率。

总结

集谛能够从计算、内存、网络、磁盘、加速卡等方面系统地监控集群资源的利用情况并系统地展示给用户,方便用户进行多方位地对比分析,帮助用户迅速定位性能瓶颈,从而为用户应用程序的改进提供指导。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
目录
相关文章
|
2月前
|
存储 并行计算 调度
迈向可编程观测:在GPU Kernel中构建类eBPF风格的性能探针
本文旨在梳理作者学习路径,带领读者共同探索 GPU Kernel 性能分析从宏观到微观的技术演进。
621 24
迈向可编程观测:在GPU Kernel中构建类eBPF风格的性能探针
|
28天前
|
人工智能 算法 调度
阿里云ACK托管集群Pro版共享GPU调度操作指南
本文介绍在阿里云ACK托管集群Pro版中,如何通过共享GPU调度实现显存与算力的精细化分配,涵盖前提条件、使用限制、节点池配置及任务部署全流程,提升GPU资源利用率,适用于AI训练与推理场景。
182 1
|
1月前
|
人工智能 城市大脑 运维
喜讯!阿里云国产异构GPU云平台技术荣获“2025算力中国·年度重大成果”
2025年8月23日,在工业和信息化部新闻宣传中心、中国信息通信研究院主办的2025中国算力大会上,阿里云与浙江大学联合研发的“国产异构GPU云平台关键技术与系统”荣获「算力中国·年度重大成果」。该评选旨在选拔出算力产业具有全局性突破价值的重大成果,是业内公认的技术创新“风向标”。
214 0
|
3月前
|
存储 机器学习/深度学习 人工智能
GPU云存储性能:加速AI与高性能计算的关键
在人工智能(AI)、机器学习(ML)和高性能计算(HPC)飞速发展的今天,数据存储和处理的效率已成为决定项目成败的关键因素。传统的云存储方案往往无法满足GPU密集型工作负载的需求,而GPU云存储性能的优化正成为企业提升计算效率、降低延迟的核心突破口。本文将深入探讨GPU云存储性能的重要性、关键技术及优化策略,助您在数据驱动的竞争中占据先机。
|
6月前
|
存储 机器学习/深度学习 数据库
阿里云服务器X86/ARM/GPU/裸金属/超算五大架构技术特点、场景适配参考
在云计算技术飞速发展的当下,云计算已经渗透到各个行业,成为企业数字化转型的关键驱动力。选择合适的云服务器架构对于提升业务效率、降低成本至关重要。阿里云提供了多样化的云服务器架构选择,包括X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器以及高性能计算等。本文将深入解析这些架构的特点、优势及适用场景,以供大家了解和选择参考。
1113 61
|
9月前
|
存储 机器学习/深度学习 人工智能
2025年阿里云GPU服务器租用价格、选型策略与应用场景详解
随着AI与高性能计算需求的增长,阿里云提供了多种GPU实例,如NVIDIA V100、A10、T4等,适配不同场景。2025年重点实例中,V100实例GN6v单月3830元起,适合大规模训练;A10实例GN7i单月3213.99元起,适用于混合负载。计费模式有按量付费和包年包月,后者成本更低。针对AI训练、图形渲染及轻量级推理等场景,推荐不同配置以优化成本和性能。阿里云还提供抢占式实例、ESSD云盘等资源优化策略,支持eRDMA网络加速和倚天ARM架构,助力企业在2025年实现智能计算的效率与成本最优平衡。 (该简介为原文内容的高度概括,符合要求的字符限制。)
|
7月前
|
存储 机器学习/深度学习 算法
阿里云X86/ARM/GPU/裸金属/超算等五大服务器架构技术特点、场景适配与选型策略
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别。本文将深入解析这些架构的特点、优势及适用场景,帮助用户更好地根据实际需求做出选择。
|
9月前
|
边缘计算 调度 对象存储
部署DeepSeek但IDC GPU不足,阿里云ACK Edge虚拟节点来帮忙
介绍如何使用ACK Edge与虚拟节点满足DeepSeek部署的弹性需求。
|
9月前
|
机器学习/深度学习 存储 人工智能
2025年阿里云GPU服务器的租赁价格与选型指南
随着AI、深度学习等领域的发展,GPU服务器成为企业及科研机构的核心算力选择。阿里云提供多种GPU实例类型(如NVIDIA V100、A100等),涵盖计算型、共享型和弹性裸金属等,满足不同场景需求。本文详解2025年阿里云GPU服务器的核心配置、价格策略及适用场景,帮助用户优化选型与成本控制,实现高效智能计算。

热门文章

最新文章

相关产品

  • GPU云服务器