阿里云研发工程师:HPC优化实例动手实验讲解

简介: 近日,全球领先的云计算厂商阿里云宣布最新HPC优化实例hpc8ae的正式商业化,该实例依托阿里云自研的「飞天+CIPU」架构体系,搭载第四代AMD EPYC处理器,专为高性能计算应用优化,特别适用于计算流体、有限元分析、多物理场模拟等仿真类应用,CAE场景下的性价比最少提升50%。


 

引言:近日,全球领先的云计算厂商阿里云宣布最新HPC优化实例hpc8ae的正式商业化,该实例依托阿里云自研的「飞天+CIPU」架构体系,搭载第四代AMD EPYC处理器,专为高性能计算应用优化,特别适用于计算流体、有限元分析、多物理场模拟等仿真类应用,CAE场景下的性价比最少提升50%。


本文整理自阿里云高性能计算研发工程师曹杭在【HPC优化实例商业化发布会】中的动手实验分享,集中讲解HPC优化实例动手实验Demo细节。


【 单节点的摩托车外流场仿真实验 & 多节点大规模并行的6000万网格风电场模拟实验 demo讲解 】

 

HPC8ae实例性能解读


Hpc8ae优化实例有以下几个特点。


首先它是基于AMD一站式的Zen4 Genoa处理器,基频是3.4GHZ,BOOST3.75GHZ,其次比较重要的是其有内存带宽的增强,适用于仿真HPC应用,比如气候气象、CFD的Fluent等等工业仿真应用。



第三点是其支持云上的eRDMA,支持大规模的并行运行应用的通信需求。最后一点是,这是首次AMD实例支持向量指令集AVX512。上图右侧给出一些细节参数,包括eRDMA 8us时延,实测了浮点峰值3.63GFlops,实测内存带宽,stream带宽603GB/S。


【 HPC应用性能提升表现 】


基于E-HPC的单节点摩托车外流场仿真实验



上述实验我们依然是基于ehpc来做,包括以下几个步骤:


1、使用EHPC集群创建HPC集群;

2、部署OpenFoam环境,使用开源的CFD仿真软件,用其做实验;

3、EHPC-Portal算例前处理演示;

4、提交“作业”进行计算运行;

5、可视化结果。



上图右侧是ehpc界面展示。


以下为【单节点的摩托车外流场仿真实验】详细操作分解:


1首先创建一个集群。大部分选项可以选默认,之后选关键节点,选择从c8ae小规格实例作为管理节点,保存配置。配置计算队列,选高带宽低时延eRDMA网络。可用区切换到M区,实例规格选择HPC8ae优化实例;


2、选择存储。如果有创建可以直接默认,软件部分会有OPEN Foam,后续会添加OPEN Foam环境;登录节点修改成c8ae实例;保存配置,确认配置没有问题后,可以直接设立密码和创建集群。(由于时间关系,我们直接关注已经创建出来的现成集群),扩容时选择HPC8ae实例扩容,此处已经扩容出实例,有6个节点;


3、直接登录上集群。OPEN Foam环境已经部署好;回到控制台,从portal进入,重新登录,进入到submit,提交OPEN Foam作业,已经编排好的摩托车的仿真实验的作业模板;


4、选择作业队列。下面是计算节点和任务数,直接点击提交作业;作业正在RUNNING,也可以从portal进入看到步骤;通过会话管理进到VNC,新建一个会话localhost提交作业;窗口打开了VNC的terminal,因为作业还在运行,先看前处理部分,这是仿生的摩托车模型;


5、等作业运行32个进程。VNC通过调度器命令可以直接看作业运行状态,作业已经结束了,状态可以看到是一个compute状态;回到VNC,再看一下后处理流程。这里用parafoam看一下结果文件;来到paraview界面,查看速度场的变量情况;点击wireframe可以看到仿真速度场结果,这是后处理速度场部分。


到这里,第一个实验,单节点的摩托车外流场仿真实验已经结束,大家可以参照上面的步骤及视频来动手操作。



多节点大规模并行的6000万网格风电场模拟实验


第二个实验,多节点大规模并行的6000万网格风电场模拟实验。和第一个实验操作流程类似,这个模型更大,六千万网格的风电场模拟实验,这一部分主要区别是性能表现。



Demo实验亮点的总结


第一点,单节点性能的大幅领先;第二点,大规模并行HPC集群一键部署与仿真的作业管理支持;第三点,HPC实例+eRDMA,通信低时延高带宽并行效率有明显保证。第四点,E-HPC PORTAL对HPC业务的一站式前后处理支持。


后续OpenFOAm在E-HPC优化实践的实验,HPC的优化实践的实验也会上架到EHPC控制台。后续会直接给出一个集群模板,一键部署OpenFOAm集群例如气候、气象、集群等。

相关文章
|
存储 监控 负载均衡
走向IPv6,阿里巴巴IPv6规模化部署实践
IPv6是互联网升级演进的必然趋势,我国主流APP也正式进入到IPv4和IPv6的双栈时代。本文将从APP及云产品的角度,和大家分享一下我们在这个过程中的经验积累,为进一步推动IPv6规模化部署提供参考。
走向IPv6,阿里巴巴IPv6规模化部署实践
|
数据采集 人工智能 Java
1天消化完Spring全家桶文档!DevDocs:一键深度解析开发文档,自动发现子URL并建立图谱
DevDocs是一款基于智能爬虫技术的开源工具,支持1-5层深度网站结构解析,能将技术文档处理时间从数周缩短至几小时,并提供Markdown/JSON格式输出与AI工具无缝集成。
601 1
1天消化完Spring全家桶文档!DevDocs:一键深度解析开发文档,自动发现子URL并建立图谱
|
人工智能 并行计算 程序员
【AI系统】SIMD & SIMT 与芯片架构
本文深入解析了SIMD(单指令多数据)与SIMT(单指令多线程)的计算本质及其在AI芯片中的应用,特别是NVIDIA CUDA如何实现这两种计算模式。SIMD通过单指令对多个数据进行操作,提高数据并行处理能力;而SIMT则在GPU上实现了多线程并行,每个线程独立执行相同指令,增强了灵活性和性能。文章详细探讨了两者的硬件结构、编程模型及硬件执行模型的区别与联系,为理解现代AI计算架构提供了理论基础。
3854 12
|
前端开发 Unix 测试技术
揭秘!前端大牛们如何高效管理项目,确保按时交付高质量作品!
【10月更文挑战第30天】前端开发项目涉及从需求分析到最终交付的多个环节。本文解答了如何制定合理项目计划、提高团队协作效率、确保代码质量和应对项目风险等问题,帮助你学习前端大牛们的项目管理技巧,确保按时交付高质量的作品。
454 2
echarts中使用散点scatter更改颜色却不生效的问题
本文讨论了在ECharts中使用散点图(scatter)时更改颜色不生效的问题。原因是项目中使用了`visualMap`组件,它具有最高的优先级,导致自定义的颜色设置被覆盖。解决方法是在`visualMap`组件中增加`seriesIndex`属性,指定它只对特定的系列(series)生效,从而避免影响散点图的颜色设置。文章提供了详细的代码示例和解决办法。
595 3
|
前端开发 JavaScript
实现瀑布流的几种方式(效果图)
实现瀑布流的几种方式(效果图)
490 0
|
分布式计算 资源调度 Hadoop
Hadoop执行格式化命令
【7月更文挑战第20天】
576 1
|
机器学习/深度学习 测试技术 网络架构
【YOLOv10改进-注意力机制】MSCAAttention多尺度卷积注意力
YOLOv10专栏介绍了一种新的卷积网络架构SegNeXt,它在语义分割任务中展现出优于Transformer模型的效率和效果。SegNeXt通过名为Multi-Scale Convolutional Attention (MSCA)的组件,结合局部信息聚合、多尺度上下文捕获和通道关系模拟,提升了性能。在多个数据集上,SegNeXt以较少参数实现了超过现有SOTA的性能,特别是在Pascal VOC 2012上,以1/10的参数量达到90.6%的mIoU。YOLOv10引入了MSCA模块,用于增强目标检测的上下文关注。相关代码和配置详情可在链接中找到。
|
算法 网络架构
距离矢量与链路状态路由协议的区别
【8月更文挑战第25天】
1602 0

热门文章

最新文章