阿里云超算上气象应用WRF的集谛优化-阿里云开发者社区

开发者社区> 宝惜> 正文

阿里云超算上气象应用WRF的集谛优化

简介: 阿里云超算上气象应用WRF的集谛优化
+关注继续查看

作者:孙相征
弹性高性能计算(E-HPC,https://ehpc.console.aliyun.com/ )基于阿里云基础设施,为用户提供公有云之上的HPC服务。除了提供计算资源环境,E-HPC还提供了很多独立的功能模块,如作业管理、用户管理、集群命令执行等。其中,借助集谛(CloudMetrics)模块,用户可以通过性能大盘查看集群资源的饱和度,从全局监控集群节点的状态;从节点性能,查看节点具体指标的变化曲线和历史数据,并且能够与调度的作业信息相关联;从进程性能,查看具体进程的历史信息,进而确定需要剖析的进程;从性能剖析,获取热点函数分布及其调用栈信息,了解应用内部的执行状态。

WRF(Weather Research and Forecasting)是新一代中尺度预报模式,被气象行业广泛应用的开源数值气象模拟(NWS)软件,随着气象气候计算上云的趋势,WRF需要针对云超算环境进行优化,本文描述了通过集谛分析WRF在云上运行的性能特征,逐步实现性能优化的过程。

运行算例是中国范围天气预测;运行平台为ecs.scch5.16xlarge,32core, 64vCPU, 192GB内存,配有10Gbit/s Ethernet和46Gbit/s RoCE网络。

初始运行监控

借助集谛与集群调度系统相关联、历史信息自动保存的功能,可以直接在调度系统提交作业,待作业完成后随时查看作业运行过程中的运行性能特征,如图1所示。

base_node_cn.jpg
a.按节点分类
base_node_mt.jpg
b.按指标分类
图1 WRF运行时性能特征

从单个节点不同指标变化(图1.a)可以看出,程序有明显的周期性特征,存储带宽会在一段间隔有明显的增大,同时伴随着节点间网络通讯的减少。从本算例,运行共产生7个结果文件,与监控的7次存储带宽高峰相对应,而且结果文件主要是在每小时预测后统一写出,在运行过程中,没有存储带宽的压力。
从节点间网络性能变化(图1.b)看,节点间的网络负载不均衡,从应用逻辑也可以解释,由于天气预测跟地形(陆地、海洋等)相关,或伴随负载动态变化(如云的移动),进程边界交换信息不同,节点间会存在网络通讯不均衡现象。但是,所有节点的网络带宽偏低,由于平台配置两种网络,需要检查是否使用高速RoCE网络。

改用RoCE性能监控

通过查看运行配置,发现MPI通讯为Ethernet,因此需要调整网络配置利用高速的RoCE网络,提交作业再次监控,得到运行特征如图2所示。

net_node_cn.jpg
a.按节点分类
net_node_mt_net.jpg
b.按指标分类
图2 使用RoCE后的WRF运行时性能特征

显然,程序运行使的节点间网络带宽和存储带宽增大,原因在于计算时通讯使用了RoCE网络,可以将Ethernet带宽资源用于存储操作使用。网络通讯带宽由原来的180MB/s、240MB/s提升到320MB/s、450MB/s。
从监控结果发现,节点间的存储带宽极不均衡,仅有compute22节点负载文件操作,难以利用NAS的整体带宽资源。

PNetCDF多节点并行I/O

通过日志分析文件I/O操作耗时比例较高(约25%左右,以某算例为例,并随计算规模变化)。WRF使用NetCDF文件格式,若采用NetCDF classic经典模式,即主进程汇集所有从进程的部分结果数据,再由主进程完成文件写操作,如图3 a),跟之前的网络和存储监控数据相吻合。

pnetcdf_fig_ab.png
图3 NetCDF I/O 方案比较。a) 串行I/O; b)并行I/O。

为了提高运行效率,可采用并行NetCDF I/O的优化方案,即所有节点参与I/O操作,减少I/O操作等待时间,如图3 b)所示。

因此,可以借此PNetCDF方案提升WRF的性能,提交作业再次监控,得到运行特征如图4所示。

pnet_node_cn.jpg
a.按节点分类
pnet_node_mt.jpg
b.按指标分类

图4 使用RoCE+PNetCDF后的WRF运行时性能特征

可以看出,每个节点均有I/O操作相关的指标监控数据,跟PNetCDF的原理相匹配。从监控结果看,每完成一小时预测后的文件操作时间明显减小,性能得到进一步提升。

总结

通过E-HPC集谛 —— 集群运行监控和应用性能分析模块,能够充分了解WRF在运行过程的性能特征,改变了以往仅靠WRF日志输出的时间戳观测程序运行状态。同时,可以以应用的运行性能特征为依据,使用RoCE高速网络和PNetCDF并行I/O的优化策略,逐步提高了WRF的运行效率,最终性能提高加速比达到2.4X,如图5所示。

Speedup.jpg
图5 WRF单小时平均预测时间的性能优化结果

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
自定义LOG投递OSS数据Partition,优化你的计算
数据划分Partition OSS数据存储具有高可靠、低成本等优点,是海量数据存储的最佳选择之一,尤其适用于半结构化的日志存储,并可以结合E-MapReduce(使用Hive、Impala等计算引擎)通过schema-on-read方式加载数据做查询分析。
4024 0
PostgreSQL 11 相似图像搜索插件 imgsmlr 性能测试与优化 1 - 单机单表 (4亿图像)
标签 PostgreSQL , imgsmlr , GiST , 图像特征值 , 小波转换 背景 imgsmlr是PostgreSQL的一款支持以图搜图的插件, https://github.com/postgrespro/imgsmlr 这个插件新增了: 1、几种图像特征值数据类型, 2、图像特征值相似算子, 3、图像特征值相似排序索引支持, 4、图像相似排序的索引(通过扩展GiST索引接口实现)支持, 5、png,gif等图像格式特征值提取函数。
1368 0
免运维,低成本,应用上云新模式 | 阿里云Serverless应用引擎 SAE 邀您公测
您是否遇到过: 资源利用率低,多数服务器CPU平均利用率在10%以下,用户需为大量闲置资源买单。 感知 IaaS 购买和集群运维,人员技能要求高,运维效率低。 想拥抱 Kubernetes、微服务架构来解决业务痛点,但学习曲线陡。
9467 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
10763 0
最好的WordPress搜索引擎优化技巧,你应该完全尝试
最好的WordPress搜索引擎优化技巧,你应该完全尝试 WordPress是创建和管理网站的最大平台之一。它为允许他们创建博客或网站的个人和组织提供免费服务。用户可以随时升级这些服务,且价格合理。
1161 0
PostgreSQL 11 相似图像搜索插件 imgsmlr 性能测试与优化 3 - citus 8机128shard (4亿图像)
标签 PostgreSQL , imgsmlr , GiST , 图像特征值 , 小波转换 , citus 背景 续 《PostgreSQL 11 相似图像搜索插件 imgsmlr 性能测试 1 - 单机单表 (4亿图像)》 《PostgreSQL 11 相似图像搜索插件 imgsmlr 性能...
1049 0
MSSQL-应用案例-日志表设计优化与实现
--- title: MSSQL-应用案例-日志表设计优化与实现 author: 风移 --- # 摘要 这篇文章从日志表问题引入、日志表的共有特性、日志表的设计需求、设计思路以及设计详细实现的角度,阐述了在SQL Server数据库中如何最优化设计日志表来降低系统资源的占用和提高系统吞吐量。 # 问题引入 在平时与客户服务与交流过程中,我们不止一次的被客人问及这样的场景:我们现
1630 0
+关注
宝惜
永不停机的计算服务,苛求品质,坚持创新~为开发者带来技术新体验和价值。
100
文章
6
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载