弹性高性能计算E-HPC优化器是针对E-HPC集群提供的的性能监控与性能剖析平台,您可以通过E-HPC优化器完成监控集群性能指标、查看集群性能历史记录、分析进程级的性能热点等操作。
说明:若您尚未拥有E-HPC集群,请先创建集群。
进入E-HPC优化器界面 进入E-HPC管理控制台, 单击左侧栏的E-HPC优化器标签,可进入E-HPC优化器界面。
E-HPC优化器主要包含四个主要功能:性能大盘、节点性能、进程性能和性能剖析。
性能大盘 性能大盘界面主要呈现三部分内容:集群基本信息、集群节点性能热力图、操作栏。如下图所示:
metrics_view
顶部是集群名称和集群ID; 左侧是集群基本信息,包含计算节点数量、资源配置信息(CPU、内存容量、GPU数)。 中间是节点性能热力图,颜色越深代表该指标的负载越高。单击节点,该节点将以蓝色边框显示,此时单击节点按钮将直接进入该节点的性能视图。 右侧是操作栏中,单击 节点、进程、剖析 按钮可直接跳转到节点性能、进程性能和性能剖析界面。 右上角设置按钮用于设置大盘展示的性能指标,目前可选择的指标为:CPU使用率、内存使用率、网络使用率、磁盘吞吐率和磁盘使用率,最多可同时选择3个指标展示。 节点性能 节点性能界面可提供用户查询集群下指定节点各项指标的功能。
查询操作方法: 在左侧选择集群与节点(可多选),点击右侧指标选择按钮选择需要显示的节点性能指标(可多选),点击 时间段选择按钮选择需要查询的时间段,E-HPC优化器将会以图表方式呈现指定节点的历史性能信息。
也可以通过单击“选择作业”下拉框,选择之前从E-HPC控制台提交的作业,E-HPC优化器会自动列出作业关联的节点和运行起止时间,以方便查询具体作业的性能信息。然后通过点击右侧指标选择按钮选择需要显示的节点性能指标,点 击 时间段选择按钮选择需要查询的时间段。
nodes_metrics
如上图所展示,为作业3.scheduler下4个计算节点的性能信息,包含CPU使用率、内存使用率、CPU user 三项指标。
其次,除了选择按节点维度展示性能数据外,也是可选择按指标维度展示性能数据。
按节点维度展示:每个子图展示的是一个节点的性能数据,不同的指标显示为不同的曲线; 按指标维度展示时:每个子图展示的是一个指标的性能数据,不同的节点显示为不同的曲线。 进程性能 进程性能界面可提供用户 查询/分析 单个节点的进程级性能数据的功能。
查询操作方法: 在左侧选择集群并指定节点,右侧图表中将会展示出一个时间段内Top 5进程CPU占用率,鼠标移动时会在图表下方显示具体时间点的Top5进程信息。 也可以单击“选择作业”下拉框,选择之前从E-HPC控制台提交的作业,E-HPC优化器会自动列出作业关联的节点和运行起止时间,以方便查询具体作业的进程性能信息。 process_metrics
如上图所展示,是作业1.scheduler,计算节点名为compute0的进程性能数据,可以看到节点正在执行LAMMPS计算任务,进程lmp的CPU占用最高,达到98%以上。本示例中作业脚本选择了2核的配置(select=20:ncpus=2:mpiprocs=2),故而存在两个lmp进程,其CPU占用率总和接近100%。
单击图表后,图表上方将出现5个启动剖析的按钮,分别对应单击时间点的Top5进程ID,然后点击需要启动进程,接着会弹出性能剖析参数设置框,按照自己需要设置就可以,单击确认后启动剖析,E-HPC将在该节点上剖析该进程的函数级运行信息,具体的剖析结果将在性能剖析界面查询显示。 start_metrics
性能剖析 性能剖析界面可提供查询、展示、下载剖析结果的功能。
左侧下拉框选择集群将会自动列出该集群上曾经进行过的剖析记录,每项记录都可展开查看详细信息。单击详细信息内的“查看”按钮,将会显示性能分析的火焰图。可以查看函数级的运行信息,分析性能热点函数,为具体的性能优化提供参考。
result_metrics
上一篇:VNC连接
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。