"请教下机器学习PAI-EAS部署后监控指标可以报警透传到钉钉吗?
"
对于问题1,机器学习PAI-EAS部署后,可以通过监控指标报警的方式将报警信息透传到钉钉。您可以通过设置报警规则,将报警信息发送到钉钉。具体的设置步骤可以参考机器学习PAI-EAS的相关文档。
对于问题2,如果CPU和内存利用率不高,但是RT(响应时间)会出现异常高间断的情况,可能是因为系统的瓶颈在其他方面,例如网络延迟、磁盘I/O、数据库查询等。您可以尝试通过以下方法来排查问题:
1 检查网络延迟:网络延迟可能会导致系统的响应时间变慢。您可以使用网络监控工具来检查网络延迟,看看是否存在网络延迟的问题。
是的,机器学习PAI-EAS部署后,您可以将监控指标通过报警功能透传到钉钉。您可以通过以下步骤实现:
在PAI-EAS的告警管理页面,创建告警规则。
在告警规则中,设置监控指标的阈值、告警触发条件等参数。
在告警规则中,选择钉钉作为告警接收方式,填写钉钉群组ID、机器人Webhook地址等参数。
保存告警规则后,当监控指标达到告警条件时,PAI-EAS会通过Webhook将告警信息发送到钉钉群组。
"监控指标是投递到云监控的,可以参考下云监控那边的文档配置下。
https://help.aliyun.com/zh/cms/use-cases/enable-an-alert-contact-to-receive-alert-notifications-in-a-dingtalk-group?spm=a2c4g.11174283.0.i1
,此回答整理自钉群“机器学习PAI交流群(答疑@值班)”"
问题1:机器学习PAI-EAS部署后,可以通过配置监控指标报警规则将报警透传到钉钉。您可以按照以下步骤进行配置:
登录阿里云控制台,选择对应的地域和项目,进入机器学习PAI-EAS的管理页面。
在左侧导航栏中,选择“监控与报警”或类似选项,进入监控与报警的配置页面。
在监控与报警页面中,选择“报警规则”或类似选项,并点击“创建报警规则”。
在创建报警规则页面中,您可以设置触发报警的条件,例如指定的监控指标超过阈值等。同时,您还可以选择报警通知方式为钉钉。
配置完成后,点击“确定”或类似按钮,保存报警规则。
这样,当监控指标触发报警条件时,系统将会发送报警通知到您指定的钉钉账号中。
问题2:CPU利用率和内存利用率不高,但是出现异常高的响应时间(RT)情况可能有多种原因。以下是一些可能导致高间断RT的常见问题和解决方法:
程序性能问题:检查您的机器学习模型或计算任务代码,确保其没有性能瓶颈或资源使用不当的情况。可以进行代码优化、并行处理或资源调整等操作来提升性能。
数据处理问题:如果您的任务涉及大量数据的读取、写入或处理,可能会导致RT增加。检查数据处理过程中是否存在瓶颈,例如数据加载、转换或存储等方面。
资源配置问题:尽管CPU和内存利用率不高,但其他资源可能存在瓶颈,例如网络带宽、硬盘I/O等。确保这些资源没有成为瓶颈,并进行必要的调整和优化。
并发请求问题:高RT可能是由于同时处理大量请求而造成的。如果系统存在并发请求,可以考虑增加机器学习模型的实例数量或调整负载均衡策略来平衡请求的处理。
系统配置问题:检查机器学习PAI-EAS的配置是否合理,例如集群大小、资源分配等。根据具体情况可能需要调整配置参数以达到更好的性能和稳定性。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。