开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

请教下机器学习PAI-EAS部署后监控指标可以报警透传到钉钉吗?

"请教下机器学习PAI-EAS部署后监控指标可以报警透传到钉钉吗?
"

展开
收起
真的很搞笑 2023-10-16 21:56:46 76 0
5 条回答
写回答
取消 提交回答
  • 对于问题1,机器学习PAI-EAS部署后,可以通过监控指标报警的方式将报警信息透传到钉钉。您可以通过设置报警规则,将报警信息发送到钉钉。具体的设置步骤可以参考机器学习PAI-EAS的相关文档。

    对于问题2,如果CPU和内存利用率不高,但是RT(响应时间)会出现异常高间断的情况,可能是因为系统的瓶颈在其他方面,例如网络延迟、磁盘I/O、数据库查询等。您可以尝试通过以下方法来排查问题:
    1 检查网络延迟:网络延迟可能会导致系统的响应时间变慢。您可以使用网络监控工具来检查网络延迟,看看是否存在网络延迟的问题。

    1. 检查磁盘I/O:磁盘I/O可能会导致系统的响应时间变慢。您可以使用磁盘监控工具来检查磁盘I/O,看看是否存在磁盘I/O的问题。
    2. 检查数据库查询:数据库查询可能会导致系统的响应时间变慢。您可以使用数据库监控工具来检查数据库查询,看看是否存在数据库查询的问题。
    2023-10-17 14:24:44
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    是的,机器学习PAI-EAS部署后,您可以将监控指标通过报警功能透传到钉钉。您可以通过以下步骤实现:

    1. 在PAI-EAS控制台中,进入报警管理页面,配置报警规则。您需要选择合适的报警阈值和报警方式。
    2. 在报警方式中,选择钉钉报警。您需要输入钉钉群组号或钉钉机器人配置信息。
    3. 配置完成后,您可以启动报警功能,当监控指标达到报警阈值时,报警信息将通过钉钉透传到指定的钉钉群组或钉钉机器人。
    2023-10-17 14:06:52
    赞同 展开评论 打赏
  • 在PAI-EAS的告警管理页面,创建告警规则。
    在告警规则中,设置监控指标的阈值、告警触发条件等参数。
    在告警规则中,选择钉钉作为告警接收方式,填写钉钉群组ID、机器人Webhook地址等参数。
    保存告警规则后,当监控指标达到告警条件时,PAI-EAS会通过Webhook将告警信息发送到钉钉群组。

    2023-10-17 09:57:46
    赞同 展开评论 打赏
  • "监控指标是投递到云监控的,可以参考下云监控那边的文档配置下。

    https://help.aliyun.com/zh/cms/use-cases/enable-an-alert-contact-to-receive-alert-notifications-in-a-dingtalk-group?spm=a2c4g.11174283.0.i1
    ,此回答整理自钉群“机器学习PAI交流群(答疑@值班)”"

    2023-10-17 08:12:45
    赞同 展开评论 打赏
  • 公众号:网络技术联盟站,InfoQ签约作者,阿里云社区签约作者,华为云 云享专家,BOSS直聘 创作王者,腾讯课堂创作领航员,博客+论坛:https://www.wljslmz.cn,工程师导航:https://www.wljslmz.com

    问题1:机器学习PAI-EAS部署后,可以通过配置监控指标报警规则将报警透传到钉钉。您可以按照以下步骤进行配置:

    1. 登录阿里云控制台,选择对应的地域和项目,进入机器学习PAI-EAS的管理页面。

    2. 在左侧导航栏中,选择“监控与报警”或类似选项,进入监控与报警的配置页面。

    3. 在监控与报警页面中,选择“报警规则”或类似选项,并点击“创建报警规则”。

    4. 在创建报警规则页面中,您可以设置触发报警的条件,例如指定的监控指标超过阈值等。同时,您还可以选择报警通知方式为钉钉。

    5. 配置完成后,点击“确定”或类似按钮,保存报警规则。

    这样,当监控指标触发报警条件时,系统将会发送报警通知到您指定的钉钉账号中。

    问题2:CPU利用率和内存利用率不高,但是出现异常高的响应时间(RT)情况可能有多种原因。以下是一些可能导致高间断RT的常见问题和解决方法:

    1. 程序性能问题:检查您的机器学习模型或计算任务代码,确保其没有性能瓶颈或资源使用不当的情况。可以进行代码优化、并行处理或资源调整等操作来提升性能。

    2. 数据处理问题:如果您的任务涉及大量数据的读取、写入或处理,可能会导致RT增加。检查数据处理过程中是否存在瓶颈,例如数据加载、转换或存储等方面。

    3. 资源配置问题:尽管CPU和内存利用率不高,但其他资源可能存在瓶颈,例如网络带宽、硬盘I/O等。确保这些资源没有成为瓶颈,并进行必要的调整和优化。

    4. 并发请求问题:高RT可能是由于同时处理大量请求而造成的。如果系统存在并发请求,可以考虑增加机器学习模型的实例数量或调整负载均衡策略来平衡请求的处理。

    5. 系统配置问题:检查机器学习PAI-EAS的配置是否合理,例如集群大小、资源分配等。根据具体情况可能需要调整配置参数以达到更好的性能和稳定性。

    2023-10-17 08:09:39
    赞同 展开评论 打赏

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

相关产品

  • 人工智能平台 PAI
  • 相关电子书

    更多
    微博机器学习平台架构和实践 立即下载
    机器学习及人机交互实战 立即下载
    大数据与机器学习支撑的个性化大屏 立即下载