开发者社区 问答 正文

运维问题:遇到瓶颈的时候,公有云可以通过调用api 直接扩展服务,购买服务吗?

进一步的说, 能提前预警服务将出现瓶颈,并提示运维吗?

展开
收起
安利经销商 2022-01-26 17:03:09 686 分享 版权
阿里云 AI 助理回答

可以实现提前预警服务可能出现的瓶颈并通知运维。根据云消息队列RocketMQ版的故障管理实践,通过设置可观测性指标监控与报警规则,能够有效预警服务异常。具体操作包括:

  1. 配置一级指标报警:将直接影响业务正常运行的无歧义指标设为一级指标,例如,当实例消息收发TPS接近或超过规格限制时,创建报警规则以预警潜在的流控风险。

  2. 监控消费与生产指标

    • 消费端:利用如消息处理延迟时间(ConsumerLagLatencyPerGidTopic)作为监控项,此指标能反映消费链路健康状况,及时发现并预警消费延迟问题。
    • 生产端:关注消息发送成功率(rocketmq_send_cost_time_count),若成功率下降,则表示可能存在发送瓶颈,立即触发预警。
  3. 深入分析二级与三级指标:一旦一级指标报警,迅速查看更详细的二级和三级指标,这些指标能帮助快速定位到问题的具体环节,比如消费者客户端性能瓶颈或服务端资源过载等。

结合智能瓶颈分析与异常根因排查的实践,通过ARMS应用监控服务与全链路监控配置,可以在压测及日常运行中自动识别应用的异常事件和潜在瓶颈,进一步分析其根因,并及时通知运维团队进行干预,从而达到提前预警并提示运维的目的。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答
问答分类:
问答地址: