计算巢服务:接入阿里云Prometheus的配置文档(ISV填写)

简介: 文档目的为了实现在 私有部署 场景下,计算巢ISV服务接入prometheus云产品统一监控,prometheus侧需要ISV提供计算巢服务的相关信息,以便配置监控的指标采集、大盘模板、告警指标模板等。注:当前阶段先实现prometheus配置的人工接入,后续流程和能力完善后,考虑ISV自助化接入。读者对象计算巢ISV的研发/运维人员。ISV提供配置信息ISV服务简述(强制要求)一句话描述该ISV

文档目的

为了实现在 私有部署 场景下,计算巢ISV服务接入prometheus云产品统一监控,prometheus侧需要ISV提供计算巢服务的相关信息,以便配置监控的指标采集、大盘模板、告警指标模板等。

注:当前阶段先实现prometheus配置的人工接入,后续流程和能力完善后,考虑ISV自助化接入。

读者对象

计算巢ISV的研发/运维人员。

ISV提供配置信息

ISV服务简述(强制要求)

一句话描述该ISV服务监控,以便prometheus控制台展示给最终用户。TiDB服务简述示例:

计算巢服务名:TiDB
计算巢服务英文名:TiDB
服务监控描述:全面监测TiDB的TiDBServer、TiKVServer和TiPDServer等指标。

请ISV将“服务监控简述”贴于此处。

prometheus exporter(建议提供)

ISV提供的服务有两类:

  • 服务自身已经暴露prometheus metrics(如TiDB):ISV忽略此步骤要求。
  • 需要独立的prometheus exporter来暴露metrics(如nebula):建议ISV提供或推荐开源exporter,以便prometheus部署该exporter来采集对应ISV服务的metric。如果ISV提供自研的exporter,则要求提供源码和使用说明文档,以便prometheus侧对其进行适配。

请ISV将“自研exporter源代码和使用说明”或“开源exporter链接”贴于此处。

指标采集配置(强制要求)

目前 私有部署 的ISV服务,prometheus侧都采集ECS标签方式来进行prometheus targets的过滤选择(每60秒刷新一次):

  • 服务自身已经暴露metrics:prometheus原生支持ECS标签过滤(但只支持一个标签key/value)。
  • 需要exporter暴露metrics:prometheus侧统一对exporter进行改造,使其支持ECS标签过滤。

故,先请ISV提供其服务的指标采集配置说明,然后prometheus侧研发人员对接确认,最终生成prometheus job配置模板。

请ISV将“指标采集配置”示例或描述 贴于此处。

grafana大盘模板(建议提供)

对于ISV提供的某个服务,如果ISV有成熟的 或 推荐的 grafana监控大盘,则请ISV提供给prometheus产品侧,以便我们直接使用/参考。

如果ISV没有提供grafana大盘,则prometheus侧参考该“ISV服务”的开源grafana大盘,定制对应的大盘。

请ISV将“grafana大盘”导出的json文件贴于此处(如果有多个大盘,则会有多个json文件)。

告警指标模板(强制要求)

请ISV提供对应计算巢服务的告警规则列表,采用标准prometheus alert格式。示例如下:

groups:
- name: test
  rules:
  - alert: 内存使用率过高
    expr: 100-(node_memory_Buffers_bytes+node_memory_Cached_bytes+node_memory_MemFree_bytes)/node_memory_MemTotal_bytes*100 > 90
    for: 30s                     # 告警持续时间,超过这个时间才会发送给alertmanager
    labels:
      severity: warning
    annotations:
      summary: "Instance {{ $labels.instance }} 内存使用率过高"
      description: "{{ $labels.instance }} of job {{$labels.job}}内存使用率超过80%,当前使用率[{{ $value }}]."

  - alert: cpu使用率过高
    expr: 100-avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by(instance)*100 > 90
    for: 30s
    labels:
      severity: warning
    annotations:
      summary: "Instance {{ $labels.instance }} cpu使用率过高"
      description: "{{ $labels.instance }} of job {{$labels.job}}cpu使用率超过80%,当前使用率[{{ $value }}]."

请ISV将“prometheus告警规则”yaml文件贴于此处(可以多个文件)。

指标列表(建议提供)

请ISV提供对应计算巢服务的prometheus指标列表,格式采集标准prometheus指标规范。示例如下:

# HELP pd_server_info Indicate the pd server info, and the value is the start timestamp (s).
# TYPE pd_server_info gauge

如果ISV服务未提供该指标列表,则prometheus侧将根据实际metric采集的HELP和TYPE来生成指标列表,并会在prometheus控制台界面展示给用户。

请ISV将“prometheus指标HELP和TYPE”的文件贴于此处(可以多个文件)。

特殊要求说明(可选提供)

请ISV将“prometheus监控特殊要求”贴于此处。

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
5月前
|
Prometheus 监控 Cloud Native
【监控】prometheus传统环境监控告警常用配置
【监控】prometheus传统环境监控告警常用配置
【监控】prometheus传统环境监控告警常用配置
|
2月前
|
存储 Prometheus 运维
在云原生环境中,阿里云ARMS与Prometheus的集成提供了强大的应用实时监控解决方案
在云原生环境中,阿里云ARMS与Prometheus的集成提供了强大的应用实时监控解决方案。该集成结合了ARMS的基础设施监控能力和Prometheus的灵活配置及社区支持,实现了全面、精准的系统状态、性能和错误监控,提升了应用的稳定性和管理效率。通过统一的数据视图和高级查询功能,帮助企业有效应对云原生挑战,促进业务的持续发展。
45 3
|
2月前
|
Prometheus Kubernetes Cloud Native
Prometheus的告警配置
【10月更文挑战第31天】Prometheus的告警配置
51 1
|
6月前
|
弹性计算 Prometheus 监控
从自建开源 Prometheus 迁移到阿里云托管 Prometheus 服务
阿里云可观测监控 Prometheus 版提供高性能、高可用、全托管的监控服务,对接开源生态,支持 Kubernetes、ECS 等场景,解决了自建 Prometheus+Thanos 高成本、运维复杂的问题。本文讨论在各个典型场景下的迁移方案。
12069 74
|
8月前
|
网络架构
【计算巢】企业级路由器配置与故障排除指南
【5月更文挑战第31天】了解企业级路由器配置与故障排除,成为网络专家!配置路由器涉及设定规则,如IP地址、子网掩码、网关,确保参数准确。
66 0
|
4月前
|
存储 Prometheus 监控
在Ubuntu系统上安装与配置Prometheus的步骤
通过以上步骤,您应该已经成功在Ubuntu系统上安装并配置了Prometheus。您现在可以开始使用Prometheus收集和分析您的系统和应用程序的指标数据了。
253 1
|
5月前
|
Prometheus 监控 Cloud Native
prometheus学习笔记之Grafana安装与配置
prometheus学习笔记之Grafana安装与配置
|
5月前
|
数据采集 弹性计算 Prometheus
重磅升级!从自建Prometheus到阿里云托管:无缝迁移,监控能力全面飞跃
【8月更文挑战第2天】如何从自建开源 Prometheus 迁移到阿里云托管 Prometheus 服务
107 2
|
5月前
|
存储 Prometheus 监控
Prometheus 的报警机制:Alertmanager 的配置与使用
【8月更文第29天】Prometheus 是一个非常强大的监控系统,它不仅能够收集和存储时间序列数据,还能通过 Alertmanager 提供灵活的报警机制。Alertmanager 负责接收 Prometheus 发送的警报,并根据配置的规则执行相应的通知动作。本文将详细介绍如何配置 Alertmanager 以及如何使用它来实现基于 Prometheus 指标的报警通知。
970 0
|
5月前
|
存储 Prometheus Cloud Native
[prometheus]配置alertmanager和钉钉告警
[prometheus]配置alertmanager和钉钉告警
236 0

相关产品

  • 计算巢服务