计算巢服务:接入阿里云Prometheus的配置文档(ISV填写)

简介: 文档目的为了实现在 私有部署 场景下,计算巢ISV服务接入prometheus云产品统一监控,prometheus侧需要ISV提供计算巢服务的相关信息,以便配置监控的指标采集、大盘模板、告警指标模板等。注:当前阶段先实现prometheus配置的人工接入,后续流程和能力完善后,考虑ISV自助化接入。读者对象计算巢ISV的研发/运维人员。ISV提供配置信息ISV服务简述(强制要求)一句话描述该ISV

文档目的

为了实现在 私有部署 场景下,计算巢ISV服务接入prometheus云产品统一监控,prometheus侧需要ISV提供计算巢服务的相关信息,以便配置监控的指标采集、大盘模板、告警指标模板等。

注:当前阶段先实现prometheus配置的人工接入,后续流程和能力完善后,考虑ISV自助化接入。

读者对象

计算巢ISV的研发/运维人员。

ISV提供配置信息

ISV服务简述(强制要求)

一句话描述该ISV服务监控,以便prometheus控制台展示给最终用户。TiDB服务简述示例:

计算巢服务名:TiDB
计算巢服务英文名:TiDB
服务监控描述:全面监测TiDB的TiDBServer、TiKVServer和TiPDServer等指标。

请ISV将“服务监控简述”贴于此处。

prometheus exporter(建议提供)

ISV提供的服务有两类:

  • 服务自身已经暴露prometheus metrics(如TiDB):ISV忽略此步骤要求。
  • 需要独立的prometheus exporter来暴露metrics(如nebula):建议ISV提供或推荐开源exporter,以便prometheus部署该exporter来采集对应ISV服务的metric。如果ISV提供自研的exporter,则要求提供源码和使用说明文档,以便prometheus侧对其进行适配。

请ISV将“自研exporter源代码和使用说明”或“开源exporter链接”贴于此处。

指标采集配置(强制要求)

目前 私有部署 的ISV服务,prometheus侧都采集ECS标签方式来进行prometheus targets的过滤选择(每60秒刷新一次):

  • 服务自身已经暴露metrics:prometheus原生支持ECS标签过滤(但只支持一个标签key/value)。
  • 需要exporter暴露metrics:prometheus侧统一对exporter进行改造,使其支持ECS标签过滤。

故,先请ISV提供其服务的指标采集配置说明,然后prometheus侧研发人员对接确认,最终生成prometheus job配置模板。

请ISV将“指标采集配置”示例或描述 贴于此处。

grafana大盘模板(建议提供)

对于ISV提供的某个服务,如果ISV有成熟的 或 推荐的 grafana监控大盘,则请ISV提供给prometheus产品侧,以便我们直接使用/参考。

如果ISV没有提供grafana大盘,则prometheus侧参考该“ISV服务”的开源grafana大盘,定制对应的大盘。

请ISV将“grafana大盘”导出的json文件贴于此处(如果有多个大盘,则会有多个json文件)。

告警指标模板(强制要求)

请ISV提供对应计算巢服务的告警规则列表,采用标准prometheus alert格式。示例如下:

groups:
- name: test
  rules:
  - alert: 内存使用率过高
    expr: 100-(node_memory_Buffers_bytes+node_memory_Cached_bytes+node_memory_MemFree_bytes)/node_memory_MemTotal_bytes*100 > 90
    for: 30s                     # 告警持续时间,超过这个时间才会发送给alertmanager
    labels:
      severity: warning
    annotations:
      summary: "Instance {
  { $labels.instance }} 内存使用率过高"
      description: "{
  { $labels.instance }} of job {
  {$labels.job}}内存使用率超过80%,当前使用率[{
  { $value }}]."

  - alert: cpu使用率过高
    expr: 100-avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by(instance)*100 > 90
    for: 30s
    labels:
      severity: warning
    annotations:
      summary: "Instance {
  { $labels.instance }} cpu使用率过高"
      description: "{
  { $labels.instance }} of job {
  {$labels.job}}cpu使用率超过80%,当前使用率[{
  { $value }}]."

请ISV将“prometheus告警规则”yaml文件贴于此处(可以多个文件)。

指标列表(建议提供)

请ISV提供对应计算巢服务的prometheus指标列表,格式采集标准prometheus指标规范。示例如下:

# HELP pd_server_info Indicate the pd server info, and the value is the start timestamp (s).
# TYPE pd_server_info gauge

如果ISV服务未提供该指标列表,则prometheus侧将根据实际metric采集的HELP和TYPE来生成指标列表,并会在prometheus控制台界面展示给用户。

请ISV将“prometheus指标HELP和TYPE”的文件贴于此处(可以多个文件)。

特殊要求说明(可选提供)

请ISV将“prometheus监控特殊要求”贴于此处。

相关实践学习
一小时快速掌握 SQL 语法
本实验带您学习SQL的基础语法,快速入门SQL。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
6天前
|
网络架构
【计算巢】企业级路由器配置与故障排除指南
【5月更文挑战第31天】了解企业级路由器配置与故障排除,成为网络专家!配置路由器涉及设定规则,如IP地址、子网掩码、网关,确保参数准确。
|
8天前
|
弹性计算 监控 开发工具
【阿里云弹性计算】阿里云ECS的网络优化实践:VPC配置与网络性能提升
【5月更文挑战第29天】阿里云ECS通过虚拟私有云(VPC)提供高性能、安全的网络环境。VPC允许用户自定义IP地址、路由规则和安全组。配置包括:创建VPC和交换机,设定安全组,然后创建ECS实例并绑定。优化网络性能涉及规划网络拓扑、优化路由、启用网络加速功能(如ENI和EIP)及监控网络性能。示例代码展示了使用Python SDK创建VPC和交换机的过程。
155 3
|
9天前
|
弹性计算 运维 Linux
Docker环境如何配置?使用阿里云OOS一步搞定!
阿里云OOS简化了ECS上应用部署,提供Docker一键安装服务。支持多种操作系统,包括Alibaba Cloud Linux、CentOS、Ubuntu、Debian和Windows Server。要安装Docker,用户只需在OOS扩展程序中选择并确认实例,执行安装。OOS扩展程序还支持Java、Python等开发环境及宝塔面板、WordPress等应用的快速配置,提升运维效率,让云资源管理更便捷。
53398 2
Docker环境如何配置?使用阿里云OOS一步搞定!
|
2天前
|
网络协议 安全 应用服务中间件
阿里云申请免费ssl证书并配置nginx
阿里云申请免费ssl证书并配置nginx
|
2天前
|
网络协议 安全 应用服务中间件
阿里云 网站https设置 sll申请与nginx跳转配置
阿里云 网站https设置 sll申请与nginx跳转配置
|
9天前
|
存储 编解码 弹性计算
租用2核4G、4核8G、8核16G配置阿里云服务器可选实例规格及价格参考
在租用阿里云服务器时,一般计算型实例规格的云服务器处理器与内存配比为1:2,而2核4G、4核8G、8核16G配置就是用户选择较多的配置,这些配置的云服务器一般可用于网站应用、批量计算、视频编码等各种类型和规模的企业级应用,目前在阿里云的活动中经济型e、通用算力型u1、计算型c7、计算型c8y、计算型c7a等实例2核4G、4核8G、8核16G配置有优惠,本文为大家介绍这些配置在阿里云目前的活动中可选的实例规格及具体价格和收费标准情况,以供参考。
租用2核4G、4核8G、8核16G配置阿里云服务器可选实例规格及价格参考
|
14天前
|
存储 安全 大数据
蚂蚁数科MAPPIC密态计算云平台入驻阿里云计算巢,打造云上密态计算服务
蚂蚁数科MAPPIC密态计算云平台入驻阿里云计算巢,打造云上密态计算服务
|
15天前
|
存储 固态存储 安全
租用阿里云服务器2核8G、4核16G、8核32G配置可选实例规格及价格参考
在租用阿里云服务器时,一般通用型实例规格的云服务器处理器与内存配比为1:4,而2核8G、4核16G、8核32G配置就是用户选择较多的配置,这些配置的云服务器一般可用于中小型数据库系统、缓存和各种Web应用,目前在阿里云的活动中经济型e、通用算力型u1、通用型g7、通用型g7a等实例2核8G、4核16G、8核32G配置有优惠,本文为大家介绍这些配置在阿里云目前的活动中可选的实例规格及具体价格和收费标准情况,以供参考。
租用阿里云服务器2核8G、4核16G、8核32G配置可选实例规格及价格参考
|
22天前
|
编解码 Prometheus 运维
Prometheus 的监控方法论
【1月更文挑战第24天】
|
22天前
|
存储 Prometheus 监控
Prometheus vs. ELK Stack:容器监控与日志管理工具的较量
随着容器化技术的广泛应用,容器监控与日志管理成为了关键任务。本文将对两种常用工具进行比较与选择,分别是Prometheus和ELK Stack。Prometheus是一款开源的监控系统,专注于时序数据的收集和告警。而ELK Stack则是一套完整的日志管理解决方案,由Elasticsearch、Logstash和Kibana三个组件组成。通过比较它们的特点、优势和适用场景,读者可以更好地了解如何选择适合自己需求的工具。

相关产品

  • 计算巢服务