高性能、高可用、免运维-云原生Prometheus方案与实践

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: SLS(阿里云日志服务)一直致力于发展成一个DevOps的数据中台,为用户提供丰富的机器数据接入、存储、分析、可视化等能力。本文主要介绍SLS如何支持Prometheus的方案,为大家提供云原生的高性能、高可用、免运维的Prometheus引擎。

Prometheus-云原生监控的事实标准


近年来,云原生技术在全球的发展与普及可谓是开花结果、五彩缤纷,其背后的强力支撑是目前IT领域最具影响力之一的CNCF(Cloud Native Computing Foundation)。CNCF作为Linux Foundation下的非盈利组织,管理着数十个和云原生相关的Project,其中最大名鼎鼎的当属K8s(Kubernetes),这一容器编排领域的事实标准。


而Prometheus则是CNCF下第二个毕业的项目,也是CNCF除Kubernetes外最火爆的项目。可以毫不夸张的说,Prometheus已经成为了云原生领域监控的事实标准,如果说开启云原生的第一步是拥有一个Kubernetes环境,那Prometheus就是云原生下监控的第一步。


image.png


当你在K8s中部署了几个应用后,便会发现需要去查看集群以及应用的运行状态,然而在虚拟机环境下的一些监控方式已经不再适用,在进行一番详细的调研之后,你会发现Prometheus是最佳之选:

  1. Prometheus非常容易部署,尤其在Kubernetes下,部署了Prometheus Operator后,只需要几个yaml就可以把Prometheus和监控项配置好,配合grafana以及上面丰富的Prometheus模板,监控大盘一步到位。
  2. Prometheus的服务发现机制非常丰富,尤其是对Kubernetes的支持,采集Pod指标只需声明一个简单的annotation即可。
  3. Prometheus的Exporter几乎覆盖了所有的开源软件系统,而很多商业软件和系统也都支持Prometheus的Exporter,例如阿里云的云监控也提供了Prometheus Exporter
  4. 当你想在应用中暴露指标时,你会发现Prometheus提供了几乎所有语言的SDK,而这些SDK设计是如此的优雅、暴露Metrics是如此的方便。
  5. 作为CNCF下的Project,完全开源,不用担心过两年软件没人维护。
  6. 当你开始研究Kubernetes代码时,你会发现Kubernetes所有的组件都会暴露出Prometheus的metrics,监控Kubernetes完全离不开Prometheus。

Prometheus在生产环境的那些痛


当我们刚开始把测试环境的应用以及相关监控手段部署到线上集群时,一切都是那么地的顺利,应用平稳的运行、相关监控也都非常正常。而当生产环境部署的应用越来越多,访问压力逐渐增加时,我们才会逐渐意识到Prometheus的一些痛点:

  1. 内存占用:由于Prometheus会把近两小时所有的数据缓存在内存中,当Pod数越来越多,系统中的Metric会越来越多,最终可能会触发OOM。有些情况下100个节点的集群,需要专门用一台64GB内存来运行Prometheus。
  2. 异常恢复问题:Prometheus使用binlog的方式将实时写入的数据持久化,在crash的时候会重新回放binlog来恢复。但由于数据在内存中保存2小时,一次恢复的时间可能很长,而一旦是因为OOM问题重启,Prometheus将无限重启下去。
  3. 存储时长:这是Prometheus被吐槽最多的点: long term storage (LTS),默认Prometheus最多支持15天的存储,虽然可以调整启动参数来设置更长时间,但受限于单机限制,还是无法实现长期存储。
  4. 单机问题:Prometheus是单机应用,无论是数据抓取、存储、计算都只能单点执行,几乎无法适应大规模的集群。为此社区提供了很多分布式的解决方案,例如cortexthanosm3db等。
  5. AIOps相关:Prometheus中的指标监控还是属于传统的Metric监控手段,PromQL也主要是一些算数类运算,并不支持时序类的AI算法,例如:预测、异常检测、变点检测、折点检测、多周期估计算法等。


image.png

SLS 与云原生相遇


SLS(阿里云日志服务)一直致力于发展成一个DevOps的数据中台,为用户提供丰富的机器数据接入、存储、分析、可视化等能力。让广大用户能够尽可能便捷地、一站式的完成DevOps场景中的数据相关工作,快速构建企业自身的可观察性平台。




image.png


目前SLS提供了非常丰富的数据接入手段,也支持了非常多和云原生可观察性相关的数据接入,上图展示的是SLS支持接入的CNCF landscape上的Project,其中Monitoring、Logging和Tracing均支持CNCF官方毕业的Project(Prometheus、Fluentd、Jaeger)。使用SLS存储Prometheus监控数据主要的诉求有:

  1. SLS的数据支持永久保存,很多用户希望把Prometheus的关键指标的长期保存在SLS中。
  2. 现在很多用户都已经把日志、Trace数据存储在SLS上,希望把Prometheus的数据也放在SLS,实现一体化的可观察性数据方案,减少运维负担。
  3. 目前SLS已经提供了很多和Metric相关的AIOps算法,例如多周期估算、预测、异常检测、时序分类等,客户希望也能对Prometheus的数据进行更加智能的使用。
  4. SLS本身也支持数据管道的模型,Prometheus的指标通过对接下游的流计算可以获得更加快速的报警能力,同时也可以对接数仓进行离线的统计分析。

SLS的Prometheus支持方案

SLS的MetricStore原生提供了对PromQL的支持,所有的数据通过Shard的方式分散在多台机器分布式存储,计算层集成Prometheus的QueryEngine模块,实现存储计算分离,轻松应对超大规模数据压力。
image.png
相比社区提供的Prometheus分布式扩展方式(cortexthanosm3dbFiloDBVictoriaMetrics),SLS的分布式实现方案更加彻底,也更加贴近社区解决原生Prometheus使用限制的目标:

  1. 兼容性:SLS的实现直接复用Prometheus代码且无任何修改,可实时跟上官方更新;
  2. 全局视图:SLS是SaaS化的服务,支持多租户多实例,因此可以将多个集群的数据写入到同一实例中用来展示全局视图;
  3. 长期存储:SLS的数据支持TTL概念,支持永久存储;
  4. 高可用:每个实例内包含多个Shard,不同的Shard会分配在不同的机器上,即使部分Shard所在机器宕机也不影响整体写入;同时每个Shard的数据在pangu上3副本存储,保证单Shard的可靠性。


除了能够支持社区的这些需求外,SLS可以为Prometheus附加更多的优势:

  1. 更大的存储:SLS是完全云化的服务,对于每个用户来讲,我们提供的存储空间都是无限大。
  2. 更低的成本:  从人力成本上看,SLS的Prometheus接入方式无需自己运维Prometheus实例;从使用角度看,SLS MetricStore使用按量计费的模式,无需单独购买机器、磁盘用于数据计算和存储。
  3. 更快的速度:SLS存储计算分离架构充分发挥集群能力,尤其在大量数据下端对端的速度提升显著。
  4. 更智能的算法:SLS提供的和Metric相关的AIOps算法都可以套用在Prometheus接入的数据上,例如多周期估算、预测、异常检测、时序分类等,为Prometheus附加AI的力量。
  5. 更全的生态:利用SLS上下游生态打通的能力,可以将Prometheus的指标对接流计算来获得更加快速的报警能力、对接数仓进行离线的统计分析、对接OSS进行归档存储等。
  6. 更好的支持:可观察性根本上还需要彻底打通Metrics、Logging、Tracing,SLS致力于打造Open Telemetry统一的存储平台,为各种智能的数据应用做好基础数据底盘。

云原生Kubernetes监控

Prometheus作为面向云原生的监控软件,原生对Kubernetes提供了友好的支持。而且在Kubernetes中,几乎所有的组件都提供了Prometheus的指标接口,因此Prometheus基本成为Kubernetes监控的实施标准。下面将为大家介绍如何部署Kubernetes的Prometheus监控并使用SLS的MetricStore作为存储后端。

前提条件

  1. 拥有一个Kubernetes集群,集群版本在1.10以上。
  2. 在SLS创建一个MetricStore,创建方式可参考:MetricStore

自建Kubernetes安装方式

自建Kubernetes推荐以注册集群的方式接入到阿里云,注册好后可以直接按照下述阿里云Kubernetes安装方式来安装。
若您不使用注册集群方式,可参考官方Helm安装包来安装,安装前需要创建保密字典并调整默认配置,具体可参考下述阿里云Kubernetes安装方式。

阿里云Kubernetes安装方式

如果您使用阿里云Kubernetes,可直接在应用目录中安装并配置Prometheus将数据存储到SLS。配置方式如下:

1 创建保密字典

  • 打开容器服务Kubernetes控制台
  • 在左侧标签栏选择"命名空间",创建一个名为 monitoring 的命名空间。
  • 在左侧标签栏选择"应用配置"-"保密字典",选择新创建的 monitoring 命名空间(若没有请强制刷新整个页面)。
  • 点击"创建"开始创建保密字典,名称填写为 sls-ak ,增加两个键值对 usernamepassword,分别填写为您的阿里云AccessKeyId和AccessKeySecret,请使用子账号并只授予日志服务写权限,授权可参考:授予指定Project的写入权限

image.png

2 创建PrometheusOperator

  1. 打开容器服务Kubernetes控制台
  2. 在左侧标签栏选择"市场"-"应用目录"
  3. 在"应用目录"中点击"ack-prometheus-operator"
  4. 在弹出的安装页面中,点击"参数"标签栏,修改其中的配置项,主要修改的内容有:

    1. 调整 prometheusSpec 下的 retention ,建议改成 1d 或者 12h
    2. prometheusSpec 下的 enable 设置为true,并增加 remoteWrite 配置(注意修改URL参数):
      remoteWrite:
      - basicAuth:
          username:
            name: sls-ak
            key: username
          password:
            name: sls-ak
            key: password
        queueConfig:
          batchSendDeadline: 20s
          maxBackoff: 5s
          maxRetries: 10
          minBackoff: 100ms
        ### url 为 https://{sls-enpoint}/prometheus/{project}/{metricstore}/api/v1/write
        ### 其中 sls-endpoint可参考 https://help.aliyun.com/document_detail/29008.html
        ###      project、metricstore替换为您对应的project和metricstore
        url: https://cn-beijing.log.aliyuncs.com/prometheus/sls-zc-test-bj-b/prometheus-raw/api/v1/write

多样化时序数据查询分析

image.png
SLS针对时序数据提供三种模式,整体上以SQL为主,辅助让SQL支持调用PromQL使简化的语法和强大的功能可以兼得;同时也支持直接调用PromQL,以支持开源生态,例如被grafana集成:

1. 纯PromQL查询

在实现metrics store的时候,我们就支持了prometheus remote write协议写入,也支持调用prometheus api用PromQL查询,这样也可以直接作为grafana的数据源以兼容开源生态。如果用户的数据是prometheus写入的,那这是最合适的。
 

2. 纯SQL查询

因为metrics store本身复用了sls的底层架构,因此他天生就是可以用SQL去查询的,比如上面长长的SQL就是用纯SQL查询的,纯SQL查询还需要做很多优化,才能比较轻松的处理时序数据,这需要长时间的投入,所以我们还有第三种方案:
 

3. SQL+PromQL混合查询

我们把PromQL封装成几个函数,并可以将其作为子查询,支持在外层嵌套完整的SQL,举个栗子:
纯PromQL查询:

SELECT promql_query('up') FROM metrics
SELECT promql_query_range('up', '1m') FROM metrics


PromQL作为子查询:**

SELECT sum(value) FROM (SELECT promql_query('up') FROM metrics)


PromQL作为子查询,复杂SQL:**

select ts_predicate_arma(time, value, 5, 1, 1 , 1, 1, true) from ( SELECT (time/1000) as time, value   from ( select  promql_query_range('1 - avg(irate(node_cpu_seconds_total{instance=~".*",mode="idle"}[10m]))', '10m') as t from metrics ) order by time asc ) limit 10000

 
目前支持了PromQL中最常用的API: query(varchar)query_range(varchar,varchar?)labels()label_values(varchar)series(varchar)


其中query_range不填第二个参数时也支持自动的step。

多种可视化支持

在SLS上访问Prometheus数据

SLS默认为时序场景提供了多种可视化方式,支持使用标准的SQL以及PromQL+SQL的方式进行分析,关于SLS可视化的文章,可以参考《日志服务可视化-专属你的炫酷仪表盘
image.png

使用Grafana访问Prometheus数据

除了支持原生的SLS可视化方式外,我们还支持直接使用Grafana访问时序数据,可直接将SLS作为Grafana的Prometheus数据源进行接入,兼容所有的Prometheus大盘模板。
image.png
和Prometheus无鉴权的方式不同,SLS提供的Prometheus接口支持HTTPS协议,且需要进行BasicAuth鉴权,数据更加安全。

  • 注意:一定要使用HTTPS。
信息 说明 示例
访问入口(Endpoint) https://endpoint/prometheus/{project-name}/{logstore-name} https://cn-beijing.log.aliyuncs.com/prometheus/sls-prometheus-test/prometheus
BasicAuth username 为AK ID,password为 AK Secret。建议使用子账号AK,授予该project、logstore只读权限即可
  1. 添加datasource, 选择Prometheus:

image.png

  1. 配置URL:

image.png
请填写上述URL

  1. 开启Basic Auth, 并填写ak信息

image.png

信息 说明 示例
访问入口(URL) https://{endpoint}/prometheus/{project-name}/{metricstore-name}
其中endpoint为SLS对应Region的访问域名:具体请参考访问入口
https://cn-beijing.log.aliyuncs.com/prometheus/sls-prometheus-test/prometheus
BasicAuth username 为AK ID,password为 AK Secret。建议使用子账号AK,授予该project、metricstore只读权限即可
目录
相关文章
|
1月前
|
缓存 Java API
【云原生】Spring Cloud Gateway的底层原理与实践方法探究
【云原生】Spring Cloud Gateway的底层原理与实践方法探究
|
3月前
|
存储 SQL Cloud Native
深入了解云原生数据库CockroachDB的概念与实践
作为一种全球领先的分布式SQL数据库,CockroachDB以其高可用性、强一致性和灵活性等特点备受关注。本文将深入探讨CockroachDB的概念、设计思想以及实践应用,并结合实例演示其在云原生环境下的优越表现。
|
3月前
|
Cloud Native 关系型数据库 大数据
CockroachDB:云原生数据库的新概念与实践
本文将介绍CockroachDB,一种先进的云原生数据库,它具备分布式、强一致性和高可用性等特点。我们将探讨CockroachDB的基本原理、架构设计以及在实际应用中的种种优势和挑战。
|
25天前
|
运维 监控 持续交付
构建高效自动化运维体系:策略与实践
在数字化时代,企业IT基础设施的管理和维护变得日益复杂。为了提高效率、降低错误率并快速响应市场变化,构建一个高效的自动化运维体系至关重要。本文将探讨自动化运维的核心策略,并通过实际案例分析展示如何将这些策略应用于日常管理中,以实现IT运维的优化。
15 0
|
28天前
|
Cloud Native 安全 持续交付
构建未来:云原生架构的演进与实践
【2月更文挑战第30天】 随着数字化转型的深入,企业对于信息技术的需求日益复杂化和动态化。传统的IT架构已难以满足快速迭代、灵活扩展及成本效率的双重要求。云原生技术作为解决这一矛盾的关键途径,通过容器化、微服务、持续集成/持续部署(CI/CD)等手段,实现了应用的快速开发、部署及运维。本文将探讨云原生架构的最新发展,分析其如何助力企业构建更加灵活、高效的业务系统,并结合实际案例,展示云原生转型过程中的最佳实践和面临的挑战。
|
3天前
|
运维 Kubernetes Devops
构建高效自动化运维体系:DevOps与容器技术融合实践
【4月更文挑战第15天】 在当今快速发展的信息技术时代,传统的IT运维模式已难以满足业务敏捷性的需求。本文旨在探讨如何通过整合DevOps理念和容器技术来构建一个高效的自动化运维体系。文章将详细阐述DevOps的核心原则、容器技术的基础知识,以及两者结合的优势。此外,文中还将分享一系列实践经验,包括持续集成/持续部署(CI/CD)流程的搭建、微服务架构的应用,以及监控和日志管理策略的优化,以期帮助企业实现快速、可靠且安全的软件交付过程。
|
5天前
|
Kubernetes 监控 Cloud Native
构建高效云原生应用:基于Kubernetes的微服务治理实践
【4月更文挑战第13天】 在当今数字化转型的浪潮中,企业纷纷将目光投向了云原生技术以支持其业务敏捷性和可扩展性。本文深入探讨了利用Kubernetes作为容器编排平台,实现微服务架构的有效治理,旨在为开发者和运维团队提供一套优化策略,以确保云原生应用的高性能和稳定性。通过分析微服务设计原则、Kubernetes的核心组件以及实际案例,本文揭示了在多变的业务需求下,如何确保系统的高可用性、弹性和安全性。
11 4
|
10天前
|
运维 监控 Kubernetes
构建高效自动化运维体系的实践与思考
【4月更文挑战第8天】在数字化时代,IT基础设施的复杂性日益增加,传统的手工运维模式已经难以满足快速响应和高效率的需求。本文将探讨如何通过自动化工具和策略构建一个高效的自动化运维体系,旨在提高系统的稳定性、减少人为错误以及优化资源分配。文章首先分析了自动化运维的必要性,接着介绍了实现自动化的关键技术和工具,并通过案例分析展示自动化运维体系的实际效果。最后,对自动化运维的未来发展趋势进行了展望。
|
22天前
|
运维 监控 数据可视化
现代化运维管理系统的关键特性及实践应用
随着信息技术的迅猛发展,现代企业对于运维管理系统的需求日益增长。本文将探讨现代化运维管理系统的关键特性,以及在实际应用中的重要性和优势所在,帮助企业更好地理解和应用现代化运维管理系统。
13 2
|
26天前
|
运维 监控 Devops
构建高效自动化运维体系:基于容器技术的持续集成与持续部署实践
在数字化转型的浪潮中,企业的IT基础设施和软件交付模式正经历着深刻的变革。传统的运维方式已难以满足快速迭代、灵活扩展的现代业务需求。本文将探讨如何通过容器技术实现高效的自动化运维体系,重点分析持续集成(CI)与持续部署(CD)的实践方法及其对企业运维效率的影响。通过引入微服务架构、容器编排、DevOps文化等概念,我们旨在为读者提供一套全面的自动化运维解决方案,以支持业务的敏捷性和可扩展性。