开发者社区云原生正文

为了应对阿里的大规模体量，阿里云的 Prometheus采取了什么措施？

展开

收起

游客6k7pwl5wdtibc 2021-11-25 21:04:27 639 版权

阿里云 AI 助理回答

为了应对大规模体量，阿里云的Prometheus采取了以下关键措施：

分层存储能力：阿里云可观测监控Prometheus版支持数据的分层存储。标准存储在数据过期后，可自动转存至归档存储，既满足长周期存储需求，又实现了低成本。用户可根据需要选择不同的存储时长，并按写入量或上报量计费，对于长期数据则采用按存储量计费的归档存储。
统一采集与存储：实现指标数据的统一采集和存储，覆盖云产品及开源组件，确保数据的一致性和高效管理，为多种数据消费场景提供便利。
高性能数据处理与查询：通过Recording Rule提供预聚合能力，支持降采样、降维度等操作，有效降低数据成本并提升查询效率。同时，100%兼容PromQL语法，便于自定义分析和探索。
秒级监控能力：针对主机监控，阿里云提供了探针秒级安装、指标秒级采集的能力。自动化安装Exporter和配置生成，确保新节点快速纳入监控体系，且数据采集间隔灵活可调，最快可达1秒。
Serverless化管理：通过托管的Prometheus Agent进行数据采集的集中管理，简化架构，提高运维效率，实现对数据采集链路的无感知管理。
智能指标标签：自动摘取ECS主机标签等信息并注入指标体系，支持自定义标签，增强监控数据的组织和检索能力。
超大规模数据处理能力：支持大规模主机接入，动态调整托管资源以保证接入时效性和准确性，同时具备存储超大规模指标数据的能力，以及高性能的查询展示功能。
全链路观测与上下游监控：整合不同维度监控数据，构建从硬件到应用层乃至外部服务的综合监控策略，确保全面反映系统健康状况和性能。
告警规则管理优化：提供两种方式（导入告警规则模板和插件同步PrometheusRule）来创建和控制告警规则，适应不同用户的使用习惯，提高告警配置效率。