为了应对阿里的大规模体量,阿里云的 Prometheus采取了什么措施?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
为了应对大规模体量,阿里云的Prometheus采取了以下关键措施:
分层存储能力:阿里云可观测监控Prometheus版支持数据的分层存储。标准存储在数据过期后,可自动转存至归档存储,既满足长周期存储需求,又实现了低成本。用户可根据需要选择不同的存储时长,并按写入量或上报量计费,对于长期数据则采用按存储量计费的归档存储。
统一采集与存储:实现指标数据的统一采集和存储,覆盖云产品及开源组件,确保数据的一致性和高效管理,为多种数据消费场景提供便利。
高性能数据处理与查询:通过Recording Rule提供预聚合能力,支持降采样、降维度等操作,有效降低数据成本并提升查询效率。同时,100%兼容PromQL语法,便于自定义分析和探索。
秒级监控能力:针对主机监控,阿里云提供了探针秒级安装、指标秒级采集的能力。自动化安装Exporter和配置生成,确保新节点快速纳入监控体系,且数据采集间隔灵活可调,最快可达1秒。
Serverless化管理:通过托管的Prometheus Agent进行数据采集的集中管理,简化架构,提高运维效率,实现对数据采集链路的无感知管理。
智能指标标签:自动摘取ECS主机标签等信息并注入指标体系,支持自定义标签,增强监控数据的组织和检索能力。
超大规模数据处理能力:支持大规模主机接入,动态调整托管资源以保证接入时效性和准确性,同时具备存储超大规模指标数据的能力,以及高性能的查询展示功能。
全链路观测与上下游监控:整合不同维度监控数据,构建从硬件到应用层乃至外部服务的综合监控策略,确保全面反映系统健康状况和性能。
告警规则管理优化:提供两种方式(导入告警规则模板和插件同步PrometheusRule)来创建和控制告警规则,适应不同用户的使用习惯,提高告警配置效率。
这些措施共同确保了阿里云Prometheus能够高效、稳定地处理大规模监控数据,满足企业级的可观测性需求。
阿里云拥有国内全面的云原生产品技术以及大规模的云原生应用实践,通过全面容器化、核心技术互联网化、应用 Serverless 化三大范式,助力制造业企业高效上云,实现系统稳定、应用敏捷智能。拥抱云原生,让创新无处不在。