为了应对阿里的大规模体量,阿里云的 Prometheus采取了什么措施?

为了应对阿里的大规模体量,阿里云的 Prometheus采取了什么措施? image.png

展开
收起
游客6k7pwl5wdtibc 2021-11-25 17:40:12 490 分享 版权
阿里云 AI 助理回答

为了应对大规模体量,阿里云的Prometheus采取了以下关键措施:

  1. 分层存储能力:支持数据自动从标准存储转存到归档存储,满足长周期存储需求的同时控制成本。用户可选择不同存储时长,并根据实际需求开启归档存储功能。

  2. 统一采集与存储:实现指标数据的统一采集和存储,覆盖云产品及开源组件,提高数据管理效率和查询性能。

  3. 多场景数据消费能力

    • 统一可视化:提供开箱即用的大盘并支持Grafana自定义,以及对接Datav构建可视化大屏。
    • 聚合视图:支持跨实例和跨账号的监控数据聚合查询。
    • 数据处理:通过Recording Rule进行预聚合,降低数据成本和提升查询速度。
    • 统一告警响应:内置告警规则,支持自定义PromQL告警,集成ARMS告警管理中心以实现通知、分派等响应动作。
    • CloudLens集成:提供日志、指标、事件的一体化可观测能力。
    • 数据分析与导出:兼容PromQL进行自定义分析,支持实时数据投递至多种目标如Kafka、MaxCompute等。
  4. 主机监控优势

    • 秒级安装与全面监控:探针快速部署,自动化配置Exporter,涵盖Node-exporter、Process-exporter、GPU-exporter等多种类型,确保新节点立即被监控。
    • 秒级采集与灵活配置:简化配置流程,支持指标采集间隔灵活调整,快速实现全方位监控。
    • Serverless化探针管理:托管的Prometheus Agent减少运维负担,提高数据采集准确性和时效性。
    • 智能指标标签:自动注入ECS标签信息,支持自定义标签,增强监控数据的组织和检索能力。
    • 超大规模数据处理能力:支持大规模主机接入,动态调整托管资源,保证数据采集的时效性和准确性,同时具备高性能存储与查询能力。
    • 全链路观测视角:整合不同维度监控数据,包括硬件、应用层及外部服务监控,确保系统级可观测性。
    • 进程级监控:深入追踪操作系统进程性能和资源使用,及时发现并解决问题,提升故障诊断能力。
    • 默认专家级Grafana大盘:提供一键接入的主机可观测方案,包含各类总览与详细监控大盘。

这些措施共同确保了在大规模应用场景下,阿里云Prometheus能够高效、低成本地提供全面且深入的可观测性服务。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

阿里云拥有国内全面的云原生产品技术以及大规模的云原生应用实践,通过全面容器化、核心技术互联网化、应用 Serverless 化三大范式,助力制造业企业高效上云,实现系统稳定、应用敏捷智能。拥抱云原生,让创新无处不在。

收录在圈子:
+ 订阅
阿里云 云原生应用平台 肩负阿里巴巴集团基础设施云化以及核心技术互联网化的重要职责,致力于打造稳定、标准、先进的云原生产品,成为云原生时代的引领者,推动行业全面想云原生的技术升级,成为阿里云新增长引擎。商业化产品包括容器、云原生中间件、函数计算等。
还有其他疑问?
咨询AI助理