Prometheus

首页 标签 Prometheus
# Prometheus #
关注
2525内容
|
10天前
| |
来自: 云原生
containerd 节点 GPU 镜像预热记录
本次在GPU节点复现推理环境时,首遇镜像拉取失败(ImagePullBackOff),Pod卡在ContainerCreating状态。通过`crictl pull`逐源验证并预热vLLM、CUDA、Prometheus及pause镜像,明确分离镜像问题与模型问题,提升排障效率。(239字)
|
10天前
|
使用Kubernetes搭建性能监控系统
Kubernetes是一个强大的容器编排平台,能大幅简化大规模、容器化应用的部署和管理。通过它搭建性能监控系统,可以实现高度的自动化和弹性。
|
11天前
|
可观测性工程 —— 日志、指标、追踪的三位一体
传统监控回答“系统是否工作”,可观测性更进一步回答“为什么不工作”。它通过三类数据(Telemetry)实现:日志(Logs)、指标(Metrics)、追踪(Traces)。三者互补,缺一不可。
|
11天前
|
智能驾驶感知环境容器镜像预检记录
本文介绍智能驾驶感知环境部署前的镜像预检实践:针对CUDA、ROS2、PyTorch、Prometheus、K8s等多源异构镜像,通过Docker Compose预拉取与验证,隔离环境问题与算法问题;并延伸至K8s节点预拉镜像,规避ImagePullBackOff故障,提升部署可靠性与复用性。(239字)
|
12天前
| |
来自: 云原生
MCP 工具服务容器化前,我先做了镜像预检
本文分享MCP Agent部署避坑实践:聚焦镜像拉取环节,通过统一使用毫秒镜像源(如`ghcr.1ms.run`/`docker.1ms.run`等)预检多源镜像、修改compose配置、分步验证,有效规避`context deadline exceeded`等启动失败问题,提升环境复现成功率。(239字)
|
16天前
|
【微服务与云原生架构】可观测性体系:Prometheus、Grafana、Loki、监控告警体系
本文系统梳理微服务与云原生可观测性全体系:以Metrics(Prometheus)、Logs(Loki)、Traces(Tempo)三大支柱为核心,融合OpenTelemetry统一采集、Grafana统一可视化及SLO质量度量,覆盖数据采集、存储、查询、告警、根因定位到自愈闭环,兼顾架构原理、落地规范与避坑指南。
Python+AI实战:从零构建智能图像识别系统(三)
教程来源 https://yyvgt.cn/category/jiuwenhua.html 本文构建了完整的智能商品分类系统,涵盖数据处理、EfficientNet模型训练(支持AMP、EMA、早停)、ONNX/TensorRT优化、FastAPI部署、Celery异步任务、Prometheus监控、A/B测试及主动学习等全链路AI工程实践。
|
1月前
| |
来自: 数据库
MySQL性能拉胯、故障难排查?Prometheus+Grafana+Zabbix搭建全流程监控体系,秒定位问题!
本文详解如何用Prometheus(采集)、Grafana(可视化)、Zabbix(告警)三工具联动,构建MySQL性能监控与故障排查闭环体系,覆盖实时监控、智能预警、精准定位、优化治理,助运维/DBA告别被动救火,提升系统稳定性与响应效率。(239字)
|
1月前
|
从零构建 Mini-vLLM:KV-Cache、动态批处理与分布式推理全流程
Mini-vLLM 是一个从零打造的高效推理引擎,直击 HuggingFace `.generate()` 的 O(N²) 注意力瓶颈。通过手动实现 KV 缓存、动态批处理、gRPC 通信、Prometheus/Grafana 可观测性、分布式多 worker 架构及 Docker 容器化,显著提升吞吐与延迟。纯 CPU 下达 1307+ req/s,目标是真正理解而非复用轮子。
|
2月前
| |
来自: 弹性计算
回滚是“等时间”还是“看指标”?别再拍脑袋了,这一步决定你系统生死
回滚是“等时间”还是“看指标”?别再拍脑袋了,这一步决定你系统生死
免费试用