容器服务Kubernetes版

首页 标签 容器服务Kubernetes版
云上 K8s GPU 节点 ImagePullBackOff 排查记录
本文记录云上K8s(v1.36)GPU节点模型评测Job因`ImagePullBackOff`卡在Pending的排查过程,聚焦containerd镜像拉取失败根因,涵盖crictl验证、日志分析、DNS/镜像源配置检查,并强调分层排障:先运行时,再资源调度与设备挂载。
|
4天前
|
K8s Ingress 502 排查:先看 Service、Endpoints 和 readinessProbe
本文详解K8s中Ingress返回502的系统化排查思路:不盲目修改Ingress,而是按Pod→Service→Endpoints→readinessProbe→Ingress逐层验证。重点检查Pod就绪状态、Service selector与targetPort匹配性、Endpoints是否为空、健康探针配置合理性等核心环节,直击502根本原因——上游服务未就绪。(239字)
|
5天前
| |
来自: 数据库
k8s 安装posgresql
本指南介绍如何在K8s集群中快速部署PostgreSQL官方镜像(v18.3),配合local-path-provisioner提供本地持久化存储。含命名空间、PVC、Deployment与Service完整YAML,支持国产镜像加速,兼顾14–18版本路径兼容性,适用于开发与测试环境。(239字)
|
5天前
| |
来自: 云原生
Jellyfin 上 K8s 前,先把镜像、PVC 和权限排一遍
本文记录Jellyfin从Docker Compose迁移至K8s测试环境的典型问题排查:镜像拉取慢、PVC未绑定致媒体目录为空、容器用户权限不足、路径配置错误等。强调K8s中“宿主机→PV→PVC→volumeMount→容器路径”的分层模型,须逐层验证,避免误判。
|
6天前
|
我把服务器密码给了 OpenClaw,10 分钟后一个 K8s 集群跑起来了
我把两台临时ECS交给OpenClaw,让它从零搭建K8s集群、排查公网访问问题并完成验收。10 分钟后,我真切感到AI Agent正在从回答问题走向完成任务。
|
6天前
|
AI Agent 工具链上 K8s 前的镜像和运行时预检
本文记录AI Agent工具链(MCP Server、浏览器自动化、代码runner等)迁移至K8s测试环境的预检实践,聚焦镜像拉取失败(ImagePullBackOff)、权限控制、最小化部署与可观测性,强调“本地能跑≠K8s可用”,突出工程化预检三原则:镜像可达、容器可启、边界可控。(239字)
|
8天前
|
AI 推理服务上 K8s 前,我先查了 GPU、Probe 和回滚
本文介绍vLLM推理服务上K8s前的关键预检:验证镜像拉取、GPU节点调度、探针配置(尤其startupProbe防误杀)、日志可观测性及回滚路径,聚焦AI服务冷启动特性,分层排查保障部署稳健性。(239字)
|
11天前
|
AI Agent 工具服务上 K8s 前,我先查了 Secret、日志和回滚
本次预检聚焦AI Agent工具服务上K8s的可行性:验证MCP Server启动、工具镜像拉取、Secret安全注入、只读容器配置及独立日志可观测性。通过隔离命名空间`agent-tools`、专用ServiceAccount与最小化Deployment,分层厘清依赖、权限与运行边界,为后续代码巡检、页面测试、数据查询等场景夯实可控基础。(239字)
|
14天前
| |
来自: 云原生
云上发布前镜像预检:runner 和 K8s 节点分开测
节后发布前,作者对镜像拉取链路开展预检:在CI runner侧用`docker pull`验证各依赖镜像,在K8s节点侧用`crictl pull`二次确认。发现“镜像拉取超时”常被误判为构建失败,实则属基础设施层问题。通过前置检查,可清晰界定故障边界,提升发布成功率。(239字)
免费试用