AI Agent 工具链上 K8s 前的镜像和运行时预检

简介: 本文记录AI Agent工具链(MCP Server、浏览器自动化、代码runner等)迁移至K8s测试环境的预检实践,聚焦镜像拉取失败(ImagePullBackOff)、权限控制、最小化部署与可观测性,强调“本地能跑≠K8s可用”,突出工程化预检三原则:镜像可达、容器可启、边界可控。(239字)

最近把一个 AI Agent 工具链往 K8s 测试环境里迁移。它本身不是一个单服务,而是一组工具:MCP Server、浏览器自动化、代码执行 runner、日志查询工具和少量内部 API 适配器。

本地 docker compose 能跑,不代表 K8s 里能顺利起来。第一次部署时,Pod 卡在了镜像拉取阶段。

kubectl get pod -n agent-tools
kubectl describe pod <pod-name> -n agent-tools

事件里看到:

ImagePullBackOff
context deadline exceeded

下面是这次预检记录。

环境目标

项目 内容
集群 K8s 测试集群
namespace agent-tools
运行方式 Deployment
工具类型 MCP Server、浏览器工具、runner
主要问题 镜像来源和运行时配置不一致

第一步:先列出工具镜像

我先从 YAML 里找镜像:

grep -n "image:" deploy/*.yaml

工具链镜像大致分成:

类型 用途
基础运行时 Node/Python 工具执行
浏览器工具 页面复现、截图、E2E
MCP Server 暴露工具能力
K8s 工具 查询事件、日志和状态

这一步的目标是确认到底有哪些镜像要进入节点,不要等 Pod 卡住后才逐个找。

第二步:节点侧预拉

在发布前,我会先在节点或同网络环境里预检:

docker pull <team-registry>/node-runtime:20
docker pull <team-registry>/browser-tool:latest
docker pull <team-registry>/mcp-server:latest

如果使用 containerd,可以用:

crictl pull <team-registry>/node-runtime:20
crictl pull <team-registry>/browser-tool:latest

这里没有写具体第三方入口。生产或测试环境里,建议使用团队已验证的镜像仓库、缓存仓库或云上镜像服务,避免每次都临时依赖外部地址。

第三步:看 Pod 事件

部署后先看事件:

kubectl get events -n agent-tools --sort-by=.lastTimestamp

如果是镜像拉取问题,通常还没到应用日志阶段。常见判断:

事件 方向
ErrImagePull 镜像地址、tag、权限
ImagePullBackOff 拉取失败后的退避
unauthorized registry 凭证问题
context deadline exceeded 网络或镜像层超时
Back-off restarting failed container 已启动,问题在应用配置

不要把 ImagePullBackOff 和应用启动失败混在一起处理。

第四步:Deployment 最小示例

先跑一个最小工具服务:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: mcp-tool
  namespace: agent-tools
spec:
  replicas: 1
  selector:
    matchLabels:
      app: mcp-tool
  template:
    metadata:
      labels:
        app: mcp-tool
    spec:
      containers:
        - name: mcp-tool
          image: <team-registry>/mcp-server:latest
          ports:
            - containerPort: 8931

先确认最小服务能启动,再逐步加浏览器、数据库只读账号、K8s 只读权限和内部 API。

第五步:运行时边界

AI Agent 工具链进入 K8s 后,我会特别看这些配置:

  • namespace 是否独立。
  • ServiceAccount 是否最小权限。
  • Secret 是否只挂载到需要的工具。
  • 网络策略是否限制到测试环境。
  • 日志是否能记录工具调用。
  • 工具镜像是否固定 tag。

Agent 工具链越强,越不能把权限写得太宽。

第六步:回滚和版本

工具链建议固定版本:

image: <team-registry>/browser-tool:v1.0.3

不要所有工具都用 latest。如果某次 Agent 调用失败,至少能知道是模型输出问题、工具版本问题,还是镜像拉取问题。

回滚命令:

kubectl -n agent-tools rollout history deploy/mcp-tool
kubectl -n agent-tools rollout undo deploy/mcp-tool

小结

AI Agent 工具链上 K8s 前,我会先做三类预检:

  1. 镜像能不能进入节点。
  2. 工具容器能不能独立启动。
  3. 权限、网络、日志和回滚是否可控。

本地能跑只说明 compose 环境没问题。真正放到 K8s 里,还要看节点镜像拉取、containerd、ServiceAccount、Secret、网络策略和事件日志。

这些基础工作做完,Agent 再去调工具,才不容易把环境问题误判成模型问题。

相关文章
|
14天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23496 11
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
2天前
|
人工智能 BI 持续交付
Claude Code 深度适配 DeepSeek V4-Pro 实测:全场景通关与真实体验报告
在 AI 编程工具日趋主流的今天,Claude Code 凭借强大的任务执行、工具调用与工程化能力,成为开发者与自动化运维的核心效率工具。但随着原生模型账号稳定性问题频发,寻找一套兼容、稳定、能力在线的替代方案变得尤为重要。DeepSeek V4-Pro 作为新一代高性能大模型,提供了完整兼容 Claude 协议的 API 接口,只需简单配置即可无缝驱动 Claude Code,且在任务执行、工具调用、复杂流程处理上表现极为稳定。
927 0
|
7天前
|
人工智能 缓存 Shell
Claude Code 全攻略:命令大全 + 实战工作流(完整版)
Claude Code 是一款运行在终端环境下的 AI 编码助手,能够直接在项目目录中理解代码结构、编辑文件、执行命令、执行开发计划,并支持持久化记忆、上下文压缩、后台任务、多模型切换等专业能力。对于日常开发、项目维护、快速重构、代码审查等场景,它可以大幅减少手动操作、提升编码效率。本文从常用命令、界面模式、核心指令、记忆机制、图片处理、进阶工作流等维度完整说明,帮助开发者快速上手并稳定使用。
1804 3
|
17天前
|
人工智能 缓存 BI
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro,跑完 Skills —— OA 审批、大屏、报表、部署 5 大实战场景后的真实体验 ![](https://oscimg.oschina.net/oscnet/up608d34aeb6bafc47f
5554 21
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
|
19天前
|
人工智能 JSON BI
DeepSeek V4 来了!超越 Claude Sonnet 4.5,赶紧对接 Claude Code 体验一把
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro 的真实体验与避坑记录 本文记录我将 Claude Code 对接 DeepSeek 最新模型(V4Pro)后的真实体验,测试了 Skills 自动化查询和积木报表 AI 建表两个场景——有惊喜,也踩
6636 16
|
7天前
|
前端开发 API 内存技术
对比claude code等编程cli工具与deepseek v4的适配情况
DeepSeek V4发布后,多家编程工具因未适配其强制要求的`reasoning_content`字段而报错。本文对比Claude Code、GitHub Copilot、Langcli、OpenCode及DeepSeek-TUI等主流工具的兼容性:Claude Code需按官方方式配置;Langcli表现最佳,开箱即用且无报错;Copilot与OpenCode暂未修复问题;DeepSeek-TUI尚处早期阶段。
1191 3
对比claude code等编程cli工具与deepseek v4的适配情况
|
7天前
|
人工智能 前端开发 测试技术
Qoder Skills 完全指南:从零开始,让 AI 按你的标准执行
文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。