文档备案控制台

开发者社区云原生容器服务正文

OpenKruise中我在开发中想使用kruise的CRR功能出现这个情况什么原因？

"OpenKruise中我在开发中想使用kruise的CRR功能，但是发现提交CRR之后pod处于Recreating状态：

$cat test_remote.yaml
apiVersion: v1
kind: Pod
metadata:
labels:
vxpu.io/adaptive: ""false""
vxpu.io/env: vxpu-server
name: vxpu-example-remote-server-p2
namespace: test-webhook1
spec:
containers:

command:
- /bin/bash
- -c
- sleep 365d
  env:
  image: reg.docker.alibaba-inc.com/vodla_ccbrain/hpc_resnet50_batches:v1.0.43-alios7u2-min-1.13-cuda11.4-gcc10.2
  imagePullPolicy: IfNotPresent
  name: client-1-server-p1-c1
  resources:
  limits:
  kubernetes.io/gpu-core: ""50""
  kubernetes.io/gpu-memory: 8Gi
  requests:
  kubernetes.io/gpu-core: ""50""
  kubernetes.io/gpu-memory: 8Gi
  nodeSelector:
  agentLabel: NV_T4
  restartPolicy: Never
  schedulerName: koord-scheduler
  $cat test-restart.yaml
  apiVersion: apps.kruise.io/v1alpha1
  kind: ContainerRecreateRequest
  metadata:
  namespace: test-webhook1
  name: vxpu-example-remote-server-p2
  spec:
  podName: vxpu-example-remote-server-p2
  containers: # 要重建的容器名字列表，至少要有 1 个
name: client-1-server-p1-c1
strategy:
failurePolicy: Fail # 'Fail' 或 'Ignore'，表示一旦有某个容器停止或重建失败， CRR 立即结束
orderedRecreate: false # 'true' 表示要等前一个容器重建完成了，再开始重建下一个
terminationGracePeriodSeconds: 30 # 等待容器优雅退出的时间，不填默认用 Pod 中定义的
unreadyGracePeriodSeconds: 3 # 在重建之前先把 Pod 设为 not ready，并等待这段时间后再开始执行重建
minStartedSeconds: 10 # 重建后新容器至少保持运行这段时间，才认为该容器重建成功
activeDeadlineSeconds: 300 # 如果 CRR 执行超过这个时间，则直接标记为结束（未结束的容器标记为失败）
ttlSecondsAfterFinished: 1800 # CRR 结束后，过了这段时间自动被删除掉
这个我的pod和crr的yaml文件。我用的是1.3版本。"

展开

收起

十一0204 2023-10-17 14:53:42 262 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

意中人jswy

意中人就是我呀！

" crr 只是做了一个 kill 的动作，拉起还是得靠 kubelet 的，
如果长时间没有拉起来，就会处于这个状态，你可以看下 pod 的 event 或者 kubelet 的日志。此答案整理至钉群""OpenKruise 社区交流群""。

2023-10-17 17:45:12

赞同展开评论

问答分类：

容器 Perl Shell GPU云服务器容器服务Kubernetes版

问答地址：

开发者社区 > 云原生 > 容器服务 > 问答

相关问答

购买阿里国外的云服务器是否可以访问谷歌？

92949

50

0

this xml file does not appear to have any style in

61480

11

0

访问ECS服务器的网站提示“由于你访问的URL可能对网站造成安全威胁，您的访问被阻断”，这是什么原因？

142302

16

0

C语言数组赋值报错，打印出来的是乱码，怎么解决？

1636

1

0

#支付宝授权提示请在支付宝客户端打开链接

25016

19

0

阿里云怎样设置二级域名以及域名解析？

66950

14

0

支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】

284949

11

0

基础语言百问-Python

69804

30

0

C语言中default使用注意事项是什么？

1669

1

0

搭建dnf私服需要大概啥配置的

10477

2

0

云原生

容器服务

国内唯一 Forrester 公共云容器平台领导者象限。

我要提问

相关文章

阿里云分布式云容器平台ACK One对接使用完全指南

Agent 小知识｜为什么大家都在聊 Agent？

loop 最佳实践：从 /goal 到 /loop，让 Agent 工作流循环起来

大模型服务隔离与舱壁模式：构建防过载、防独占高可用架构应用实践解析.164

热门讨论

热门文章

怎么查看registry.aliyuncs.com/google_containers都有哪些镜像

云效docker打包的镜像推送到阿里容器镜像仓库，这个地方怎么配置使用专业网络地址了？

利用镜像启动一个容器后进行修改

OAM Kubernetes 插件如何实现无缝对接现有K8s API？

Dify与传统开发工具，你会选择哪一个？

容器服务ACKk8s的前端是指什么组件？完整链路是什么？客户端到后端经过了多少层代理？

容器的运行方法是什么？

自适应容器

请问容器服务ACK docker默认安装的redis，配置文件怎么看？

registry.aliyuncs.com/google_containers这个镜像仓库都有啥镜像

展开全部

谈谈 Docker Volume 之权限管理（一）

容器镜像服务 Docker镜像的基本使用

使用阿里云容器服务Jenkins 2.0实现持续集成之Pipeline篇(updated on 2016.12.23)

阿里云容器服务飞天敏捷版详解

spring源码-增强容器xml解析-3.1

DevOps与阿里云容器服务（三）

Docker日志收集新方案：log-pilot

Kubernetes集群上基于Jenkins的CI/CD流程实践

微容器：更小的，更轻便的Docker容器

Docker Swarm运行Spring Cloud应用（一）：部署

展开全部

还有其他疑问?