使用MiniKube部署联邦学习Fate的详细过程-上篇(下)

本文涉及的产品
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
简介: 使用MiniKube部署联邦学习Fate的详细过程-上篇(下)

启动minikube


systemctl enable docker.service
systemctl enable kubelet.service
minikube start --vm-driver=none
# 带有滚动日志
minikube start --vm-driver=none --alsologtostderr -v=8

image.png


原因是docker的Cgroup Driver和kubelet的Cgroup Driver不一致

两种解决方法

  • 修改docker的Cgroup Driver
vi /etc/docker/daemon.json
# 添加
"exec-opts": ["native.cgroupdriver=systemd"]
systemctl daemon-reload
systemctl restart docker
  • 修改kubelet的Cgroup Driver
vi /etc/systemd/system/kubelet.service.d/10-kubeadm.conf
# 增加
--cgroup-driver=cgroupfs
systemctl daemon-reload
systemctl restart kubelet

再次启动kubenate

image.png


两种处理方法

  • 关闭swap
swapoff  -a
sed -ri 's/.*swap.*/#&/' /etc/fstab
  • 通过参数忽略swap报错
# 在kubeadm初始化时增加--ignore-preflight-errors=Swap参数,注意Swap中S要大写
kubeadm init --ignore-preflight-errors=Swap
# 另外还要设置/etc/sysconfig/kubelet参数
sed -i 's/KUBELET_EXTRA_ARGS=/KUBELET_EXTRA_ARGS="--fail-swap-on=false"/' /etc/sysconfig/kubelet
在以往老版本中是必须要关闭swap的,但是现在新版又多了一个选择,可以通过参数指定,忽略swap报错

再次启动

image.png

yum install -y socat

再次启动

image.png

echo 1 > /proc/sys/net/bridge/bridge-nf-call-iptables
echo 1 > /proc/sys/net/bridge/bridge-nf-call-ip6tables

终于启动成功了 留下了幸福的眼泪

image.png

查看启动状态

minikube status

image.png

安装KuteFate


上传KuteFate包到虚拟机上

cd /home/fate
rz
tar -xzf ./kubefate-k8s-v1.3.0-a.tar.gz

image.png


启动KuteFate


cd /home/fate
# 停止启动
kubectl delete -f ./rbac-config.yaml
kubectl apply -f ./rbac-config.yaml

image.png


image.png


说明没有起来

查看所有pod

kubectl get pods -n kube-fate -o wide

image.png


查看某一个pod日志

kubectl describe pod kubefate-64d57cb855-9x89q -n kube-fate

image.png


默认调度程序0/1节点可用:1个节点有pod不能忍受的污点

节点是不可调度

# kubernetes出于安全考虑默认情况下无法在master节点上部署pod
kubectl get no -o yaml | grep taint -A 5

image.png


设置污点

kubectl taint nodes --all node-role.kubernetes.io/master=:NoSchedule --overwrite=true

image.png

节点总是会有一个污点node.kubernetes.io/not-ready该污点表示如果pod是not ready状态则不会调度该pod

查看节点信息

kubectl get nodes

image.png




忙了一天了 有点累了 这个问题留到下篇文章再处理吧


后记



接下来会介绍
1、节点和pod的污点/容忍这块如何处理
2、kubefate k8s启动
3、kubefate 验证启动效果(跑一个联邦学习模型训练demo)
4、linux服务器某一个分区磁盘空间不够的情况下如何扩容
相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
3月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
TensorFlow Serving 部署指南超赞!让机器学习模型上线不再困难,轻松开启高效服务之旅!
【8月更文挑战第31天】TensorFlow Serving是一款高性能开源服务系统,专为部署机器学习模型设计。本文通过代码示例详细介绍其部署流程:从安装TensorFlow Serving、训练模型到配置模型服务器与使用gRPC客户端调用模型,展示了一站式模型上线解决方案,使过程变得简单高效。借助该工具,你可以轻松实现模型的实际应用。
51 0
|
6月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI 操作报错合集之在本地构建easyrec docker镜像时遇到了无法连接docker服务如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
6月前
|
Kubernetes Linux Docker
深度解析:Kubernetes 1.28.2集群安装过程中的关键步骤
本文旨在为读者提供一份详尽的Kubernetes 1.28.2集群安装指南,帮助您从零开始构建稳定、高效的Kubernetes集群。我们将从环境准备、软件安装、集群初始化到节点添加等各个环节进行逐步讲解,确保您能够顺利完成集群的搭建。
|
并行计算 Kubernetes 安全
基于Truss+Docker+Kubernetes把开源模型Falcon-7B送上云端(译)(上)
基于Truss+Docker+Kubernetes把开源模型Falcon-7B送上云端(译)(上)
224 0
基于Truss+Docker+Kubernetes把开源模型Falcon-7B送上云端(译)(上)
|
Kubernetes 负载均衡 并行计算
基于Truss+Docker+Kubernetes把开源模型Falcon-7B送上云端(译)(下)
基于Truss+Docker+Kubernetes把开源模型Falcon-7B送上云端(译)(下)
177 0
|
机器学习/深度学习 算法 PyTorch
看这里,使用docker部署图深度学习框架GraphLearn使用说明
看这里,使用docker部署图深度学习框架GraphLearn使用说明
看这里,使用docker部署图深度学习框架GraphLearn使用说明
|
Kubernetes 负载均衡 监控
从零开始入门 K8s | Kubernetes 网络模型进阶
导读:本文将基于之前介绍的基本网络模型,进行更深入的一些了解,希望给予读者一个更广更深的认知。首先简单回顾一下容器网络的历史沿革,剖析一下 Kubernetes 网络模型的由来;其次会剖析一个实际的实现(Flannel Hostgw),展现了数据包从容器到宿主机的变换过程;最后对于和网络息息相关的 Servcie 做了比较深入的机制和使用介绍,通过一个简单的例子说明了 Service 的工作原理。
从零开始入门 K8s | Kubernetes 网络模型进阶
|
机器学习/深度学习
《阿里云 Kubernetes+Kubeflow – 加速深度学习实验的利器》电子版地址
阿里云 Kubernetes+Kubeflow – 加速深度学习实验的利器
231 0
《阿里云 Kubernetes+Kubeflow – 加速深度学习实验的利器》电子版地址
|
XML JSON Kubernetes
【云原生Kubernetes系列第七篇】一文掌握k8s之YAML文件(少攀谈,多沉潜,清醒而独立)(一)
【云原生Kubernetes系列第七篇】一文掌握k8s之YAML文件(少攀谈,多沉潜,清醒而独立)(一)
275 0