浅尝Kubeflow系列:阿里云上小试TFJob
## 介绍
本系列将介绍如何在阿里云容器服务上运行[Kubeflow](https://github.com/kubeflow/kubeflow), 本文介绍如何使用`TfJob`运行模型训练。
## TFJob简介
模型训练是机器学习最主要的实践场景,尤其以使用机器学习框架TensorFlow进行模型训练最为流行,但是随着机器学习的平台由单机变成集群,这个问题变得复杂了。GPU
从零开始入门 K8s | 应用存储和持久化数据卷:核心知识
作者 | 至天 阿里巴巴高级研发工程师
一、Volumes 介绍
Pod Volumes
首先来看一下 Pod Volumes 的使用场景:
场景一:如果 pod 中的某一个容器在运行时异常退出,被 kubelet 重新拉起之后,如何保证之前容器产生的重要数据没有丢失?
场景二:如果同一个 po...