Arena - 打开KubeFlow的正确姿势

简介: Arena的目标就是让数据科学家简单的释放KubeFlow的洪荒之力,像桌面机上训练一样简单,同时又拥有了集群级别调度和管理的掌控性。为了能够更好的在社区内共享和合作,我们已经在github上开源了自己的代码:https://github.com/AliyunContainerService/arena,欢迎大家了解和使用,如果您觉得不错,请给我们点赞。

KubeFlow是基于Kubernetes构建的可组合,便携式, 可扩展的机器学习技术栈,支持实现从JupyterHub模型开发,TFJob模型训练到TF-serving,Seldon预测端到端的解决方案。但是KubeFlow需要用户精通Kubernetes,比如写一个TFJob的部署yaml文件,这对于机器学习平台最主要的使用者---数据科学家来说是非常有挑战的事情。

kubeflow.jpg

这与数据科学家的期望还有比较大的差距,数据科学家关心的是三件事:

  1. 数据从哪里来
  2. 如何运行机器学习的代码
  3. 训练结果(模型和日志)如何查看

数据科学家编写一些简单的脚本,在桌面机上运行机器学习代码,这是他们熟悉和喜欢的工作方式。但是利用桌面机进行模型训练,又会遇到由于硬盘空间有限导致处理数据量不足,无法使用分布式训练导致计算力受限等问题。

为此我们开发了Arena,用一个命令行工具屏蔽所有底层资源、环境管理、任务调度和GPU调度分配的复杂性,它帮助数据科学家以一种简单熟悉的方式提交训练任务并且检查训练进展。数据科学家在调用Arena的时候可以指定数据来源,代码下载和是否使用TensorBoard查看训练效果。

Arena目前支持单机训练和PS-Worker模式的分布式训练,其后端实现依赖于KubeFlow提供的TFJob,很快也会扩展到MPIJob,PytorchJob。

未来我们希望能够通过Arena实现深度学习生产流水线 - 集成训练数据管理,实验任务管理,模型开发,持续训练、评估,上线预测全流程。

同时也支持实时训练的运维包括:

  • 利用top命令监控GPU资源的分配和调度
  • 支持CPU,GPU的资源监控
  • 训练日志的实时查询

Arena的目标就是让数据科学家简单的释放KubeFlow的洪荒之力,像桌面机上训练一样简单,同时又拥有了集群级别调度和管理的掌控性。为了能够更好的在社区内共享和合作,我们已经在github上开源了自己的代码:https://github.com/AliyunContainerService/arena,欢迎大家了解和使用,如果您觉得不错,请给我们点赞。如果您希望贡献代码,我们非常欢迎。

以下是使用文档:

视频Demo:



目录
相关文章
|
Kubernetes 数据可视化 容器
『Kubernetes』在k8s中部署Dashboard可视化面板
📣读完这篇文章里你能收获到 - 保姆级的K8S安装Dashboard - 可视化管理Kubernetes
1169 1
『Kubernetes』在k8s中部署Dashboard可视化面板
|
Kubernetes Devops jenkins
ArgoCD 简明教程
ArgoCD 简明教程
2407 0
ArgoCD 简明教程
|
存储 机器学习/深度学习 Kubernetes
kubeflow系列:基于国内阿里云镜像解决kubeflow一键安装
google出品在国内都存在墙的问题,而kubeflow作为云原生的机器学习套件对团队的帮助很大,对于无条件的团队,基于国内镜像搭建kubeflow可以帮助大家解决不少麻烦,这里给大家提供一套基于国内阿里云镜像的kubeflow 0.6的安装方案。
8775 0
kubeflow系列:基于国内阿里云镜像解决kubeflow一键安装
|
Kubernetes TensorFlow 算法框架/工具
Kubeflow 使用指南
Kubeflow(https://github.com/kubeflow)是基于Kubernetes(https://kubernets.io,容器编排与管理服务软件)和TensorFlow(https://tensorflow.org,深度学习库)的机器学习流程工具,使用Ksonnet进行应用包的管理。
12080 0
|
2天前
|
存储 Kubernetes 监控
KubeSphere平台安装系列之一【Kubernetes上安装KubeSphere(亲测--实操完整版)】(1/3)
KubeSphere平台安装系列之一【Kubernetes上安装KubeSphere(亲测--实操完整版)】(1/3)
44 0
|
2天前
|
人工智能 异构计算
基于PAI-DSW快速启动Stable Diffusion WebUI
基于PAI-DSW快速启动Stable Diffusion WebUI,创作你的专属冬日主题AI画作!
|
5月前
|
Kubernetes Linux Go
基于Goland和dlv远程调试Kubernetes组件
基于Goland和dlv远程调试Kubernetes组件
191 0
|
7月前
|
自然语言处理 IDE 定位技术
Fleet 下载 安装 教程
Fleet 下载 安装 教程
291 0
|
9月前
|
存储 API Docker
【Docker】使用 Docker 和 Streamlit 构建和部署 LangChain 支持的聊天应用程序
【Docker】使用 Docker 和 Streamlit 构建和部署 LangChain 支持的聊天应用程序
|
10月前
|
存储 Kubernetes 监控
Helm Dashboard GUI 工具解析
Hello folks,今天我们介绍一下由 Komodor 推出的开源项目 Helm-Dashboard。也是继 ValidKube 之后的第二个开源项目。
120 0