如何玩转Kubeflow Pipelines

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,高可用系列 2核4GB
云数据库 RDS PostgreSQL,高可用系列 2核4GB
简介:  1. 背景近些年来,人工智能技术在自然语言处理、视觉图像和自动驾驶方面都取得不小的成就,无论是工业界还是学术界大家都在惊叹一个又一个的模型设计。但是对于真正做过算法工程落地的同学,在惊叹这些模型的同时,更多的是在忧虑如果快速且有效的将这些模型落地到业务中,并产生商业价值。正如Google 《Hidden Technical Debt in Machine Learning Systems》中说的

 1. 背景

近些年来,人工智能技术在自然语言处理、视觉图像和自动驾驶方面都取得不小的成就,无论是工业界还是学术界大家都在惊叹一个又一个的模型设计。但是对于真正做过算法工程落地的同学,在惊叹这些模型的同时,更多的是在忧虑如果快速且有效的将这些模型落地到业务中,并产生商业价值。正如Google 《Hidden Technical Debt in Machine Learning Systems》中说的,ML code仅是Machine Learning systems中的一小部分,像数据收集、特征抽取、配置管理、资源管理、模型部署、模型监控等同样十分的重要。

当我们看到一个典型的机器学习系统由这么多组件或子系统构成时,我们会进而想到另一个问题:这么多子系统应该如何高效的配合起来?

答案是机器学习工作流。 通过机器学习工作流,可以有效的将各个子系统串联起,每一个业务场景可以通过一个端到端的机器学习工作流来描述,同时通过工作流也可以追溯每一次模型产出或模型上线的元信息(例如数据、配置、base model等)。

在工业界,比较成熟的机器学习工作流是Google 的Vertex AI Pipeline和Amazon的Sagemaker Pipeline,大家如果感兴趣可以自行去他们的官网体验。

本文将要介绍的是开源机器学习工作流的解决方案Kubeflow Pipelines(注:Vertex AI Pipeline是基于Kubeflow Pipelines进行改造而来的)。

2. Kubeflow Pipelines

Kubeflow是一个基于云原生的Machine Learning Platform,旨于快速在kubernetes环境中构建一套开箱即用的机器学习平台。Kubeflow由多个子系统构成,覆盖了机器学习声明周期的全流程。

  • 在训练阶段:Kubeflow针对不同机器学习框架提供了对应operator,方便用户在kubernetes环境中提交分布式训练任务;
  • 在部署阶段:Kubeflow同样提供了多种的部署框架让用户根据自己的业务需求来选择;
  • 在监控阶段:Kubeflow提供了Metadata和TensorBoard来对模型的Artifact、血缘和性能进行分析;

针对于机器学习上述阶段,Kubeflow提供了Kubeflow Pipeline工作流平台,用于将机器学习的各个阶段进行串联,同时提供了下述能力:

  • 任务编排:Kubeflow Pipeline通过argo提供workflow的能力,能够实现丰富多样的DAG 工作流,用户可以根据的业务需求定义、管理和复用自己工作流;
  • 实验管理:Kubeflow Pipeline通过Experiments的能力,能够展示和对比不同实验参数(例如:模型超参)下Pipeline的运行结果,用户可以根据结果来对工作流任务进行调优;
  • 模型追溯:Kubeflow Pipeline通过Tracking的能力,能够记录每一次Pipeline运行中每个step的输入和输出信息,用户可以根据记录的内容进行问题排查或模型调优;

3. 使用

3.1 编写Pipeline

Kubeflow Pipelines提供了Python的SDK让用户来快速构建符合自己业务场景的Pipeline。本节创建一个具有两个step的pipeline,第一个step读取参数,将内容输出到自己的output中,第二个step读取第一个step的output,然后输出的标准输出中。

pipeline代码逻辑如下

  • 第5行~第10行:定义repeat_line step,读取参数并将结果输出到output path中
  • 第14行~第19行:定义print_text step,从text_path中读取内容,并输出到stdout
  • 第21行~23行:定义pipeline,repeat_line step 设置相应的参数,print_text step以repeat_line的output作为入参
  • 第26行:编译pipeline,会生成一个print_repeating_lines_pipeline.yaml,本质上是一个argo 的workflow 
import kfp
from kfp.components import func_to_container_op, InputPath, OutputPath
from kfp import compiler

@func_to_container_op
def repeat_line(line: str, output_text_path: OutputPath(str), count: int = 10):
    '''Repeat the line specified number of times'''
    with open(output_text_path, 'w') as writer:
        for i in range(count):
            writer.write(line + '\n')


# Reading bigger data
@func_to_container_op
def print_text(text_path: InputPath()): # The "text" input is untyped so that any data can be printed
    '''Print text'''
    with open(text_path, 'r') as reader:
        for line in reader:
            print(line, end = '')

def print_repeating_lines_pipeline():
    repeat_lines_task = repeat_line(line='Hello', count=5000)
    print_text(repeat_lines_task.output) # Don't forget .output !

# Submit the pipeline for execution:
compiler.Compiler().compile(pipeline_func=print_repeating_lines_pipeline, package_path='print_repeating_lines_pipeline.yaml')

$ python3.6 print_repeating_lines_pipeline.py

$ print_repeating_lines_pipeline.py  print_repeating_lines_pipeline.yaml

3.2 提交Pipeline

提交Pipeline有两种方式:

  • 通过Kubeflow Pipelines UI提交
  • 通过Kubeflow Pipelines SDK提交

通过Kubeflow Pipelines UI提交

  • 在Pipelines 页面选择Upload pipelines,在详情页面选择上文生成的print_repeating_lines_pipeline.yaml文件

  • 上传完pipeline后,选择create run来创建一个对应的Runs

  • 跳转到runs的提交页面后,可以设置runs的相关信息,并点击start来进行提交

通过Kubeflow Pipeline SDK提交:

  • 我们仅需要再上述代码的后面添加如下创建pipeline语句即可
  • 然后执行对应的python脚本

...
kfp.Client().create_run_from_pipeline_func(print_repeating_lines_pipeline, arguments={})

3.3 查看Pipeline

在Kubeflow Pipeline UI的runs页面我们能够看到每次pipeline运行的detail list

并且可以点击具体的runs查看运行的详情

4.  架构分析

了解完Kubeflow Pipelines的基本使用方式后,我们来看看Kubeflow Pipelines的服务架构。下面先给出一张Kubeflow Pipelines官网给出的架构图

整体上来讲,Kubeflow Pipelines由以下模块构成:

  • Pipeline web server & Pipline Service:用来创建、管理和展示pipeline、experiments、runs和artifacts等信息;
  • Pipeline Persistence Agent:用来watch pipeline执行的相关信息,并向信息写入到Mysql和mlmetada中;
  • orchestration controllers:Kubeflow Pipelines所使用的controller,典型的如Argo Workflow controller用来执行workflow、Scheduler Workflow Controller用来执行定时任务;
  • Artifact storeage:用于存储每次pipeline运行的input、output和日志等信息;

官方的这个架构图有一些抽象,初次看到这个架构图的时候感觉不是很清晰,因此这里我对Kubeflow Pipelines安装后的组件进行了进一步的分析。接下来我们以部署组件的维度来分析一下Kubeflow pipelines的架构。

下图是我对Kubeflow Pipelines安装后的组件按照功能的维度进行了划分

Kubeflow Pipelines安装完共有14个组件,从功能上划分可以分为6类:

  1. pipline server :处理来自SDK和UI的请求,用于Pipeline、Experiment、Run的的管理(创建、删除、查看、对比等);
  1. ml-pipeline-ui : 是使用typescript编写的nodejs server,它主要做两件事情:1)Kubeflow Pipeline UI静态页面的加载;2)为将前端页面的服务请求转发给ml-pipeline-server和mlmetadata
  2. ml-pipeline-server :是通过mux、grpc和grpc-gateway构成的一个能够同时处理grpc和http请求的server,它主要用来响应Kubeflow Pipeline UI和Kubeflow Pipeline SDK发送的请求;
  3. ml-pipeline-persistence-agent : 是一个k8s的controller,监听workflow和scheduler workflow两个对象,并将监听到的信息汇报给ml-pipeline-server并存储到mysql中
  1. controller :用于实现常规工作流和定时任务工作流的controller;
  1. workflow controller : Kubeflow Pipelines直接使用了argo的workflow controller来实现工作流的step调度功能
  2. scheduled workflow controller :用来执行周期性workflow的controller,其会监听workflow和scheduler worklfow两类对象,并判断对应的scheduler workflow是否到达下一个周期,如果是则会创建一个新的workflow;
  1. storage :存储pipelines相关的元数据和artifact数据;
  2. MLmeta :用于实现mlmeta功能的组件
  1. metadata grpc server :是google开源的ml metadata,用于record和retrieve机器学习相关的metada data;其本质是一个grpc server,外界通过grpc client进行数据的写入和读取,metadata server则将数据写入到mysql中;
  2. metadata envoy deployment :是一个proxy,Kubeflow Pipeline UI通过grpc-web访问metadata grpc server时,需要使用其进行协议的转换;
  3. metadata writer : 是一个controller,其watch所有属于workflow的pod,并调用metadata的grpc接口将pod的Artifact信息写入到metadata grpc server中;
  1. cache step :用于实现workflow中step缓存的功能的组件,在pipeline的执行过程中,当某个step的signature没有发生变化时,会直接使用history output。cache功能是通过k8s中的mutating admission webhook来实现的
  1. cache-deploy-deployment:用来创建 MutatingAdmissionWebhook,会match所有label为 pipelines.kubeflow.org/cache_enabled: "true"  的create pod请求,并发送给cache-server.
  2. cache-server:webhookserver会判断request的pod是否命中cache,如果命中则会对pod进行更改,以使得该pod不再执行真正的工作流任务。
  1. viewer :用于可视化的展示step的结果

5. 不足与改进

在调研和使用开源的Kubeflow Pipelines过程中,我们发现了以下几个问题,并进行了改进:

  • 存储可用性没有保障:
  • 问题:开源版本MySQL和MinIO均没有使用高可用方案,存在服务不稳定和数据丢失的风险
  • 解法:对Kubeflow Pipelines进行更改,将MySQL替换为阿里云OSS,将MinIO替换为阿里云OSS
  • 多租户依赖Kubeflow 完整安装
  • 问题:开源版本多租户管理依赖Istio和kubeflow server,无法同阿里云账号体系打通
  • 解法:通过云原生AI套件中的控制台模块对Kubeflow Pipelines进行代理访问,打通阿里云账号体系,并提供多租户能力
  • Kubeflow Pipelines SDK过于基础
  • 问题:开源SDK对于算法开发人员使用成本比较高,无法开箱即用
  • 解法:提供kfp arena sdk,一方面提供开箱即用的component,例如pytorcjob、tfjob等;另一方面集成AI套件的原生能力,例如coscheduling

如果想体验生产级别的机器学习工作流,欢迎使用云原生AI套件新上的Kubeflow Pipelines,具体使用方法见:通过Kubeflow Pipelines创建工作流

相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
存储 Prometheus 监控
K3S环境下接入Prometheus,grafana,等监控套件
因为常规的监控都是用K8S做的,而K3S上的监控方案少之又少,如果直接用rancher上的prometheus监控,会消耗至少2G的内存,于是我们就自己做了K3S和pg数据库的监控,并且通过我们自己做的监控,可以减少一些不必要的性能开销。主要监控容器资源消耗,宿主机资源消耗,pg数据库资源消耗
4389 0
K3S环境下接入Prometheus,grafana,等监控套件
|
存储 机器学习/深度学习 Kubernetes
kubeflow系列:基于国内阿里云镜像解决kubeflow一键安装
google出品在国内都存在墙的问题,而kubeflow作为云原生的机器学习套件对团队的帮助很大,对于无条件的团队,基于国内镜像搭建kubeflow可以帮助大家解决不少麻烦,这里给大家提供一套基于国内阿里云镜像的kubeflow 0.6的安装方案。
9576 0
kubeflow系列:基于国内阿里云镜像解决kubeflow一键安装
|
Kubernetes TensorFlow 算法框架/工具
Kubeflow 使用指南
Kubeflow(https://github.com/kubeflow)是基于Kubernetes(https://kubernets.io,容器编排与管理服务软件)和TensorFlow(https://tensorflow.org,深度学习库)的机器学习流程工具,使用Ksonnet进行应用包的管理。
13580 0
|
1月前
|
Kubernetes API 开发工具
Kubeflow-Pipelines-架构学习指南
本指南带你深入 Kubeflow Pipelines 架构,从零掌握 ML 工作流编排。涵盖核心组件、代码结构、开发调试及贡献流程,结合实战练习与学习路径,助你由使用者进阶为贡献者。
360 139
|
存储 Kubernetes 安全
kubernetes集群降级|k8s1.24+版本降级到1.23
kubernetes集群降级|k8s1.24+版本降级到1.23
|
机器学习/深度学习 存储 人工智能
摆脱 AI 生产“小作坊”:如何基于 Kubernetes 构建云原生 AI 平台
本文将介绍和梳理我们对云原生 AI 这个新领域的思考和定位,介绍云原生 AI 套件产品的核心场景、架构和主要能力。
摆脱 AI 生产“小作坊”:如何基于 Kubernetes 构建云原生 AI 平台
|
存储 边缘计算 Kubernetes
大规模 IoT 边缘容器集群管理的几种架构 -6- 个人体验及推荐
大规模 IoT 边缘容器集群管理的几种架构 -6- 个人体验及推荐
|
机器学习/深度学习 Kubernetes 算法
玩转Kubeflow第一章: kubeflow 国内本地安装及案例介绍
kubeflow 是 google 开源的一个基于 kubernetes 的 ML workflow 平台,其集成了大量的机器学习工具,这里给大家介绍下基于阿里云镜像仓库进行kubeflow安装部署,同时通过 kittab 超参数案例,pipeline workflow 的例子给大家详细介绍kubeflow各组件的玩法,同时在最后提出针对kubeflow 构建 MLOps 平台的一些思考。
19419 2
玩转Kubeflow第一章: kubeflow 国内本地安装及案例介绍
|
机器学习/深度学习 缓存 Kubernetes
Kubernetes 调度系统之 Scheduling Framework
阿里云容器服务团队结合多年Kubernetes产品与客户支持经验,对Kube-scheduler进行了大量优化和扩展,逐步使其在不同场景下依然能稳定、高效地调度各种类型的复杂工作负载。 本文帮助大家更好地了解Kubernetes调度系统的强大能力和未来发展方向。
2891 0
Kubernetes 调度系统之 Scheduling Framework
|
调度 Perl 容器
开源工具GPU Sharing:支持Kubernetes集群细粒度
问题背景 全球主要的容器集群服务厂商的Kubernetes服务都提供了Nvidia GPU容器调度能力,但是通常都是将一个GPU卡分配给一个容器。这可以实现比较好的隔离性,确保使用GPU的应用不会被其他应用影响;对于深度学习模型训练的场景非常适合,但是如果对于模型开发和模型预测的场景就会比较浪费。
17669 0