用于 MLOps 的最佳训练编排工具(Aporia)

简介: 什么是训练编排?训练编排使数据科学和机器学习团队能够运行高度并发、可扩展和可维护的训练工作流。

什么是训练编排?

训练编排使数据科学和机器学习团队能够运行高度并发、可扩展和可维护的训练工作流。

使用训练编排工具,您可以在云端而不是本地机器上运行模型训练流水线。这对于可能需要很长时间的训练过程特别有用,例如:深度学习模型。

为什么训练编排工具很重要?

训练编排工具允许使用协作界面自动管理和简化您的工作流程和流水线基础设施。通过采用训练编排工具,ML 团队能够大规模构建、训练和部署更多模型。

以下列表重点介绍了相关的训练编排工具及其对数据科学和机器学习团队的好处。

有关可帮助您构建 ML 基础架构的有用 MLOps 工具和项目的精选列表——包括训练编排、数据版本控制、特征存储、模型监控等,请参阅我们的项目:MLOps Toys

1. Determined

一个开源深度学习训练平台,使数据科学家能够快速轻松地构建他们的模型。

好处

  • 使用高级分布式训练更快地训练模型——无需更改模型代码
  • 超参数调整可以更轻松地更快、更大规模地构建模型
  • 智能调度和抢占式实例让您从 GPU 中获得更多收益并降低云 GPU 成本
  • 开箱即用的实验跟踪,可跟踪和重现实验

所有这些功能都集成到一个用户友好的深度学习环境中。

2. Flyte

为数据和机器学习轻松构建可扩展的生产级编排。

好处

  • Kubernetes 原生工作流自动化平台
  • 提供了 Python、Java 和 Scala 语言的人体工程学 SDK
  • 版本化和可审计
  • 可重现的流水线
  • 强数据类型

3. Kubeflow

Kubeflow 的目标是提供一种简单、可移植且可扩展的方式,将用于机器学习的同类最佳开源系统部署到各种基础设施。

4. Katonic.ai

一个具有统一 UI 的协作平台,用于在一个地方管理所有数据科学活动,并将 MLOps 实践引入客户和开发人员的生产系统。 它是用于 MLOps 的所有这些阶段的云原生工具的集合:

  • 数据探索
  • 特征准备
  • 模型训练/调优
  • 模型服务、测试和版本控制

好处

Katonic 适用于希望构建生产级机器学习实现的数据科学家和数据工程师,并且可以在您的开发环境或生产集群中本地运行。 Katonic 提供了一个统一的系统——利用 Kubernetes 实现容器化和可扩展性,以实现其流水线的可移植性和可重复性。

5. OpenPAI

一个开源平台,提供完整的 AI 模型训练和资源管理能力。

好处

  • 易于扩展
  • 支持本地、云和混合环境

6. Orchest

一个无需框架或 YAML 即可轻松构建数据流水线的平台。 允许您直接用 Python、R、Julia 或 Bash 编写数据处理代码。

好处

  • 通过对用户友好的 UI 直观地构建流水线
  • 代码在Notebooks中
  • 直接或定期运行流水线的任何子集
  • 轻松定义要在任何机器上运行的依赖项

7. Ploomber

一个在本地开发和测试工作流的框架,然后在分布式环境中无缝执行它们。

好处

  • 与云无关,在 AWS Batch、Airflow 和 Kubernetes 中运行
  • 与 Jupyter 集成,交互式开发,无需更改代码即可部署到云端
  • 增量构建; 通过跳过源代码未更改的任务来加快执行速度
  • 灵活的通过支持函数、脚本、notebooks 和 SQL 脚本作为任务
  • 通过自动并行化独立任务实现并行化
  • 交互式控制台,有助于快速调试工作流程

8. PrimeHub

一个开源、可插拔的 MLOps 平台,使企业能够大规模开发、训练和部署 ML 模型。

好处

  • 支持多租户集群计算
  • 一键式Notebook环境
  • 以组为中心的数据集管理/资源管理/访问控制管理
  • 使用镜像构建器(Image Builder)的自定义机器学习环境
  • 模型跟踪和部署
  • 通过第三方应用商店增强功能

9. Spock

帮助管理由简单且熟悉的基于类的结构定义的复杂参数配置的框架。 这允许 Spock 支持继承,读取多个标记格式,并允许通过组合进行分层配置。

好处

  • 简单声明,支持必需/可选和自动默认值
  • 轻松管理参数组、参数继承
  • 复杂类型、多种配置文件类型、分层配置
  • 命令行覆盖、不可变、易处理和可重现以保存运行时参数配置

10. Stoke

Stoke 是 PyTorch 的轻量级包装器,它为设备、分布式模式、混合精度和 PyTorch 扩展之间的上下文切换提供了一个简单的声明式 API。

好处

  • 支持从本地全精度 CPU 切换到具有扩展的混合精度分布式多 GPU
  • 显示每个底层后端的配置设置,供那些希望配置和原始访问底层库的人使用

11. Valohai

Valohai 是一个处理机器编排、自动重现性和部署的 MLOps 平台。

好处

  • 与技术无关,在 Docker 容器中运行所有内容,因此您几乎可以在其上运行任何内容
  • 在任何云上运行,原生支持 Azure、AWS、GCP 和 OpenStack
  • API、CLI、GUI 和 Jupyter 通过其众多接口集成到几乎任何工作流
  • 由经验丰富的 DevOps 工程师提供托管服务

12. Spell

一个端到端的深度学习平台,可以自动化复杂的ML基础设施以及训练和部署AI模型所需的操作工作。 Spell 是完全混合云,可以轻松部署到任何云或本地硬件中。

好处

  • 从用户的本地 CLI 自动执行云训练,作为可跟踪和可重复的实验,捕获所有输出和综合指标
  • 将模型从模型注册表直接服务到生产中,并包含沿袭元数据,由托管 Kubernetes 集群支持,以实现最大的可扩展性和稳健性
  • 在一个集中的控制面板下,在云端管理、组织、协作和可视化您的整个 ML 训练作品。


相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
存储 人工智能 Prometheus
ML 模型监控最佳工具(上)
如果您迟早将模型部署到生产环境,那么您将开始寻找 ML 模型监控工具。 当您的 ML 模型影响业务时,您只需要了解“事物是如何工作的”。 当事物停止工作时,你真正感受到这一点的第一刻。如果没有设置模型监控,您可能不知道哪里出了问题以及从哪里开始寻找问题和解决方案。
|
机器学习/深度学习 监控 Kubernetes
使用 Seldon Alibi 进行模型监控
虽然 Seldon 使在生产中部署和服务模型变得容易,但一旦部署,我们如何知道该模型是否在做正确的事情? 训练期间的良好表现并不一定意味着在生产运行几个月后表现良好。 现实世界中发生的事情是我们无法解释的,例如:输入数据逐渐偏离训练数据,以及异常值和偏差。
|
机器学习/深度学习 存储 人工智能
如何玩转Kubeflow Pipelines
 1. 背景近些年来,人工智能技术在自然语言处理、视觉图像和自动驾驶方面都取得不小的成就,无论是工业界还是学术界大家都在惊叹一个又一个的模型设计。但是对于真正做过算法工程落地的同学,在惊叹这些模型的同时,更多的是在忧虑如果快速且有效的将这些模型落地到业务中,并产生商业价值。正如Google 《Hidden Technical Debt in Machine Learning Systems》中说的
如何玩转Kubeflow Pipelines
|
机器学习/深度学习 监控 算法
谷歌大佬谈 MLOps :机器学习中的持续交付和自动化流水线(上)
背景 数据科学和机器学习正逐渐成为解决复杂现实问题以及在所有领域创造价值的核心功能。现在,有效运用机器学习技术的各种要素都已具备:
|
弹性计算 虚拟化 异构计算
阿里云gpu云服务器最新收费标准与优惠价格表
租用阿里云gpu云服务器需要多少钱?不同时期阿里云服务器的租用价格不同,目前阿里云官方活动中主打的gpu云服务器是计算型gn6v、gn7i和gn6i云服务器,购买时长为1个月、6个月和1年自选,其中配置最低的计算型gn6i实例4核15G月付只要3368.00元/1个月起,年付为34221.00元/1年起,配置最高的计算型gn6i实例96核372G月付为19820.00元/1个月起,年付202164.00元/1年起。本文主要为大家介绍目前阿里云gpu云服务器最新收费标准与优惠价格表,以供大家参考和选择。
1444 0
阿里云gpu云服务器最新收费标准与优惠价格表
|
设计模式 前端开发 Java
从Langchain到ReAct,在大模型时代下全新的应用开发核心
什么是ReAct框架关于什么是langchain,在使用langchain的过程中,大模型给人留下最深刻的印象无疑是Agent功能。大模型会自己分析问题,选择合适的工具,最终解决问题。这个功能背后的原理就是来自ReAct框架。ReA
19952 2
从Langchain到ReAct,在大模型时代下全新的应用开发核心
|
运维 Kubernetes 调度
编排的概念以及应用编排,服务编排和容器编排的区别
介绍编排的基本概念以及应用编排,服务编排和容器编排的概念和区别
3868 0
|
机器学习/深度学习 人工智能 运维
聊聊MLOps是什么,它对算法工程师带来了什么
数据科学(和机器学习)所面临的挑战 毫无疑问,这个时代属于人工智能(AI),这导致机器学习在几乎每个领域的使用,试图解决医疗保健、商业领域和技术领域的不同类型的问题,可以说机器学习无处不在。 同时,开源软件(OSS)和基于云的分布式计算也促使了许多工具、技术和算法的出现,而开发机器学习模型来解决问题并不是挑战,真正的挑战在于如何管理这些模型及大规模数据。
|
机器学习/深度学习 存储 监控
MLOps:构建生产机器学习系统的最佳实践(下)
MLOps:构建生产机器学习系统的最佳实践
718 0
MLOps:构建生产机器学习系统的最佳实践(下)
|
机器学习/深度学习 存储 人工智能
MLOps:构建生产机器学习系统的最佳实践(上)
MLOps:构建生产机器学习系统的最佳实践
1039 0
MLOps:构建生产机器学习系统的最佳实践(上)