阿里云机器学习 PAI 年度发布:持续锻造云原生的 AI 工程平台

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 刚刚结束的 2022 云栖大会上,阿里云机器学习平台 PAI 发布了在开发者服务、企业级能力、工程性能优化三个方向的一系列新特性和功能。从支撑达摩院上云,到服务金融、汽车、互联网、制造等多个行业的创新实践,机器学习 PAI 不断夯实云原生的 AI 工程平台能力。

演讲人:

林伟 | 阿里云研究员、阿里云机器学习 PAI 平台和大数据平台技术负责人

黄博远 | 阿里云资深产品专家、阿里云 AI 产品总监

活动:2022 云栖大会

随着人工智能技术进入到快速应用发展的阶段,AI 工程的必要性愈发凸显,它关系到创新成果能否实质性地落地和服务。AI 工程化,具体体现为“从数据和算力的云原生化”、“调度和编程范式的规模化”、“开发和服务的标准化普惠化”三个方面。


今年,从支撑达摩院上云,到服务金融、汽车、互联网、制造等多个行业的创新实践,机器学习 PAI 不断夯实云原生的 AI 工程平台能力。刚刚结束的 2022 云栖大会上,阿里云机器学习平台 PAI 发布了在开发者服务、企业级能力、工程性能优化三个方向的一系列新特性和功能。

image.png

开发者服务

AI 开发者长期以来面临诸多挑战,例如环境不一致、开发工具百花齐放、最佳实践难以复用等等。为此,机器学习平台 PAI 通过以下新能力提供更轻松易用的开发体验。

  • 大数据与 AI 开发整合

通过 PAI-DSW,开发者可以便捷地访问云原生大数据平台 MaxCompute 和使用 EMR 上开源的数据计算能力。这样,AI 开发者可以基于云上的结构化和非结构化数据,去构建自己的业务,获得更大的想象空间。

  • 与模型社区 ModelScope 魔搭联动

当开发者在模型社区 ModelScope 魔搭上找到合适的模型,可以一键跳转到 PAI-DSW 中进行微调优化,获得定制的高效人工智能模型。并通过 PAI-DLC 进行分布式训练,最后在 PAI-EAS 中将其部署成在线服务,更好地分享和应用。

  • 多场景最佳实践库

通过 PAI-DSW Gallery, 我们提供丰富的多场景最佳实践库,开发者能够一键复用、快速上手,快速解决场景问题。

  • 云原生的异构硬件资源

通过 PAI 平台,开发者在进行模型开发调优的同时,也能对接各类云原生的算力资源,使得开发者能专注开发,不再为资源选择、资源管理等问题困扰。

image.png

企业级能力

除了单点地服务好开发者,机器学习平台 PAI 非常关注企业级能力的打造,让 AI 团队有更高的协同效率和管理效率。

  • 资源管理

通过端到端的仪表盘,企业可以清晰地看到已经使用的资源情况,还可通过 PAI-AI 工作空间进一步管理和分配云原生的训练资源、推理资源、成员权限,并完成 MaxCompute、Flink 等大数据计算资源绑定。

  • 全链路 OpenAPI

PAI 推出了覆盖模型开发应用全过程的 OpenAPI,包括数据准备、模型开发、模型训练、推理服务、资源管理等各个方面,企业客户可以集成 PAI 的能力,与自己的平台做深度整合。

  • 可视化建模

PAI-Designer 是可视化、低代码的建模平台,内置 200+ 最佳实践算法组件,可以支持企业客户快速构建业务流程。PAI-Designer 具备支持跨计算资源的工作流、支持流批一体计算、支持自定义 Python 和 SQL 语句等新功能。

  • MLOps

PAI 提供完善的模型及版本管理功能,支持训练任务和部署服务的血缘查询。支持训练及推理镜像的统一管理,支持实验及 Metrics 对照管理。

image.png

工程性能优化

性能优化一直是机器学习 PAI 团队的关注焦点。我们开放了数据、训练、推理各方面的加速能力,帮助用户实现整个 AI 系统的降本增效。

  • 数据集加速

PAI-DatasetAcc 是 PAI 新发布的数据集加速器,在训练过程中可实现对训练数据集吞吐效率高达 10 倍以上的提升。

  • 大规模训练

开源大规模分布式训练框架 EPL 可支持高达 10 万亿参数量级的模型训练,与传统方案相比训练效率提升 11 倍。EPL 通过对不同并行化策略进行统一抽象、封装,在一套分布式训练框架中支持多种并行策略,并进行显存、计算、通信等全方位的优化,来提供易用、高效的分布式训练能力。开源大规模稀疏模型训练/预测引擎 DeepRec 在分布式、图优化、算子、Runtime 等方面对稀疏模型进行了深度性能优化,同时提供了稀疏场景下特有的 Embedding 相关功能。目前支持了淘宝搜索、推荐、广告等电商业务,支撑着千亿特征、万亿样本的超大规模稀疏训练。

  • 推理优化

PAI 提供推理优化工具 PAI-Blade,支持自动压缩、编译优化、通用推理优化等,适配多种计算架构的硬件,推理效率可提升 6 倍。PAI-Blade 帮助用户通过工具化、系统化地方式完成模型服务推理优化,无需再通过人工定制的方式实现。此外,PAI-Blade 以原生框架扩展形式实现,不会入侵和改动原有的 AI 部署流程。PAI-Blade 核心自研能力是 AI 编译器 BladeDISC。BladeDISC 开创性地对 AI 模型中越来越强的动态性进行原生支持,极大扩展了编译优化的应用空间,为更多、更复杂、更加动态化的模型带来性能提升。今年,BladeDISC 也已经开源。


从提升开发者效率、提升开发团队的效率、再到提升机器使用的效率,机器学习平台 PAI 坚持以云原生和弹性灵活的平台服务,支撑更多开发者和企业完成 AI 创新与落地,尤其在搜推广、用户增长、智慧零售、自动驾驶等领域积累大量最佳实践。


了解更多关于机器学习平台 PAI 相关消息:https://www.aliyun.com/product/bigdata/learn?gzh_allj1114

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
10天前
|
机器学习/深度学习 人工智能 PyTorch
深度学习长文|使用 JAX 进行 AI 模型训练
深度学习长文|使用 JAX 进行 AI 模型训练
19 2
|
1天前
|
机器学习/深度学习 人工智能 运维
智能化运维:利用AI和机器学习提升系统稳定性与效率
【6月更文挑战第21天】在数字化浪潮下,企业对IT系统的依赖程度日益加深。传统运维模式已难以满足现代业务需求,智能化运维应运而生。本文将探讨如何通过集成人工智能(AI)和机器学习(ML)技术,实现预测性维护、自动化故障处理和优化资源配置,以提升系统的稳定性和运行效率,同时降低运维成本。
19 5
|
1天前
|
机器学习/深度学习 人工智能 Dart
AI - 机器学习GBDT算法
梯度提升决策树(Gradient Boosting Decision Tree),是一种集成学习的算法,它通过构建多个决策树来逐步修正之前模型的错误,从而提升模型整体的预测性能。
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
【CVPR2024】阿里云人工智能平台PAI图像编辑算法论文入选CVPR2024
近期,阿里云人工智能平台PAI发表的图像编辑算法论文在CVPR-2024上正式亮相发表。论文成果是阿里云与华南理工大学贾奎教授领衔的团队共同研发。此次入选标志着阿里云人工智能平台PAI自主研发的图像编辑算法达到了先进水平,赢得了国际学术界的认可。在阿里云人工智能平台PAI算法团队和华南理工大学的老师学生们一同的坚持和热情下,将阿里云在图像生成与编辑领域的先进理念得以通过学术论文和会议的形式,向业界传递和展现。
|
2天前
|
机器学习/深度学习 人工智能 测试技术
自动化测试的未来:AI与机器学习的融合
【6月更文挑战第20天】本文探讨了自动化软件测试领域中人工智能(AI)和机器学习(ML)技术的应用趋势。文章首先概述了自动化测试的基本概念,随后深入分析了AI和ML在测试用例生成、缺陷预测、测试执行和结果分析等方面的应用。最后,文章讨论了这些技术带来的挑战和机遇,并展望了未来的发展。
|
3天前
|
人工智能 自然语言处理 Java
Spring AI是一个开源的多模态AI模型平台
Spring AI是一个开源的多模态AI模型平台
25 2
|
4天前
|
机器学习/深度学习 人工智能 Java
【Sping Boot与机器学习融合:构建赋能AI的微服务应用实战】
【Sping Boot与机器学习融合:构建赋能AI的微服务应用实战】
8 1
|
6天前
|
机器学习/深度学习 人工智能 监控
探索自动化测试的未来:AI与机器学习的融合之路
【6月更文挑战第16天】随着技术的快速发展,软件测试领域正经历着前所未有的变革。自动化测试,作为提高软件质量与效率的关键手段,正在逐步融入人工智能(AI)和机器学习(ML)的先进技术。本文将探讨AI与ML如何赋能自动化测试,提升测试用例的智能生成、优化测试流程、预测潜在缺陷,并分析面临的挑战与未来的发展趋势。
16 3
|
6天前
|
人工智能 自然语言处理 搜索推荐
优化AI对话体验并全面兼容GPT功能平台
优化AI对话体验并全面兼容GPT功能平台
15 1
|
6天前
|
人工智能 前端开发 搜索推荐
人工智能(AI)和低代码开发平台
人工智能(AI)和低代码开发平台
19 1

热门文章

最新文章

相关产品

  • 人工智能平台 PAI