阿里云机器学习 PAI 年度发布:持续锻造云原生的 AI 工程平台

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 刚刚结束的 2022 云栖大会上,阿里云机器学习平台 PAI 发布了在开发者服务、企业级能力、工程性能优化三个方向的一系列新特性和功能。从支撑达摩院上云,到服务金融、汽车、互联网、制造等多个行业的创新实践,机器学习 PAI 不断夯实云原生的 AI 工程平台能力。

演讲人:

林伟 | 阿里云研究员、阿里云机器学习 PAI 平台和大数据平台技术负责人

黄博远 | 阿里云资深产品专家、阿里云 AI 产品总监

活动:2022 云栖大会

随着人工智能技术进入到快速应用发展的阶段,AI 工程的必要性愈发凸显,它关系到创新成果能否实质性地落地和服务。AI 工程化,具体体现为“从数据和算力的云原生化”、“调度和编程范式的规模化”、“开发和服务的标准化普惠化”三个方面。


今年,从支撑达摩院上云,到服务金融、汽车、互联网、制造等多个行业的创新实践,机器学习 PAI 不断夯实云原生的 AI 工程平台能力。刚刚结束的 2022 云栖大会上,阿里云机器学习平台 PAI 发布了在开发者服务、企业级能力、工程性能优化三个方向的一系列新特性和功能。

image.png

开发者服务

AI 开发者长期以来面临诸多挑战,例如环境不一致、开发工具百花齐放、最佳实践难以复用等等。为此,机器学习平台 PAI 通过以下新能力提供更轻松易用的开发体验。

  • 大数据与 AI 开发整合

通过 PAI-DSW,开发者可以便捷地访问云原生大数据平台 MaxCompute 和使用 EMR 上开源的数据计算能力。这样,AI 开发者可以基于云上的结构化和非结构化数据,去构建自己的业务,获得更大的想象空间。

  • 与模型社区 ModelScope 魔搭联动

当开发者在模型社区 ModelScope 魔搭上找到合适的模型,可以一键跳转到 PAI-DSW 中进行微调优化,获得定制的高效人工智能模型。并通过 PAI-DLC 进行分布式训练,最后在 PAI-EAS 中将其部署成在线服务,更好地分享和应用。

  • 多场景最佳实践库

通过 PAI-DSW Gallery, 我们提供丰富的多场景最佳实践库,开发者能够一键复用、快速上手,快速解决场景问题。

  • 云原生的异构硬件资源

通过 PAI 平台,开发者在进行模型开发调优的同时,也能对接各类云原生的算力资源,使得开发者能专注开发,不再为资源选择、资源管理等问题困扰。

image.png

企业级能力

除了单点地服务好开发者,机器学习平台 PAI 非常关注企业级能力的打造,让 AI 团队有更高的协同效率和管理效率。

  • 资源管理

通过端到端的仪表盘,企业可以清晰地看到已经使用的资源情况,还可通过 PAI-AI 工作空间进一步管理和分配云原生的训练资源、推理资源、成员权限,并完成 MaxCompute、Flink 等大数据计算资源绑定。

  • 全链路 OpenAPI

PAI 推出了覆盖模型开发应用全过程的 OpenAPI,包括数据准备、模型开发、模型训练、推理服务、资源管理等各个方面,企业客户可以集成 PAI 的能力,与自己的平台做深度整合。

  • 可视化建模

PAI-Designer 是可视化、低代码的建模平台,内置 200+ 最佳实践算法组件,可以支持企业客户快速构建业务流程。PAI-Designer 具备支持跨计算资源的工作流、支持流批一体计算、支持自定义 Python 和 SQL 语句等新功能。

  • MLOps

PAI 提供完善的模型及版本管理功能,支持训练任务和部署服务的血缘查询。支持训练及推理镜像的统一管理,支持实验及 Metrics 对照管理。

image.png

工程性能优化

性能优化一直是机器学习 PAI 团队的关注焦点。我们开放了数据、训练、推理各方面的加速能力,帮助用户实现整个 AI 系统的降本增效。

  • 数据集加速

PAI-DatasetAcc 是 PAI 新发布的数据集加速器,在训练过程中可实现对训练数据集吞吐效率高达 10 倍以上的提升。

  • 大规模训练

开源大规模分布式训练框架 EPL 可支持高达 10 万亿参数量级的模型训练,与传统方案相比训练效率提升 11 倍。EPL 通过对不同并行化策略进行统一抽象、封装,在一套分布式训练框架中支持多种并行策略,并进行显存、计算、通信等全方位的优化,来提供易用、高效的分布式训练能力。开源大规模稀疏模型训练/预测引擎 DeepRec 在分布式、图优化、算子、Runtime 等方面对稀疏模型进行了深度性能优化,同时提供了稀疏场景下特有的 Embedding 相关功能。目前支持了淘宝搜索、推荐、广告等电商业务,支撑着千亿特征、万亿样本的超大规模稀疏训练。

  • 推理优化

PAI 提供推理优化工具 PAI-Blade,支持自动压缩、编译优化、通用推理优化等,适配多种计算架构的硬件,推理效率可提升 6 倍。PAI-Blade 帮助用户通过工具化、系统化地方式完成模型服务推理优化,无需再通过人工定制的方式实现。此外,PAI-Blade 以原生框架扩展形式实现,不会入侵和改动原有的 AI 部署流程。PAI-Blade 核心自研能力是 AI 编译器 BladeDISC。BladeDISC 开创性地对 AI 模型中越来越强的动态性进行原生支持,极大扩展了编译优化的应用空间,为更多、更复杂、更加动态化的模型带来性能提升。今年,BladeDISC 也已经开源。


从提升开发者效率、提升开发团队的效率、再到提升机器使用的效率,机器学习平台 PAI 坚持以云原生和弹性灵活的平台服务,支撑更多开发者和企业完成 AI 创新与落地,尤其在搜推广、用户增长、智慧零售、自动驾驶等领域积累大量最佳实践。


了解更多关于机器学习平台 PAI 相关消息:https://www.aliyun.com/product/bigdata/learn?gzh_allj1114

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
15天前
|
机器学习/深度学习 数据采集 人工智能
AI与机器学习:从理论到实践
【10月更文挑战第2天】本文将深入探讨AI和机器学习的基本概念,以及它们如何从理论转化为实际的应用。我们将通过Python代码示例,展示如何使用机器学习库scikit-learn进行数据预处理、模型训练和预测。无论你是AI领域的初学者,还是有一定基础的开发者,这篇文章都将为你提供有价值的信息和知识。
|
9天前
|
人工智能 Cloud Native 安全
从云原生到 AI 原生,网关的发展趋势和最佳实践
本文整理自阿里云智能集团资深技术专家,云原生产品线中间件负责人谢吉宝(唐三)在云栖大会的精彩分享。讲师深入浅出的分享了软件架构演进过程中,网关所扮演的各类角色,AI 应用的流量新特征对软件架构和网关所提出的新诉求,以及基于阿里自身实践所带来的开源贡献和商业能力。
|
5天前
|
机器学习/深度学习 存储 人工智能
揭秘机器学习背后的神秘力量:如何高效收集数据,让AI更懂你?
【10月更文挑战第12天】在数据驱动的时代,机器学习广泛应用,从智能推荐到自动驾驶。本文以电商平台个性化推荐系统为例,探讨数据收集方法,包括明确数据需求、选择数据来源、编写代码自动化收集、数据清洗与预处理及特征工程,最终完成数据的训练集和测试集划分,为模型训练奠定基础。
21 3
|
6天前
|
运维 Cloud Native 数据可视化
阿里云云原生应用组装平台BizWorks满分通过最新评估
阿里云BizWorks满分通过《基于云计算的业务组装平台能力成熟度模型》评测,获得优秀级(最高等级),广东移动联合阿里云BizWorks团队开展的组装式应用实践获得第三届“鼎新杯”数字化转型应用优秀案例一等奖。
|
10天前
|
运维 Cloud Native 应用服务中间件
阿里云微服务引擎 MSE 及 云原生 API 网关 2024 年 09 月产品动态
阿里云微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。API 网关 (API Gateway),提供 APl 托管服务,覆盖设计、开发、测试、发布、售卖、运维监测、安全管控、下线等 API 生命周期阶段。帮助您快速构建以 API 为核心的系统架构.满足新技术引入、系统集成、业务中台等诸多场景需要
|
16天前
|
人工智能 自然语言处理 关系型数据库
阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成
近日,阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成。
|
15天前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
阿里云瑶池在2024云栖大会上重磅发布由Data+AI驱动的多模数据管理平台DMS:OneMeta+OneOps,通过统一、开放、多模的元数据服务实现跨环境、跨引擎、跨实例的统一治理,可支持高达40+种数据源,实现自建、他云数据源的无缝对接,助力业务决策效率提升10倍。
|
16天前
|
机器学习/深度学习 人工智能 安全
自动化测试的未来:AI与机器学习的结合
随着技术的发展,软件测试领域正迎来一场革命。自动化测试,一度被认为是提高效率和准确性的黄金标准,如今正在被人工智能(AI)和机器学习(ML)的浪潮所推动。本文将探讨AI和ML如何改变自动化测试的面貌,提供代码示例,并展望这一趋势如何塑造软件测试的未来。我们将从基础概念出发,逐步深入到实际应用,揭示这一技术融合如何为测试工程师带来新的挑战和机遇。
43 2
|
27天前
|
机器学习/深度学习 人工智能 自然语言处理
自动化测试的未来:AI与机器学习的融合
【9月更文挑战第29天】在软件测试领域,自动化测试一直是提高测试效率和质量的关键。随着人工智能(AI)和机器学习(ML)技术的飞速发展,它们正逐步渗透到自动化测试中,预示着一场测试革命的来临。本文将探讨AI和ML如何重塑自动化测试的未来,通过具体案例展示这些技术如何优化测试流程,提高测试覆盖率和准确性,以及它们对测试工程师角色的影响。
56 7
|
23天前
|
机器学习/深度学习 人工智能 算法
揭秘AI:机器学习的魔法与现实
【9月更文挑战第33天】在这篇文章中,我们将一探究竟,揭开机器学习神秘的面纱,通过直观的解释和代码示例,了解其背后的原理。无论你是初学者还是有一定基础的学习者,这篇文章都将为你提供有价值的信息。让我们一起探索机器学习的世界,发现它的奥秘和魅力!

相关产品

  • 人工智能平台 PAI