阿里云机器学习 PAI 年度发布:持续锻造云原生的 AI 工程平台

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 刚刚结束的 2022 云栖大会上,阿里云机器学习平台 PAI 发布了在开发者服务、企业级能力、工程性能优化三个方向的一系列新特性和功能。从支撑达摩院上云,到服务金融、汽车、互联网、制造等多个行业的创新实践,机器学习 PAI 不断夯实云原生的 AI 工程平台能力。

演讲人:

林伟 | 阿里云研究员、阿里云机器学习 PAI 平台和大数据平台技术负责人

黄博远 | 阿里云资深产品专家、阿里云 AI 产品总监

活动:2022 云栖大会

随着人工智能技术进入到快速应用发展的阶段,AI 工程的必要性愈发凸显,它关系到创新成果能否实质性地落地和服务。AI 工程化,具体体现为“从数据和算力的云原生化”、“调度和编程范式的规模化”、“开发和服务的标准化普惠化”三个方面。


今年,从支撑达摩院上云,到服务金融、汽车、互联网、制造等多个行业的创新实践,机器学习 PAI 不断夯实云原生的 AI 工程平台能力。刚刚结束的 2022 云栖大会上,阿里云机器学习平台 PAI 发布了在开发者服务、企业级能力、工程性能优化三个方向的一系列新特性和功能。

image.png

开发者服务

AI 开发者长期以来面临诸多挑战,例如环境不一致、开发工具百花齐放、最佳实践难以复用等等。为此,机器学习平台 PAI 通过以下新能力提供更轻松易用的开发体验。

  • 大数据与 AI 开发整合

通过 PAI-DSW,开发者可以便捷地访问云原生大数据平台 MaxCompute 和使用 EMR 上开源的数据计算能力。这样,AI 开发者可以基于云上的结构化和非结构化数据,去构建自己的业务,获得更大的想象空间。

  • 与模型社区 ModelScope 魔搭联动

当开发者在模型社区 ModelScope 魔搭上找到合适的模型,可以一键跳转到 PAI-DSW 中进行微调优化,获得定制的高效人工智能模型。并通过 PAI-DLC 进行分布式训练,最后在 PAI-EAS 中将其部署成在线服务,更好地分享和应用。

  • 多场景最佳实践库

通过 PAI-DSW Gallery, 我们提供丰富的多场景最佳实践库,开发者能够一键复用、快速上手,快速解决场景问题。

  • 云原生的异构硬件资源

通过 PAI 平台,开发者在进行模型开发调优的同时,也能对接各类云原生的算力资源,使得开发者能专注开发,不再为资源选择、资源管理等问题困扰。

image.png

企业级能力

除了单点地服务好开发者,机器学习平台 PAI 非常关注企业级能力的打造,让 AI 团队有更高的协同效率和管理效率。

  • 资源管理

通过端到端的仪表盘,企业可以清晰地看到已经使用的资源情况,还可通过 PAI-AI 工作空间进一步管理和分配云原生的训练资源、推理资源、成员权限,并完成 MaxCompute、Flink 等大数据计算资源绑定。

  • 全链路 OpenAPI

PAI 推出了覆盖模型开发应用全过程的 OpenAPI,包括数据准备、模型开发、模型训练、推理服务、资源管理等各个方面,企业客户可以集成 PAI 的能力,与自己的平台做深度整合。

  • 可视化建模

PAI-Designer 是可视化、低代码的建模平台,内置 200+ 最佳实践算法组件,可以支持企业客户快速构建业务流程。PAI-Designer 具备支持跨计算资源的工作流、支持流批一体计算、支持自定义 Python 和 SQL 语句等新功能。

  • MLOps

PAI 提供完善的模型及版本管理功能,支持训练任务和部署服务的血缘查询。支持训练及推理镜像的统一管理,支持实验及 Metrics 对照管理。

image.png

工程性能优化

性能优化一直是机器学习 PAI 团队的关注焦点。我们开放了数据、训练、推理各方面的加速能力,帮助用户实现整个 AI 系统的降本增效。

  • 数据集加速

PAI-DatasetAcc 是 PAI 新发布的数据集加速器,在训练过程中可实现对训练数据集吞吐效率高达 10 倍以上的提升。

  • 大规模训练

开源大规模分布式训练框架 EPL 可支持高达 10 万亿参数量级的模型训练,与传统方案相比训练效率提升 11 倍。EPL 通过对不同并行化策略进行统一抽象、封装,在一套分布式训练框架中支持多种并行策略,并进行显存、计算、通信等全方位的优化,来提供易用、高效的分布式训练能力。开源大规模稀疏模型训练/预测引擎 DeepRec 在分布式、图优化、算子、Runtime 等方面对稀疏模型进行了深度性能优化,同时提供了稀疏场景下特有的 Embedding 相关功能。目前支持了淘宝搜索、推荐、广告等电商业务,支撑着千亿特征、万亿样本的超大规模稀疏训练。

  • 推理优化

PAI 提供推理优化工具 PAI-Blade,支持自动压缩、编译优化、通用推理优化等,适配多种计算架构的硬件,推理效率可提升 6 倍。PAI-Blade 帮助用户通过工具化、系统化地方式完成模型服务推理优化,无需再通过人工定制的方式实现。此外,PAI-Blade 以原生框架扩展形式实现,不会入侵和改动原有的 AI 部署流程。PAI-Blade 核心自研能力是 AI 编译器 BladeDISC。BladeDISC 开创性地对 AI 模型中越来越强的动态性进行原生支持,极大扩展了编译优化的应用空间,为更多、更复杂、更加动态化的模型带来性能提升。今年,BladeDISC 也已经开源。


从提升开发者效率、提升开发团队的效率、再到提升机器使用的效率,机器学习平台 PAI 坚持以云原生和弹性灵活的平台服务,支撑更多开发者和企业完成 AI 创新与落地,尤其在搜推广、用户增长、智慧零售、自动驾驶等领域积累大量最佳实践。


了解更多关于机器学习平台 PAI 相关消息:https://www.aliyun.com/product/bigdata/learn?gzh_allj1114

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
7天前
|
人工智能 自然语言处理 安全
通过阿里云Milvus与PAI搭建高效的检索增强对话系统
阿里云向量检索Milvus版是一款全托管的云服务,兼容开源Milvus并支持无缝迁移。它提供大规模AI向量数据的相似性检索服务,具备易用性、可用性、安全性和低成本等优势,适用于多模态搜索、检索增强生成(RAG)、搜索推荐、内容风险识别等场景。用户可通过PAI平台部署RAG系统,创建和配置Milvus实例,并利用Attu工具进行可视化操作,快速开发和部署应用。使用前需确保Milvus实例和PAI在相同地域,并完成相关配置与开通服务。
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
云上一键部署 DeepSeek-V3 模型,阿里云 PAI-Model Gallery 最佳实践
本文介绍了如何在阿里云 PAI 平台上一键部署 DeepSeek-V3 模型,通过这一过程,用户能够轻松地利用 DeepSeek-V3 模型进行实时交互和 API 推理,从而加速 AI 应用的开发和部署。
|
3月前
|
机器学习/深度学习 测试技术
阿里云入选Gartner数据科学和机器学习平台挑战者象限
Gartner® 正式发布了《数据科学与机器学习平台魔力象限》报告(Magic Quadrant™ for Data Science and Machine Learning Platforms),阿里云成为唯一一家入选该报告的中国厂商,被评为“挑战者”(Challengers)。
|
13天前
|
人工智能 JSON 算法
魔搭支持在阿里云人工智能平台PAI上进行模型训练、部署了!
现在,魔搭上的众多模型支持在阿里云人工智能平台PAI-Model Gallery上使用阿里云算力资源进行模型训练和部署啦!
|
26天前
|
开发者 Python
阿里云PAI DSW快速部署服务
在使用阿里云DSW实例进行开发的时候,可能需要快速部署服务测试应用效果。DSW实例目前已经支持通过自定义服务访问配置功能,对外提供服务访问能力,您在应用开发过程中无需分享整个DSW实例,即可将服务分享给协作开发者进行测试和验证。
76 23
|
11天前
|
并行计算 PyTorch 算法框架/工具
阿里云PAI-部署Qwen2-VL-72B
阿里云PAI-部署Qwen2-VL-72B踩坑实录
|
2月前
|
机器学习/深度学习 人工智能 算法
国内首家! 阿里云人工智能平台 PAI 通过 ITU 国际标准测评
阿里云人工智能平台 PAI 顺利通过中国信通院组织的 ITU-T AICP-GA国际标准和《智算工程平台能力要求》国内标准一致性测评,成为国内首家通过该标准的企业。阿里云人工智能平台 PAI 参与完成了智算安全、AI 能力中心、数据工程、模型开发训练、模型推理部署等全部八个能力域,共计220余个用例的测试,并100%通过测试要求,获得了 ITU 国际标准和国内可信云标准评估通过双证书。
国内首家! 阿里云人工智能平台 PAI 通过 ITU 国际标准测评
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【NeurIPS'24】阿里云 PAI 团队论文被收录为 Spotlight,并完成主题演讲分享
12月10日,NeurIPS 2024在温哥华开幕,阿里云PAI团队论文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》入选Spotlight,PAI团队还进行了“可信AI的技术解读与最佳实践”主题演讲,展示AI工程化平台产品能力。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【EMNLP2024】阿里云人工智能平台 PAI 多篇论文入选 EMNLP2024
阿里云人工智能平台 PAI 的多篇论文在 EMNLP2024 上入选。论文成果是阿里云与华南理工大学金连文教授团队、复旦大学王鹏教授团队共同研发。EMNLP 是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究,尤其重视自然语言处理的实证研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台 PAI 在自然语言处理和多模态算法能力方面研究获得了学术界认可。
|
3月前
|
JSON 测试技术 API
阿里云PAI-Stable Diffusion开源代码浅析之(二)我的png info怎么有乱码
阿里云PAI-Stable Diffusion开源代码浅析之(二)我的png info怎么有乱码

相关产品

  • 人工智能平台 PAI