阿里云机器学习 PAI 年度发布:持续锻造云原生的 AI 工程平台

简介: 刚刚结束的 2022 云栖大会上,阿里云机器学习平台 PAI 发布了在开发者服务、企业级能力、工程性能优化三个方向的一系列新特性和功能。从支撑达摩院上云,到服务金融、汽车、互联网、制造等多个行业的创新实践,机器学习 PAI 不断夯实云原生的 AI 工程平台能力。

演讲人:

林伟 | 阿里云研究员、阿里云机器学习 PAI 平台和大数据平台技术负责人

黄博远 | 阿里云资深产品专家、阿里云 AI 产品总监

活动:2022 云栖大会

随着人工智能技术进入到快速应用发展的阶段,AI 工程的必要性愈发凸显,它关系到创新成果能否实质性地落地和服务。AI 工程化,具体体现为“从数据和算力的云原生化”、“调度和编程范式的规模化”、“开发和服务的标准化普惠化”三个方面。


今年,从支撑达摩院上云,到服务金融、汽车、互联网、制造等多个行业的创新实践,机器学习 PAI 不断夯实云原生的 AI 工程平台能力。刚刚结束的 2022 云栖大会上,阿里云机器学习平台 PAI 发布了在开发者服务、企业级能力、工程性能优化三个方向的一系列新特性和功能。

image.png

开发者服务

AI 开发者长期以来面临诸多挑战,例如环境不一致、开发工具百花齐放、最佳实践难以复用等等。为此,机器学习平台 PAI 通过以下新能力提供更轻松易用的开发体验。

  • 大数据与 AI 开发整合

通过 PAI-DSW,开发者可以便捷地访问云原生大数据平台 MaxCompute 和使用 EMR 上开源的数据计算能力。这样,AI 开发者可以基于云上的结构化和非结构化数据,去构建自己的业务,获得更大的想象空间。

  • 与模型社区 ModelScope 魔搭联动

当开发者在模型社区 ModelScope 魔搭上找到合适的模型,可以一键跳转到 PAI-DSW 中进行微调优化,获得定制的高效人工智能模型。并通过 PAI-DLC 进行分布式训练,最后在 PAI-EAS 中将其部署成在线服务,更好地分享和应用。

  • 多场景最佳实践库

通过 PAI-DSW Gallery, 我们提供丰富的多场景最佳实践库,开发者能够一键复用、快速上手,快速解决场景问题。

  • 云原生的异构硬件资源

通过 PAI 平台,开发者在进行模型开发调优的同时,也能对接各类云原生的算力资源,使得开发者能专注开发,不再为资源选择、资源管理等问题困扰。

image.png

企业级能力

除了单点地服务好开发者,机器学习平台 PAI 非常关注企业级能力的打造,让 AI 团队有更高的协同效率和管理效率。

  • 资源管理

通过端到端的仪表盘,企业可以清晰地看到已经使用的资源情况,还可通过 PAI-AI 工作空间进一步管理和分配云原生的训练资源、推理资源、成员权限,并完成 MaxCompute、Flink 等大数据计算资源绑定。

  • 全链路 OpenAPI

PAI 推出了覆盖模型开发应用全过程的 OpenAPI,包括数据准备、模型开发、模型训练、推理服务、资源管理等各个方面,企业客户可以集成 PAI 的能力,与自己的平台做深度整合。

  • 可视化建模

PAI-Designer 是可视化、低代码的建模平台,内置 200+ 最佳实践算法组件,可以支持企业客户快速构建业务流程。PAI-Designer 具备支持跨计算资源的工作流、支持流批一体计算、支持自定义 Python 和 SQL 语句等新功能。

  • MLOps

PAI 提供完善的模型及版本管理功能,支持训练任务和部署服务的血缘查询。支持训练及推理镜像的统一管理,支持实验及 Metrics 对照管理。

image.png

工程性能优化

性能优化一直是机器学习 PAI 团队的关注焦点。我们开放了数据、训练、推理各方面的加速能力,帮助用户实现整个 AI 系统的降本增效。

  • 数据集加速

PAI-DatasetAcc 是 PAI 新发布的数据集加速器,在训练过程中可实现对训练数据集吞吐效率高达 10 倍以上的提升。

  • 大规模训练

开源大规模分布式训练框架 EPL 可支持高达 10 万亿参数量级的模型训练,与传统方案相比训练效率提升 11 倍。EPL 通过对不同并行化策略进行统一抽象、封装,在一套分布式训练框架中支持多种并行策略,并进行显存、计算、通信等全方位的优化,来提供易用、高效的分布式训练能力。开源大规模稀疏模型训练/预测引擎 DeepRec 在分布式、图优化、算子、Runtime 等方面对稀疏模型进行了深度性能优化,同时提供了稀疏场景下特有的 Embedding 相关功能。目前支持了淘宝搜索、推荐、广告等电商业务,支撑着千亿特征、万亿样本的超大规模稀疏训练。

  • 推理优化

PAI 提供推理优化工具 PAI-Blade,支持自动压缩、编译优化、通用推理优化等,适配多种计算架构的硬件,推理效率可提升 6 倍。PAI-Blade 帮助用户通过工具化、系统化地方式完成模型服务推理优化,无需再通过人工定制的方式实现。此外,PAI-Blade 以原生框架扩展形式实现,不会入侵和改动原有的 AI 部署流程。PAI-Blade 核心自研能力是 AI 编译器 BladeDISC。BladeDISC 开创性地对 AI 模型中越来越强的动态性进行原生支持,极大扩展了编译优化的应用空间,为更多、更复杂、更加动态化的模型带来性能提升。今年,BladeDISC 也已经开源。


从提升开发者效率、提升开发团队的效率、再到提升机器使用的效率,机器学习平台 PAI 坚持以云原生和弹性灵活的平台服务,支撑更多开发者和企业完成 AI 创新与落地,尤其在搜推广、用户增长、智慧零售、自动驾驶等领域积累大量最佳实践。


了解更多关于机器学习平台 PAI 相关消息:https://www.aliyun.com/product/bigdata/learn?gzh_allj1114

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
7月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
1203 109
|
11月前
|
人工智能 Cloud Native 安全
云原生+AI 为企业出海提供全新技术引擎!明天见
5月22日 14:00「飞天发布时刻」,阿里云云原生应用平台产品负责人李国强将重磅揭晓面向 AI 场景的云原生产品体系升级,通过弹性智能的全球一体化架构、开箱即用的云原生 AI 工程化能力,为中国企业出海提供全新技术引擎。
|
12月前
|
人工智能 关系型数据库 OLAP
光云科技 X AnalyticDB:构建 AI 时代下的云原生企业级数仓
AnalyticDB承载了光云海量数据的实时在线分析,为各个业务线的商家提供了丝滑的数据服务,实时物化视图、租户资源隔离、冷热分离等企业级特性,很好的解决了SaaS场景下的业务痛点,也平衡了成本。同时也基于通义+AnalyticDB研发了企业级智能客服、智能导购等行业解决方案,借助大模型和云计算为商家赋能。
921 17
|
11月前
|
机器学习/深度学习 人工智能 供应链
从概念到商业价值:AI、机器学习与深度学习全景指南
在这个科技飞速发展的时代🚀,人工智能正以惊人的速度渗透到我们的生活和工作中👀。但面对铺天盖地的AI术语和概念,很多人感到困惑不已😣。"AI"、"机器学习"、"深度学习"和"神经网络"到底有什么区别?它们如何相互关联?如何利用这些技术提升工作效率和创造价值?
592 0
|
9月前
|
机器学习/深度学习 人工智能 监控
AI 基础知识从0.1到0.2——用“房价预测”入门机器学习全流程
本系列文章深入讲解了从Seq2Seq、RNN到Transformer,再到GPT模型的关键技术原理与实现细节,帮助读者全面掌握Transformer及其在NLP中的应用。同时,通过一个房价预测的完整案例,介绍了算法工程师如何利用数据训练模型并解决实际问题,涵盖需求分析、数据收集、模型训练与部署等全流程。文章适合初学者和开发者学习AI基础与实战技能。
1116 25
AI 基础知识从0.1到0.2——用“房价预测”入门机器学习全流程
|
11月前
|
人工智能 Cloud Native Java
2025 开源之夏开启报名|AI + 云原生,10个开源项目、24个课题任您挑选
“开源之夏”是由中国科学院软件研究所发起的暑期活动,旨在鼓励高校学生参与开源软件开发与维护。活动联合各大开源社区提供项目任务,面向全球年满18周岁的高校学生开放报名。每位学生最多可申请一个项目。阿里云云原生提报了包括Apache Dubbo、RocketMQ、Seata等在内的10个开源项目共24个课题,涵盖技术优化、功能实现及AI应用等领域。活动流程包括选题、申请、开发与结项考核,具体信息可访问官网了解。
3008 32
|
10月前
|
人工智能 监控 测试技术
云上AI推理平台全掌握 (1):PAI-EAS LLM服务一键压测
在AI技术飞速发展的今天,大语言模型(LLM)、多模态模型等前沿技术正深刻改变行业格局。推理服务是大模型从“实验室突破”走向“产业级应用”的必要环节,需直面高并发流量洪峰、低延时响应诉求、异构硬件优化适配、成本精准控制等复杂挑战。 阿里云人工智能平台 PAI 致力于为用户提供全栈式、高可用的推理服务能力。在本系列技术专题中,我们将围绕分布式推理架构、Serverless 弹性资源全球调度、压测调优和服务可观测等关键技术方向,展现 PAI 平台在推理服务侧的产品能力,助力企业和开发者在 AI 时代抢占先机,让我们一起探索云上 AI 推理的无限可能,释放大模型的真正价值!
|
10月前
|
机器学习/深度学习 PyTorch API
昇腾AI4S图机器学习:DGL消息传递接口的PyG替换
DGL (Deep Graph Learning) 和 PyG (Pytorch Geometric) 是两个主流的图神经网络库,它们在API设计和底层实现上有一定差异,在不同场景下,研究人员会使用不同的依赖库,昇腾NPU对PyG图机器学习库的支持亲和度更高,因此有些时候需要做DGL接口的PyG替换。
|
10月前
|
机器学习/深度学习 PyTorch API
昇腾AI4S图机器学习:DGL图构建接口的PyG替换
本文探讨了在图神经网络中将DGL接口替换为PyG实现的方法,重点以RFdiffusion蛋白质设计模型中的SE3Transformer为例。SE3Transformer通过SE(3)等变性提取三维几何特征,其图构建部分依赖DGL接口。文章详细介绍了两个关键函数的替换:`make_full_graph` 和 `make_topk_graph`。前者构建完全连接图,后者生成k近邻图。通过PyG的高效实现(如`knn_graph`),我们简化了图结构创建过程,并调整边特征处理逻辑以兼容不同框架,从而更好地支持昇腾NPU等硬件环境。此方法为跨库迁移提供了实用参考。

相关产品

  • 人工智能平台 PAI
  • 下一篇
    开通oss服务