阿里云机器学习 PAI 年度发布:持续锻造云原生的 AI 工程平台

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 刚刚结束的 2022 云栖大会上,阿里云机器学习平台 PAI 发布了在开发者服务、企业级能力、工程性能优化三个方向的一系列新特性和功能。从支撑达摩院上云,到服务金融、汽车、互联网、制造等多个行业的创新实践,机器学习 PAI 不断夯实云原生的 AI 工程平台能力。

演讲人:

林伟 | 阿里云研究员、阿里云机器学习 PAI 平台和大数据平台技术负责人

黄博远 | 阿里云资深产品专家、阿里云 AI 产品总监

活动:2022 云栖大会

随着人工智能技术进入到快速应用发展的阶段,AI 工程的必要性愈发凸显,它关系到创新成果能否实质性地落地和服务。AI 工程化,具体体现为“从数据和算力的云原生化”、“调度和编程范式的规模化”、“开发和服务的标准化普惠化”三个方面。


今年,从支撑达摩院上云,到服务金融、汽车、互联网、制造等多个行业的创新实践,机器学习 PAI 不断夯实云原生的 AI 工程平台能力。刚刚结束的 2022 云栖大会上,阿里云机器学习平台 PAI 发布了在开发者服务、企业级能力、工程性能优化三个方向的一系列新特性和功能。

image.png

开发者服务

AI 开发者长期以来面临诸多挑战,例如环境不一致、开发工具百花齐放、最佳实践难以复用等等。为此,机器学习平台 PAI 通过以下新能力提供更轻松易用的开发体验。

  • 大数据与 AI 开发整合

通过 PAI-DSW,开发者可以便捷地访问云原生大数据平台 MaxCompute 和使用 EMR 上开源的数据计算能力。这样,AI 开发者可以基于云上的结构化和非结构化数据,去构建自己的业务,获得更大的想象空间。

  • 与模型社区 ModelScope 魔搭联动

当开发者在模型社区 ModelScope 魔搭上找到合适的模型,可以一键跳转到 PAI-DSW 中进行微调优化,获得定制的高效人工智能模型。并通过 PAI-DLC 进行分布式训练,最后在 PAI-EAS 中将其部署成在线服务,更好地分享和应用。

  • 多场景最佳实践库

通过 PAI-DSW Gallery, 我们提供丰富的多场景最佳实践库,开发者能够一键复用、快速上手,快速解决场景问题。

  • 云原生的异构硬件资源

通过 PAI 平台,开发者在进行模型开发调优的同时,也能对接各类云原生的算力资源,使得开发者能专注开发,不再为资源选择、资源管理等问题困扰。

image.png

企业级能力

除了单点地服务好开发者,机器学习平台 PAI 非常关注企业级能力的打造,让 AI 团队有更高的协同效率和管理效率。

  • 资源管理

通过端到端的仪表盘,企业可以清晰地看到已经使用的资源情况,还可通过 PAI-AI 工作空间进一步管理和分配云原生的训练资源、推理资源、成员权限,并完成 MaxCompute、Flink 等大数据计算资源绑定。

  • 全链路 OpenAPI

PAI 推出了覆盖模型开发应用全过程的 OpenAPI,包括数据准备、模型开发、模型训练、推理服务、资源管理等各个方面,企业客户可以集成 PAI 的能力,与自己的平台做深度整合。

  • 可视化建模

PAI-Designer 是可视化、低代码的建模平台,内置 200+ 最佳实践算法组件,可以支持企业客户快速构建业务流程。PAI-Designer 具备支持跨计算资源的工作流、支持流批一体计算、支持自定义 Python 和 SQL 语句等新功能。

  • MLOps

PAI 提供完善的模型及版本管理功能,支持训练任务和部署服务的血缘查询。支持训练及推理镜像的统一管理,支持实验及 Metrics 对照管理。

image.png

工程性能优化

性能优化一直是机器学习 PAI 团队的关注焦点。我们开放了数据、训练、推理各方面的加速能力,帮助用户实现整个 AI 系统的降本增效。

  • 数据集加速

PAI-DatasetAcc 是 PAI 新发布的数据集加速器,在训练过程中可实现对训练数据集吞吐效率高达 10 倍以上的提升。

  • 大规模训练

开源大规模分布式训练框架 EPL 可支持高达 10 万亿参数量级的模型训练,与传统方案相比训练效率提升 11 倍。EPL 通过对不同并行化策略进行统一抽象、封装,在一套分布式训练框架中支持多种并行策略,并进行显存、计算、通信等全方位的优化,来提供易用、高效的分布式训练能力。开源大规模稀疏模型训练/预测引擎 DeepRec 在分布式、图优化、算子、Runtime 等方面对稀疏模型进行了深度性能优化,同时提供了稀疏场景下特有的 Embedding 相关功能。目前支持了淘宝搜索、推荐、广告等电商业务,支撑着千亿特征、万亿样本的超大规模稀疏训练。

  • 推理优化

PAI 提供推理优化工具 PAI-Blade,支持自动压缩、编译优化、通用推理优化等,适配多种计算架构的硬件,推理效率可提升 6 倍。PAI-Blade 帮助用户通过工具化、系统化地方式完成模型服务推理优化,无需再通过人工定制的方式实现。此外,PAI-Blade 以原生框架扩展形式实现,不会入侵和改动原有的 AI 部署流程。PAI-Blade 核心自研能力是 AI 编译器 BladeDISC。BladeDISC 开创性地对 AI 模型中越来越强的动态性进行原生支持,极大扩展了编译优化的应用空间,为更多、更复杂、更加动态化的模型带来性能提升。今年,BladeDISC 也已经开源。


从提升开发者效率、提升开发团队的效率、再到提升机器使用的效率,机器学习平台 PAI 坚持以云原生和弹性灵活的平台服务,支撑更多开发者和企业完成 AI 创新与落地,尤其在搜推广、用户增长、智慧零售、自动驾驶等领域积累大量最佳实践。


了解更多关于机器学习平台 PAI 相关消息:https://www.aliyun.com/product/bigdata/learn?gzh_allj1114

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
4天前
|
存储 弹性计算 监控
【阿里云云原生专栏】成本优化策略:在阿里云云原生平台上实现资源高效利用
【5月更文挑战第29天】本文探讨了在阿里云云原生平台上实现资源高效利用和成本优化的策略。通过资源监控与评估,利用CloudMonitor和Prometheus等工具分析CPU、内存等使用情况,识别浪费。实施弹性伸缩策略,利用自动伸缩规则根据业务负载动态调整资源。借助容器化管理和Kubernetes编排提高资源利用率,优化存储选择如OSS、NAS,以及网络配置如VPC和CDN。示例展示了如何使用Kubernetes的HorizontalPodAutoscaler进行弹性伸缩,降低成本。
25 4
|
4天前
|
边缘计算 Cloud Native 数据管理
【阿里云云原生专栏】云原生背景下的AIoT布局:阿里云Link平台解析
【5月更文挑战第29天】阿里云Link平台,作为阿里云在AIoT领域的核心战略,借助云原生技术,为开发者打造一站式物联网服务平台。平台支持多协议设备接入与标准化管理,提供高效数据存储、分析及可视化,集成边缘计算实现低延时智能分析。通过实例代码展示,平台简化设备接入,助力智能家居等领域的创新应用,赋能开发者构建智能生态系统。
33 3
|
3天前
|
机器学习/深度学习 人工智能 测试技术
阿里云连续三年入围Gartner云AI开发者服务挑战者象限
Gartner正式发布了《云AI开发者服务魔力象限》报告(Magic Quadrant for Cloud AI Developer Services),阿里云成功入选,是唯一一家入围“挑战者”(Challengers)象限的中国厂商,并且保持连续三年入围。
|
4天前
|
人工智能 运维 监控
|
4天前
|
OLAP 数据处理 Apache
众安保险 CDP 平台:借助阿里云数据库 SelectDB 版内核 Apache Doris 打破数据孤岛,人群圈选提速4倍
众安保险在CDP(Customer Data Platform,客户数据平台)建设中,通过引入阿里云数据库SelectDB版内核Apache Doris,成功打破了数据孤岛,并显著提升了人群圈选的速度
162 1
|
5天前
|
机器学习/深度学习 弹性计算 自然语言处理
【阿里云弹性计算】深度学习训练平台搭建:阿里云 ECS 与 GPU 实例的高效利用
【5月更文挑战第28天】阿里云ECS结合GPU实例为深度学习提供高效解决方案。通过弹性计算服务满足大量计算需求,GPU加速训练。用户可按需选择实例规格,配置深度学习框架,实现快速搭建训练平台。示例代码展示了在GPU实例上使用TensorFlow进行训练。优化包括合理分配GPU资源和使用混合精度技术,应用涵盖图像识别和自然语言处理。注意成本控制及数据安全,借助阿里云推动深度学习发展。
29 2
|
5天前
|
弹性计算 运维 监控
【阿里云云原生专栏】自动化运维的艺术:阿里云云原生平台的自动化运维工具集
【5月更文挑战第28天】阿里云云原生平台提供全面的自动化运维工具,涵盖监控告警、资源管理、部署更新、故障自愈、安全管理和数据备份等方面,简化运维工作,增强系统稳定性。通过智能工具集,运维人员能专注于业务优化,实现高效运维,为企业数字化转型提供有力支持。
119 3
|
5天前
|
供应链 Cloud Native 安全
【阿里云云原生专栏】云原生与区块链的交响曲:阿里云 BaaS 平台的应用展望
【5月更文挑战第28天】阿里云BaaS平台融合云原生与区块链技术,提供一站式便捷、高性能且安全的区块链服务。在供应链和金融等领域应用广泛,如智能合约示例所示,助力数字化转型。未来,两者融合将深化,创造更多应用模式。企业和开发者应把握机遇,借助阿里云BaaS平台开创未来。
154 1
|
6天前
|
Cloud Native 安全 Serverless
【阿里云云原生专栏】低代码开发在云原生平台的应用:阿里云低代码服务探索
【5月更文挑战第27天】在云原生时代,低代码开发凭借其图形化界面和预构建模块,简化了应用开发,提升了效率。阿里云积极探索低代码领域,推出函数计算FC和应用配置中心ACM等服务。FC让开发者无需关注基础设施,仅需少量代码即可实现应用部署,而ACM则提供动态配置管理,增强应用灵活性。阿里云的这些服务为企业数字化转型提供了高效、安全的解决方案,预示着低代码开发在云原生平台上的重要地位。
178 1
|
8天前
|
存储 弹性计算 人工智能
【阿里云弹性计算】AI 训练与推理在阿里云 ECS 上的高效部署与优化
【5月更文挑战第25天】阿里云ECS为AI训练和推理提供弹性、可扩展的计算资源,确保高性能和稳定性。通过灵活配置实例类型、利用存储服务管理数据,以及优化模型和代码,用户能实现高效部署和优化。自动伸缩、任务调度和成本控制等策略进一步提升效率。随着AI技术发展,阿里云ECS将持续助力科研和企业创新,驱动人工智能新时代。
25 0

热门文章

最新文章

相关产品

  • 人工智能平台 PAI