近日,阿里云人工智能平台 PAI 顺利通过中国信通院组织的 ITU-T AICP-GA(Technical Specification for Artificial Intelligence Cloud Platform:General Architecture)国际标准和《智算工程平台能力要求》国内标准一致性测评,成为国内首家通过该标准的企业。阿里云人工智能平台 PAI 参与完成了智算安全、AI 能力中心、数据工程、模型开发训练、模型推理部署等全部八个能力域,共计220余个用例的测试,并100%通过测试要求,获得了 ITU 国际标准和国内可信云标准评估通过双证书。
ITU-T F.AICP 系列标准作为国内唯一在 ITU-T SG16 立项的人工智能云平台技术规范,能够客观衡量企业人工智能云平台产品的能力,指导企业构建人工智能云平台服务规范,为用户选择人工智能云产品提供参考。同时,《智算工程平台能力要求》作为人工智能云平台领域上与国际标准相同步、并相互兼容与认可的标准规范,是企业人工智能云平台产品在国内应用的重要指导。
阿里云人工智能平台 PAI 产品介绍
阿里云人工智能平台 PAI(Platform for AI)是面向企业客户及开发者的一站式 AI 平台,提供模型开发平台、模型训练服务、以及模型推理服务,包括 PAI-iTag 智能标注、PAI-FeatureStore 特征存储、PAI-DSW 交互式建模、PAI-Designer 可视化建模、PAI-DLC 分布式训练、以及 PAI-EAS 在线部署、PAI-Blade 推理加速等功能模块,涵盖 AI 开发的完整流程。PAI 还提供场景化最佳实践 QuickStart 和行业领域 AIGC 工具 ArtLab。
1. 模型开发平台:PAI-DSW 交互式建模、PAI-Deigner 可视化建模
PAI-DSW(Data Science Workshop)是为算法开发者量身打造的交互式云端开发 IDE,支持 Copilot 辅助编程,提供丰富的异构计算资源,预置多种开源框架的镜像,支持实例的生命周期管理。提供海量前沿案例,以 Notebook 的形式提供热门场景的最佳实践,如 Stable Diffusion、Llama2、通义千问系列大模型等。
PAI-Designer 是 PAI 产品基于云原生架构和工作流引擎开发的可视化建模工具,提供端到端的机器学习全链路开发环境,内置丰富且成熟的机器学习算法,覆盖商品推荐、金融风控及广告预测等场景,满足不同方向的业务需求。
2. 模型训练服务:PAI-DLC 大规模分布式任务
分布式训练 PAI-DLC(Deep Learning Containers)是基于云原生的 AI 训练平台,为开发者和企业提供灵活、稳定、易用和高性能的机器学习训练环境。
- 极致的易用性:
PAI 提供 Serverless 分布式任务,无需搭建各种集群,可以直接提交 Megatron, Deepspeed, Pytorch, Tensorflow, Slurm, Ray, MPI 等十多种训练框架的任务。支持竞价任务模式(Spot),具备分布式任务异构算力、多级 Quota 管理、任务形态混合运行、任务无感切换等能力。 - 极致的稳定:
自研的容错引擎 AIMaster、高性能 Checkpoint 框架 EasyCKPT、健康检测 SanityCheck 以及节点自愈功能,有效解决多种稳定性问题。具备快速探查、准确感应与快速反馈的能力,有效降低算力损失,提升训练稳定性。 - 极致的性能:
自研 AI 训练加速框架,实现统一数据并行、流水并行、算子拆分以及嵌套的并行加速策略。通过并行策略自动探索和多维度显存优化,结合高速网络的拓扑感知调度,以及通信线程池、梯度分组融合、混合精度通信、梯度压缩等分布式通信库的优化,提升分布式训练效率。
图片
3. 模型推理服务:PAI-EAS 模型部署与在线服务、PAI-Blade 推理加速
模型在线服务 PAI-EAS(Elastic Algorithm Service)是 PAI 产品为实现一站式模型开发部署应用,针对在线推理场景提供的模型在线服务,在全球范围内16个 Region 提供服务,集群规模超过10万卡量级。
- 一站式快速部署:
支持实时在线服务、近实时异步推理、离线批量推理等多种任务类型,支持一键压测、灰度发布、监控报警等模型部署能力,支持场景化和模版化部署(例如 LLM,ComfyUI 视频生成,RAG 对话系统等)。 - 全方位的性价比:
通过弹性扩缩容、定时扩缩容、弹性资源池等实现高效的集群资源调度,达到整体降本增效。通过抢占型实例资源、GPU 资源共享、Serverless 模型服务等方式大幅降低部署成本最高达90%。 - 深度的优化加速:
通过推理优化引擎 PAI-BladeLLM,综合 BlaDNN 高性能算子、量化、 PD 分离的分布式推理、Prompt cache 缓存优化等技术,降低首包时延 (TTFT) 60%+、降低 token 输出时延 (TPOT) 70%+、提升推理吞吐80%+。
4. 场景化最佳实践:PAI-QuickStart、PAI-ArtLab
PAI-QuickStart 整合了 Model Gallery 模型广场、Notebook Gallery 案例资源等,集成丰富的预训练模型(LLM、CV、NLP、语音),提供一站式零代码、低门槛的模型一键微调、部署、评测能力,快速帮助用户上手 AI 开发。
PAI-ArtLab 提供了行业化的 AIGC 解决方案,为没有 AI 技术背景的行业开发者提供了开箱即用的低代码化的 AI 开发工具链,降低了 AI 开发的门槛。
5. AI 与大数据一体化:智能标注 PAI-iTag、多种场景数据处理、AI 血缘全链路追溯等
PAI-iTAG 是智能化数据标注平台,支持图像、文本、视频、音频等多种数据类型的标注以及多模态的混合标注,提供了丰富的标注内容组件,支持 AI 赋能的自动标注以及丰富的预置模版。PAI 构建了 AI 资产全链路数据服务体系,具备全生命周期数据管理、多模态数据清洗、多模态数据分析、智能化数据标注和增强等能力,并提供全局的模型和数据血缘追溯能力。
6. 企业级能力:工作空间与权限管理、资源与资产管理、安全与可信 AI 等
PAI 平台提供全方位的企业级能力,能高效解决企业内部 AI 计算资源、开发人员、权限、AI 资产之间的关系,创建生产级的高质量模型及应用。PAI 平台支持可信 AI 模块,具备毒性数据清洗、算法公平性/错误性识别、机密计算容器、不当推理内容拦截等功能,保障模型和数据安全。