PAI的业务架构分为以下四层:
基础资源层(计算资源&基础设施):
基础设施包括CPU、GPU、高速RDMA网络以及容器服务ACK等。
计算资源包括云原生资源(灵骏计算资源和通用计算资源)和大数据引擎资源(MaxCompute和Flink)。
平台工具层(灵骏智算服务&人工智能框架):
人工智能框架:包括Alink、TensorFlow、PyTorch、Megatron、DeepSpeed及RLHF等智能框架,用于执行分布式计算任务。
优化与加速框架:包括DatasetAcc数据集加速、TorchAcc训练加速、EPL并行训练框架、Blade推理加速、AIMaster自动容错训练以及EasyCkpt秒级异步训练快照等。
按照机器学习全流程,PAI分别提供了数据准备、模型开发与训练以及模型部署阶段的产品:
数据准备:PAI提供了标注服务,支持在多种场景下进行数据标注和数据集管理。
模型开发与训练:PAI提供了可视化建模(Designer)、交互式建模(DSW)、分布式训练(DLC)以及特征平台(FeatureStore),满足不同的建模需求。
模型部署:PAI提供了模型在线服务(EAS),帮助您快速地将模型部署为服务。
应用层(模型服务):支持模型服务包括ModelScope魔搭社区、PAI-DashScope、第三方MaaS平台和百炼。
业务层(场景化解决方案):PAI应用于自动驾驶、科研智算、金融风控、智能推荐等各个领域。阿里巴巴集团内部的搜索系统、推荐系统及金融服务系统等,均依赖于PAI进行数据挖掘。