在PAI平台的用户群体中,企业用户具有其特殊性。企业用户在使用我们的 AI 平台时,面临着复杂场景,且在资源、人员管理等诸多方面的规则流程上有着严苛要求。
今日,为诸位分享PAI平台在企业级能力方面的进展,包括为企业客户所开发的功能模块,及其在企业实际应用场景中的应用状况。首先,我会对企业用户在使用 AI 平台过程中所面临的挑战与困境展开分析,继而阐述 AI 平台企业级能力的整体架构。随后,针对各个模块进行详细剖析,最后通过一个典型案例为大家呈现优质的AI企业平台如何建设和运维的。
一、企业级用户诉求
当企业运用人工智能时同常会在以下四个方面做设定目标,同时也会面临一系列巨大的挑战。首先企业不同于普通用户,企业有更复杂的组织结构,其工作内容繁杂,人员涉及多个部门,这就需要清晰界定权限体系。其二,AI 资源,尤其是 GPU 资源成本高昂,企业投入大量资源后,如何实现资源的高效利用,达成企业产出的最大化,是亟待解决的问题。其三,企业的 AI 任务管控难度颇高,任务数量可能数以千计,如何保障这些任务的合理规划与良好运行,以契合企业预期,极具挑战性。最后,企业的 AI 资产在训练过程中可能遭遇若干问题,例如模型训练产出后,企业如何充分利用这些资产,使其价值最大化,这是企业高管极为关注的要点。
这张图表示企业级能力的整体情况。在此架构图中,核心概念是 AI 工作空间,这是PAI平台顶级概念。所有资源、任务、数据以及账号数据等,均被涵盖于该工作空间之下。在工作空间内,具备人员管理功能,涵盖用户角色、通知权限等;资源管理功能包括计算资源分配与资源监控;任务管理方面设有调度策略,可在工作空间内进行调度配置,当任务出现异常时,有通知和监控报警机制;资产管理涉及模型资产和 AI 过程中产生的资产的管理。
二、企业级能力大圈
此外,我们高度重视被集成能力。诸多企业存在定制化需求,如何利用PAI平台的基础能力进行二次开发,从而满足企业应用需求,是至关重要的一点。
第一方面,人员管理的核心在于用户与权限。
PAI会将用户划分为不同角色,并赋予相应权限。每个用户都将在特定角色和权限范围内操作平台。例如,资源管理者、工作空间管理员以及普通用户等。对于一些敏感操作,我们会依据事先定义好的规则记录其操作日志,这些事件也会存储于系统中,以便企业进行二次审计与查询,这是企业极为重视的环节。
在资源管理方面,我们提供三级架构的资源分配模式。这种三级架构实则代表了资源购买、分配和使用的流程。对于资源管理者而言,其可创建 AI 资源组,购买计算资源,并将这些资源关联至具体的工作空间。工作空间管理员在获取资源后,可继续进行操作,包括创建资源配额并按企业期望的程度进行划分,而后将其分配给具体用户使用。最终,普通开发者在获得资源授权后,方可开展 AI 开发、模型训练、推理服务部署等操作。由此,形成了一个三层架构与流程体系。
资源在使用后会产生众多指标,我们针对这些指标提供了多层次的观测能力,同样分为三层。在具体任务层面,于任务详情页中,可以查看 GPU 使用率、CPU 使用率、内存使用率以及 I/O、网络吞吐量等细粒度指标。再上一层,在资源配额层面,通过热力图以可视化方式呈现 GPU 资源的当前状态,如是否存在碎片化等直观信息。在工作空间层面,则会展示资源水位的趋势情况,包括过去几周、几天直至当前,工作空间内资源水位的变化情况。若出现特殊情况,如资源水位过低或过高,可能需要在资源层面进行诸如购买或降级等相应操作。
在任务管理方面,首先我们设有调度中心,此调度中心供工作空间管理员使用,其可在配额内设置允许运行的任务类型,比如是仅允许训练、仅允许推理,还是两者皆可,同时还能限制工作空间的最高 GPU 卡数,不允许超过特定数量。这是企业十分关注的内容。此外,对于任务训练时长、开发环境实例闲置时长及相应的关闭机制等,都是有效的调控手段。
在事件中心,我们允许用户自定义规则。当任务出现异常停止或长时间停滞的情况时,会通过特定渠道通知相关人员,如任务负责人或运维负责人,以便及时处理,减少损失。
三、企业级能力详细介绍
在资产方面,数据资产是企业极为重要的无形资产。在企业业务场景中,通常拥有大量数据。这些数据可进行标注,供内部训练模块使用,也可用于知识库系统构建。此外,针对每个业务场景可抽象出一些特征,这些特征代表了企业特有的业务属性。它们可在多个团队的训练中共享,并且能够以血缘追溯的方式进行追踪。也就是说,当一个模型运行时,其精度的变化,无论是变好还是变差,或者与昨天相比的升降情况,都可以通过血缘追溯方式判断是否是某一特征所导致的,这有助于提升企业模型训练的效果。
AI 资产包括训练过程中使用的数据集、模型训练产生的模型资产,以及所用到的代码、镜像等,我们都提供了相应的管理工具,使其成为企业可复用的资产。
对于企业而言,PAI平台提供的可集成能力也非常重要。我们通过 API 和 SDK 的方式为企业赋能,企业可在我们的原子能力基础上,开发出符合自身特殊需求的产品应用。这些 API 分为开发类、任务编排类和资源管理类三大类,总计 200 多个,并且还处于不断完善和增加的过程中。
四、企业级AI平台典型案例
最后,我通过一个典型案例来展示企业用户如何在PAI平台的原子能力和基础能力之上构建上层应用。这是一个科研计算场景,涉及国内一家顶尖高校。在PAI平台的基础上,我们为其创建了符合科研场景的计算平台,此平台以“三中心”模式构建和运营,即作业中心、运营中心和运维中心。作业中心涵盖了 AI 和 HPC(高性能计算)融合的整体开发流程与平台,因为在高校中,AI 和 HPC 的应用都十分广泛,所以我们提供了这种 AI + HPC 融合的作业中心开发平台。
其次运营中心有一项非常重要的能力,即计量计费和组织管理。我们知道高校存在各个院系、各个项目组,它们有不同的预算和资源分配,需要相互合理区分。因此,需要一个平台来协助完成计量计费工作。因为每个院系、实验室、项目组都有各自领到的预算和配额,需要进行计量,而且其内部还有计费系统。
运维中心,首先涉及硬件服务器的上架下架等工作,更重要的是它具备监控告警等基础能力,以及资源指标大盘看板之类的功能。它需要有全局视角,能够看到整个平台上高校内各个院系、实验室、用户的使用情况,并能以从高到低等多种维度呈现这些信息。
上述内容就是我们提到的PAI平台企业级能力为用户提供的功能。同时,我们也提到了 API,大家可以看到中间这层的 Open API 是企业极为看重的能力。在这个案例中,高校通过调用我们的 Open API,构建了符合自身学校使用场景的一套应用流程。例如工单管理,某个院系若要申请一批资源、一批机器,或者创建一批新账号、新用户,都需要一个流程,在学校内层层审批。这个审批流程中的很多环节需要下转到我们的基础平台,我们提供的API能很好地满足用户此类场景需求。
同样,通过 API,我们还对接了校内的统一认证系统以及其他众多校内科研业务管理平台。因此,整个计算平台很好地融合进了这家高校的整体管理系统。目前,这套平台服务于该校的数十个院系,同时还能面向社会开放,并且承担了像世界人工智能大赛这样的国际顶级赛事相关工作,是一个非常成功的计算平台案例。