PAI企业级能力升级:应用系统构建、高效资源管理、AI治理

简介: PAI平台针对企业用户在AI应用中的复杂需求,提供了全面的企业级能力。涵盖权限管理、资源分配、任务调度与资产管理等模块,确保高效利用AI资源。通过API和SDK支持定制化开发,满足不同企业的特殊需求。典型案例中,某顶尖高校基于PAI构建了融合AI与HPC的科研计算平台,实现了作业、运营及运维三大中心的高效管理,成功服务于校内外多个场景。

在PAI平台的用户群体中,企业用户具有其特殊性。企业用户在使用我们的 AI 平台时,面临着复杂场景,且在资源、人员管理等诸多方面的规则流程上有着严苛要求。


今日,为诸位分享PAI平台在企业级能力方面的进展,包括为企业客户所开发的功能模块,及其在企业实际应用场景中的应用状况。首先,我会对企业用户在使用 AI 平台过程中所面临的挑战与困境展开分析,继而阐述 AI 平台企业级能力的整体架构。随后,针对各个模块进行详细剖析,最后通过一个典型案例为大家呈现优质的AI企业平台如何建设和运维的。

 

一、企业级用户诉求

当企业运用人工智能时同常会在以下四个方面做设定目标,同时也会面临一系列巨大的挑战。首先企业不同于普通用户,企业有更复杂的组织结构,其工作内容繁杂,人员涉及多个部门,这就需要清晰界定权限体系。其二,AI 资源,尤其是 GPU 资源成本高昂,企业投入大量资源后,如何实现资源的高效利用,达成企业产出的最大化,是亟待解决的问题。其三,企业的 AI 任务管控难度颇高,任务数量可能数以千计,如何保障这些任务的合理规划与良好运行,以契合企业预期,极具挑战性。最后,企业的 AI 资产在训练过程中可能遭遇若干问题,例如模型训练产出后,企业如何充分利用这些资产,使其价值最大化,这是企业高管极为关注的要点。


这张图表示企业级能力的整体情况。在此架构图中,核心概念是 AI 工作空间,这是PAI平台顶级概念。所有资源、任务、数据以及账号数据等,均被涵盖于该工作空间之下。在工作空间内,具备人员管理功能,涵盖用户角色、通知权限等;资源管理功能包括计算资源分配与资源监控;任务管理方面设有调度策略,可在工作空间内进行调度配置,当任务出现异常时,有通知和监控报警机制;资产管理涉及模型资产和 AI 过程中产生的资产的管理。

 

二、企业级能力大圈

此外,我们高度重视被集成能力。诸多企业存在定制化需求,如何利用PAI平台的基础能力进行二次开发,从而满足企业应用需求,是至关重要的一点。


第一方面,人员管理的核心在于用户与权限。

PAI会将用户划分为不同角色,并赋予相应权限。每个用户都将在特定角色和权限范围内操作平台。例如,资源管理者、工作空间管理员以及普通用户等。对于一些敏感操作,我们会依据事先定义好的规则记录其操作日志,这些事件也会存储于系统中,以便企业进行二次审计与查询,这是企业极为重视的环节。


在资源管理方面,我们提供三级架构的资源分配模式。这种三级架构实则代表了资源购买、分配和使用的流程。对于资源管理者而言,其可创建 AI 资源组,购买计算资源,并将这些资源关联至具体的工作空间。工作空间管理员在获取资源后,可继续进行操作,包括创建资源配额并按企业期望的程度进行划分,而后将其分配给具体用户使用。最终,普通开发者在获得资源授权后,方可开展 AI 开发、模型训练、推理服务部署等操作。由此,形成了一个三层架构与流程体系。


资源在使用后会产生众多指标,我们针对这些指标提供了多层次的观测能力,同样分为三层。在具体任务层面,于任务详情页中,可以查看 GPU 使用率、CPU 使用率、内存使用率以及 I/O、网络吞吐量等细粒度指标。再上一层,在资源配额层面,通过热力图以可视化方式呈现 GPU 资源的当前状态,如是否存在碎片化等直观信息。在工作空间层面,则会展示资源水位的趋势情况,包括过去几周、几天直至当前,工作空间内资源水位的变化情况。若出现特殊情况,如资源水位过低或过高,可能需要在资源层面进行诸如购买或降级等相应操作。


在任务管理方面,首先我们设有调度中心,此调度中心供工作空间管理员使用,其可在配额内设置允许运行的任务类型,比如是仅允许训练、仅允许推理,还是两者皆可,同时还能限制工作空间的最高 GPU 卡数,不允许超过特定数量。这是企业十分关注的内容。此外,对于任务训练时长、开发环境实例闲置时长及相应的关闭机制等,都是有效的调控手段。


在事件中心,我们允许用户自定义规则。当任务出现异常停止或长时间停滞的情况时,会通过特定渠道通知相关人员,如任务负责人或运维负责人,以便及时处理,减少损失。

 

三、企业级能力详细介绍

在资产方面,数据资产是企业极为重要的无形资产。在企业业务场景中,通常拥有大量数据。这些数据可进行标注,供内部训练模块使用,也可用于知识库系统构建。此外,针对每个业务场景可抽象出一些特征,这些特征代表了企业特有的业务属性。它们可在多个团队的训练中共享,并且能够以血缘追溯的方式进行追踪。也就是说,当一个模型运行时,其精度的变化,无论是变好还是变差,或者与昨天相比的升降情况,都可以通过血缘追溯方式判断是否是某一特征所导致的,这有助于提升企业模型训练的效果。


AI 资产包括训练过程中使用的数据集、模型训练产生的模型资产,以及所用到的代码、镜像等,我们都提供了相应的管理工具,使其成为企业可复用的资产。


对于企业而言,PAI平台提供的可集成能力也非常重要。我们通过 API 和 SDK 的方式为企业赋能,企业可在我们的原子能力基础上,开发出符合自身特殊需求的产品应用。这些 API 分为开发类、任务编排类和资源管理类三大类,总计 200 多个,并且还处于不断完善和增加的过程中。

 

四、企业级AI平台典型案例

最后,我通过一个典型案例来展示企业用户如何在PAI平台的原子能力和基础能力之上构建上层应用。这是一个科研计算场景,涉及国内一家顶尖高校。在PAI平台的基础上,我们为其创建了符合科研场景的计算平台,此平台以“三中心”模式构建和运营,即作业中心、运营中心和运维中心。作业中心涵盖了 AI 和 HPC(高性能计算)融合的整体开发流程与平台,因为在高校中,AI 和 HPC 的应用都十分广泛,所以我们提供了这种 AI + HPC 融合的作业中心开发平台。


其次运营中心有一项非常重要的能力,即计量计费和组织管理。我们知道高校存在各个院系、各个项目组,它们有不同的预算和资源分配,需要相互合理区分。因此,需要一个平台来协助完成计量计费工作。因为每个院系、实验室、项目组都有各自领到的预算和配额,需要进行计量,而且其内部还有计费系统。


运维中心,首先涉及硬件服务器的上架下架等工作,更重要的是它具备监控告警等基础能力,以及资源指标大盘看板之类的功能。它需要有全局视角,能够看到整个平台上高校内各个院系、实验室、用户的使用情况,并能以从高到低等多种维度呈现这些信息。


上述内容就是我们提到的PAI平台企业级能力为用户提供的功能。同时,我们也提到了 API,大家可以看到中间这层的 Open API 是企业极为看重的能力。在这个案例中,高校通过调用我们的 Open API,构建了符合自身学校使用场景的一套应用流程。例如工单管理,某个院系若要申请一批资源、一批机器,或者创建一批新账号、新用户,都需要一个流程,在学校内层层审批。这个审批流程中的很多环节需要下转到我们的基础平台,我们提供的API能很好地满足用户此类场景需求。


同样,通过 API,我们还对接了校内的统一认证系统以及其他众多校内科研业务管理平台。因此,整个计算平台很好地融合进了这家高校的整体管理系统。目前,这套平台服务于该校的数十个院系,同时还能面向社会开放,并且承担了像世界人工智能大赛这样的国际顶级赛事相关工作,是一个非常成功的计算平台案例。

相关文章
|
4月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
593 30
|
4月前
|
设计模式 人工智能 自然语言处理
3个月圈粉百万,这个AI应用在海外火了
不知道大家还记不记得,我之前推荐过一个叫 Agnes 的 AI 应用,也是当时在 WAIC 了解到的。
579 1
|
4月前
|
人工智能 新制造 云栖大会
TsingtaoAI亮相云栖大会,AI大模型赋能传统制造业焕新升级
2025年9月24日,杭州云栖小镇,2025云栖大会盛大开幕。作为全球AI技术与产业融合的重要平台,本届大会以“AI驱动产业变革”为主题,集中展示大模型技术在各领域的创新应用。 其中,由西湖区商务局牵头组织的“AI大模型应用与产业融合”专场论坛成为大会亮点之一,吸引了来自政府、企业及投资机构的百余名代表参与。 在论坛上,TsingtaoAI作为制造业智能化转型的代表企业,分享了在具身智能-制造企业的AI应用实践。
205 1
|
存储 人工智能 安全
智存跃迁,阿里云存储面向 AI 升级全栈数据存储能力
一文总览阿里云存储产品创新与进展!
1124 0
|
4月前
|
消息中间件 人工智能 安全
构建企业级 AI 应用:为什么我们需要 AI 中间件?
阿里云发布AI中间件,涵盖AgentScope-Java、AI MQ、Higress、Nacos及可观测体系,全面开源核心技术,助力企业构建分布式多Agent架构,推动AI原生应用规模化落地。
492 0
构建企业级 AI 应用:为什么我们需要 AI 中间件?
|
4月前
|
人工智能 安全 Serverless
再看 AI 网关:助力 AI 应用创新的关键基础设施
AI 网关作为云产品推出已有半年的时间,这半年的时间里,AI 网关从内核到外在都进行了大量的进化,本文将从 AI 网关的诞生、AI 网关的产品能力、AI 网关的开放生态,以及新推出的 Serverless 版,对其进行一个全面的介绍,期望对正在进行 AI 应用落地的朋友,在 AI 基础设施选型方面提供一些参考。
840 75
|
4月前
|
人工智能 缓存 运维
【智造】AI应用实战:6个agent搞定复杂指令和工具膨胀
本文介绍联调造数场景下的AI应用演进:从单Agent模式到多Agent协同的架构升级。针对复杂指令执行不准、响应慢等问题,通过意图识别、工具引擎、推理执行等多Agent分工协作,结合工程化手段提升准确性与效率,并分享了关键设计思路与实践心得。
781 20
【智造】AI应用实战:6个agent搞定复杂指令和工具膨胀
|
4月前
|
人工智能 安全 中间件
构建企业级 AI 应用:为什么我们需要 AI 中间件?
阿里云发布AI中间件,推出AgentScope-Java、AI MQ、Higress网关、Nacos注册中心及可观测体系,全面开源核心技术,构建分布式多Agent架构基座,助力企业级AI应用规模化落地,推动AI原生应用进入新范式。
821 26
|
4月前
|
人工智能 安全 数据可视化
Dify让你拖拽式搭建企业级AI应用
Dify是开源大模型应用开发平台,融合BaaS与LLMOps理念,通过可视化工作流、低代码编排和企业级监控,支持多模型接入与RAG知识库,助力企业快速构建安全可控的AI应用,实现从原型到生产的高效落地。
Dify让你拖拽式搭建企业级AI应用

相关产品

  • 人工智能平台 PAI