PAI企业级能力升级:应用系统构建、高效资源管理、AI治理

简介: PAI平台针对企业用户在AI应用中的复杂需求,提供了全面的企业级能力。涵盖权限管理、资源分配、任务调度与资产管理等模块,确保高效利用AI资源。通过API和SDK支持定制化开发,满足不同企业的特殊需求。典型案例中,某顶尖高校基于PAI构建了融合AI与HPC的科研计算平台,实现了作业、运营及运维三大中心的高效管理,成功服务于校内外多个场景。

在PAI平台的用户群体中,企业用户具有其特殊性。企业用户在使用我们的 AI 平台时,面临着复杂场景,且在资源、人员管理等诸多方面的规则流程上有着严苛要求。


今日,为诸位分享PAI平台在企业级能力方面的进展,包括为企业客户所开发的功能模块,及其在企业实际应用场景中的应用状况。首先,我会对企业用户在使用 AI 平台过程中所面临的挑战与困境展开分析,继而阐述 AI 平台企业级能力的整体架构。随后,针对各个模块进行详细剖析,最后通过一个典型案例为大家呈现优质的AI企业平台如何建设和运维的。

 

一、企业级用户诉求

当企业运用人工智能时同常会在以下四个方面做设定目标,同时也会面临一系列巨大的挑战。首先企业不同于普通用户,企业有更复杂的组织结构,其工作内容繁杂,人员涉及多个部门,这就需要清晰界定权限体系。其二,AI 资源,尤其是 GPU 资源成本高昂,企业投入大量资源后,如何实现资源的高效利用,达成企业产出的最大化,是亟待解决的问题。其三,企业的 AI 任务管控难度颇高,任务数量可能数以千计,如何保障这些任务的合理规划与良好运行,以契合企业预期,极具挑战性。最后,企业的 AI 资产在训练过程中可能遭遇若干问题,例如模型训练产出后,企业如何充分利用这些资产,使其价值最大化,这是企业高管极为关注的要点。


这张图表示企业级能力的整体情况。在此架构图中,核心概念是 AI 工作空间,这是PAI平台顶级概念。所有资源、任务、数据以及账号数据等,均被涵盖于该工作空间之下。在工作空间内,具备人员管理功能,涵盖用户角色、通知权限等;资源管理功能包括计算资源分配与资源监控;任务管理方面设有调度策略,可在工作空间内进行调度配置,当任务出现异常时,有通知和监控报警机制;资产管理涉及模型资产和 AI 过程中产生的资产的管理。

 

二、企业级能力大圈

此外,我们高度重视被集成能力。诸多企业存在定制化需求,如何利用PAI平台的基础能力进行二次开发,从而满足企业应用需求,是至关重要的一点。


第一方面,人员管理的核心在于用户与权限。

PAI会将用户划分为不同角色,并赋予相应权限。每个用户都将在特定角色和权限范围内操作平台。例如,资源管理者、工作空间管理员以及普通用户等。对于一些敏感操作,我们会依据事先定义好的规则记录其操作日志,这些事件也会存储于系统中,以便企业进行二次审计与查询,这是企业极为重视的环节。


在资源管理方面,我们提供三级架构的资源分配模式。这种三级架构实则代表了资源购买、分配和使用的流程。对于资源管理者而言,其可创建 AI 资源组,购买计算资源,并将这些资源关联至具体的工作空间。工作空间管理员在获取资源后,可继续进行操作,包括创建资源配额并按企业期望的程度进行划分,而后将其分配给具体用户使用。最终,普通开发者在获得资源授权后,方可开展 AI 开发、模型训练、推理服务部署等操作。由此,形成了一个三层架构与流程体系。


资源在使用后会产生众多指标,我们针对这些指标提供了多层次的观测能力,同样分为三层。在具体任务层面,于任务详情页中,可以查看 GPU 使用率、CPU 使用率、内存使用率以及 I/O、网络吞吐量等细粒度指标。再上一层,在资源配额层面,通过热力图以可视化方式呈现 GPU 资源的当前状态,如是否存在碎片化等直观信息。在工作空间层面,则会展示资源水位的趋势情况,包括过去几周、几天直至当前,工作空间内资源水位的变化情况。若出现特殊情况,如资源水位过低或过高,可能需要在资源层面进行诸如购买或降级等相应操作。


在任务管理方面,首先我们设有调度中心,此调度中心供工作空间管理员使用,其可在配额内设置允许运行的任务类型,比如是仅允许训练、仅允许推理,还是两者皆可,同时还能限制工作空间的最高 GPU 卡数,不允许超过特定数量。这是企业十分关注的内容。此外,对于任务训练时长、开发环境实例闲置时长及相应的关闭机制等,都是有效的调控手段。


在事件中心,我们允许用户自定义规则。当任务出现异常停止或长时间停滞的情况时,会通过特定渠道通知相关人员,如任务负责人或运维负责人,以便及时处理,减少损失。

 

三、企业级能力详细介绍

在资产方面,数据资产是企业极为重要的无形资产。在企业业务场景中,通常拥有大量数据。这些数据可进行标注,供内部训练模块使用,也可用于知识库系统构建。此外,针对每个业务场景可抽象出一些特征,这些特征代表了企业特有的业务属性。它们可在多个团队的训练中共享,并且能够以血缘追溯的方式进行追踪。也就是说,当一个模型运行时,其精度的变化,无论是变好还是变差,或者与昨天相比的升降情况,都可以通过血缘追溯方式判断是否是某一特征所导致的,这有助于提升企业模型训练的效果。


AI 资产包括训练过程中使用的数据集、模型训练产生的模型资产,以及所用到的代码、镜像等,我们都提供了相应的管理工具,使其成为企业可复用的资产。


对于企业而言,PAI平台提供的可集成能力也非常重要。我们通过 API 和 SDK 的方式为企业赋能,企业可在我们的原子能力基础上,开发出符合自身特殊需求的产品应用。这些 API 分为开发类、任务编排类和资源管理类三大类,总计 200 多个,并且还处于不断完善和增加的过程中。

 

四、企业级AI平台典型案例

最后,我通过一个典型案例来展示企业用户如何在PAI平台的原子能力和基础能力之上构建上层应用。这是一个科研计算场景,涉及国内一家顶尖高校。在PAI平台的基础上,我们为其创建了符合科研场景的计算平台,此平台以“三中心”模式构建和运营,即作业中心、运营中心和运维中心。作业中心涵盖了 AI 和 HPC(高性能计算)融合的整体开发流程与平台,因为在高校中,AI 和 HPC 的应用都十分广泛,所以我们提供了这种 AI + HPC 融合的作业中心开发平台。


其次运营中心有一项非常重要的能力,即计量计费和组织管理。我们知道高校存在各个院系、各个项目组,它们有不同的预算和资源分配,需要相互合理区分。因此,需要一个平台来协助完成计量计费工作。因为每个院系、实验室、项目组都有各自领到的预算和配额,需要进行计量,而且其内部还有计费系统。


运维中心,首先涉及硬件服务器的上架下架等工作,更重要的是它具备监控告警等基础能力,以及资源指标大盘看板之类的功能。它需要有全局视角,能够看到整个平台上高校内各个院系、实验室、用户的使用情况,并能以从高到低等多种维度呈现这些信息。


上述内容就是我们提到的PAI平台企业级能力为用户提供的功能。同时,我们也提到了 API,大家可以看到中间这层的 Open API 是企业极为看重的能力。在这个案例中,高校通过调用我们的 Open API,构建了符合自身学校使用场景的一套应用流程。例如工单管理,某个院系若要申请一批资源、一批机器,或者创建一批新账号、新用户,都需要一个流程,在学校内层层审批。这个审批流程中的很多环节需要下转到我们的基础平台,我们提供的API能很好地满足用户此类场景需求。


同样,通过 API,我们还对接了校内的统一认证系统以及其他众多校内科研业务管理平台。因此,整个计算平台很好地融合进了这家高校的整体管理系统。目前,这套平台服务于该校的数十个院系,同时还能面向社会开放,并且承担了像世界人工智能大赛这样的国际顶级赛事相关工作,是一个非常成功的计算平台案例。

相关文章
|
4月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
954 109
|
6月前
|
机器学习/深度学习 人工智能 Kubernetes
Argo Workflows 加速在 Kubernetes 上构建机器学习 Pipelines
Argo Workflows 是 Kubernetes 上的工作流引擎,支持机器学习、数据处理、基础设施自动化及 CI/CD 等场景。作为 CNCF 毕业项目,其扩展性强、云原生轻量化,受到广泛采用。近期更新包括性能优化、调度策略增强、Python SDK 支持及 AI/大数据任务集成,助力企业高效构建 AI、ML、Data Pipelines。
734 1
|
8月前
|
人工智能 自然语言处理 数据挖掘
云上玩转Qwen3系列之三:PAI-LangStudio x Hologres构建ChatBI数据分析Agent应用
PAI-LangStudio 和 Qwen3 构建基于 MCP 协议的 Hologres ChatBI 智能 Agent 应用,通过将 Agent、MCP Server 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了 MCP+OLAP 的智能数据分析能力,使用自然语言即可实现 OLAP 数据分析的查询效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。
|
9月前
|
人工智能 算法 网络安全
基于PAI+专属网关+私网连接:构建全链路Deepseek云上私有化部署与模型调用架构
本文介绍了阿里云通过PAI+专属网关+私网连接方案,帮助企业实现DeepSeek-R1模型的私有化部署。方案解决了算力成本高、资源紧张、部署复杂和数据安全等问题,支持全链路零公网暴露及全球低延迟算力网络,最终实现技术可控、成本优化与安全可靠的AI部署路径,满足企业全球化业务需求。
|
8月前
|
机器学习/深度学习 人工智能 供应链
从概念到商业价值:AI、机器学习与深度学习全景指南
在这个科技飞速发展的时代🚀,人工智能正以惊人的速度渗透到我们的生活和工作中👀。但面对铺天盖地的AI术语和概念,很多人感到困惑不已😣。"AI"、"机器学习"、"深度学习"和"神经网络"到底有什么区别?它们如何相互关联?如何利用这些技术提升工作效率和创造价值?
465 0
|
6月前
|
机器学习/深度学习 人工智能 监控
AI 基础知识从0.1到0.2——用“房价预测”入门机器学习全流程
本系列文章深入讲解了从Seq2Seq、RNN到Transformer,再到GPT模型的关键技术原理与实现细节,帮助读者全面掌握Transformer及其在NLP中的应用。同时,通过一个房价预测的完整案例,介绍了算法工程师如何利用数据训练模型并解决实际问题,涵盖需求分析、数据收集、模型训练与部署等全流程。文章适合初学者和开发者学习AI基础与实战技能。
896 25
AI 基础知识从0.1到0.2——用“房价预测”入门机器学习全流程
|
7月前
|
机器学习/深度学习 存储 运维
机器学习异常检测实战:用Isolation Forest快速构建无标签异常检测系统
本研究通过实验演示了异常标记如何逐步完善异常检测方案和主要分类模型在欺诈检测中的应用。实验结果表明,Isolation Forest作为一个强大的异常检测模型,无需显式建模正常模式即可有效工作,在处理未见风险事件方面具有显著优势。
622 46
|
7月前
|
存储 人工智能 运维
企业级MLOps落地:基于PAI-Studio构建自动化模型迭代流水线
本文深入解析MLOps落地的核心挑战与解决方案,涵盖技术断层分析、PAI-Studio平台选型、自动化流水线设计及实战构建,全面提升模型迭代效率与稳定性。
315 6
|
7月前
|
人工智能 监控 测试技术
云上AI推理平台全掌握 (1):PAI-EAS LLM服务一键压测
在AI技术飞速发展的今天,大语言模型(LLM)、多模态模型等前沿技术正深刻改变行业格局。推理服务是大模型从“实验室突破”走向“产业级应用”的必要环节,需直面高并发流量洪峰、低延时响应诉求、异构硬件优化适配、成本精准控制等复杂挑战。 阿里云人工智能平台 PAI 致力于为用户提供全栈式、高可用的推理服务能力。在本系列技术专题中,我们将围绕分布式推理架构、Serverless 弹性资源全球调度、压测调优和服务可观测等关键技术方向,展现 PAI 平台在推理服务侧的产品能力,助力企业和开发者在 AI 时代抢占先机,让我们一起探索云上 AI 推理的无限可能,释放大模型的真正价值!

相关产品

  • 人工智能平台 PAI