PAI企业级能力升级:应用系统构建、高效资源管理、AI治理

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: PAI平台针对企业用户在AI应用中的复杂需求,提供了全面的企业级能力。涵盖权限管理、资源分配、任务调度与资产管理等模块,确保高效利用AI资源。通过API和SDK支持定制化开发,满足不同企业的特殊需求。典型案例中,某顶尖高校基于PAI构建了融合AI与HPC的科研计算平台,实现了作业、运营及运维三大中心的高效管理,成功服务于校内外多个场景。

在PAI平台的用户群体中,企业用户具有其特殊性。企业用户在使用我们的 AI 平台时,面临着复杂场景,且在资源、人员管理等诸多方面的规则流程上有着严苛要求。


今日,为诸位分享PAI平台在企业级能力方面的进展,包括为企业客户所开发的功能模块,及其在企业实际应用场景中的应用状况。首先,我会对企业用户在使用 AI 平台过程中所面临的挑战与困境展开分析,继而阐述 AI 平台企业级能力的整体架构。随后,针对各个模块进行详细剖析,最后通过一个典型案例为大家呈现优质的AI企业平台如何建设和运维的。

 

一、企业级用户诉求

当企业运用人工智能时同常会在以下四个方面做设定目标,同时也会面临一系列巨大的挑战。首先企业不同于普通用户,企业有更复杂的组织结构,其工作内容繁杂,人员涉及多个部门,这就需要清晰界定权限体系。其二,AI 资源,尤其是 GPU 资源成本高昂,企业投入大量资源后,如何实现资源的高效利用,达成企业产出的最大化,是亟待解决的问题。其三,企业的 AI 任务管控难度颇高,任务数量可能数以千计,如何保障这些任务的合理规划与良好运行,以契合企业预期,极具挑战性。最后,企业的 AI 资产在训练过程中可能遭遇若干问题,例如模型训练产出后,企业如何充分利用这些资产,使其价值最大化,这是企业高管极为关注的要点。


这张图表示企业级能力的整体情况。在此架构图中,核心概念是 AI 工作空间,这是PAI平台顶级概念。所有资源、任务、数据以及账号数据等,均被涵盖于该工作空间之下。在工作空间内,具备人员管理功能,涵盖用户角色、通知权限等;资源管理功能包括计算资源分配与资源监控;任务管理方面设有调度策略,可在工作空间内进行调度配置,当任务出现异常时,有通知和监控报警机制;资产管理涉及模型资产和 AI 过程中产生的资产的管理。

 

二、企业级能力大圈

此外,我们高度重视被集成能力。诸多企业存在定制化需求,如何利用PAI平台的基础能力进行二次开发,从而满足企业应用需求,是至关重要的一点。


第一方面,人员管理的核心在于用户与权限。

PAI会将用户划分为不同角色,并赋予相应权限。每个用户都将在特定角色和权限范围内操作平台。例如,资源管理者、工作空间管理员以及普通用户等。对于一些敏感操作,我们会依据事先定义好的规则记录其操作日志,这些事件也会存储于系统中,以便企业进行二次审计与查询,这是企业极为重视的环节。


在资源管理方面,我们提供三级架构的资源分配模式。这种三级架构实则代表了资源购买、分配和使用的流程。对于资源管理者而言,其可创建 AI 资源组,购买计算资源,并将这些资源关联至具体的工作空间。工作空间管理员在获取资源后,可继续进行操作,包括创建资源配额并按企业期望的程度进行划分,而后将其分配给具体用户使用。最终,普通开发者在获得资源授权后,方可开展 AI 开发、模型训练、推理服务部署等操作。由此,形成了一个三层架构与流程体系。


资源在使用后会产生众多指标,我们针对这些指标提供了多层次的观测能力,同样分为三层。在具体任务层面,于任务详情页中,可以查看 GPU 使用率、CPU 使用率、内存使用率以及 I/O、网络吞吐量等细粒度指标。再上一层,在资源配额层面,通过热力图以可视化方式呈现 GPU 资源的当前状态,如是否存在碎片化等直观信息。在工作空间层面,则会展示资源水位的趋势情况,包括过去几周、几天直至当前,工作空间内资源水位的变化情况。若出现特殊情况,如资源水位过低或过高,可能需要在资源层面进行诸如购买或降级等相应操作。


在任务管理方面,首先我们设有调度中心,此调度中心供工作空间管理员使用,其可在配额内设置允许运行的任务类型,比如是仅允许训练、仅允许推理,还是两者皆可,同时还能限制工作空间的最高 GPU 卡数,不允许超过特定数量。这是企业十分关注的内容。此外,对于任务训练时长、开发环境实例闲置时长及相应的关闭机制等,都是有效的调控手段。


在事件中心,我们允许用户自定义规则。当任务出现异常停止或长时间停滞的情况时,会通过特定渠道通知相关人员,如任务负责人或运维负责人,以便及时处理,减少损失。

 

三、企业级能力详细介绍

在资产方面,数据资产是企业极为重要的无形资产。在企业业务场景中,通常拥有大量数据。这些数据可进行标注,供内部训练模块使用,也可用于知识库系统构建。此外,针对每个业务场景可抽象出一些特征,这些特征代表了企业特有的业务属性。它们可在多个团队的训练中共享,并且能够以血缘追溯的方式进行追踪。也就是说,当一个模型运行时,其精度的变化,无论是变好还是变差,或者与昨天相比的升降情况,都可以通过血缘追溯方式判断是否是某一特征所导致的,这有助于提升企业模型训练的效果。


AI 资产包括训练过程中使用的数据集、模型训练产生的模型资产,以及所用到的代码、镜像等,我们都提供了相应的管理工具,使其成为企业可复用的资产。


对于企业而言,PAI平台提供的可集成能力也非常重要。我们通过 API 和 SDK 的方式为企业赋能,企业可在我们的原子能力基础上,开发出符合自身特殊需求的产品应用。这些 API 分为开发类、任务编排类和资源管理类三大类,总计 200 多个,并且还处于不断完善和增加的过程中。

 

四、企业级AI平台典型案例

最后,我通过一个典型案例来展示企业用户如何在PAI平台的原子能力和基础能力之上构建上层应用。这是一个科研计算场景,涉及国内一家顶尖高校。在PAI平台的基础上,我们为其创建了符合科研场景的计算平台,此平台以“三中心”模式构建和运营,即作业中心、运营中心和运维中心。作业中心涵盖了 AI 和 HPC(高性能计算)融合的整体开发流程与平台,因为在高校中,AI 和 HPC 的应用都十分广泛,所以我们提供了这种 AI + HPC 融合的作业中心开发平台。


其次运营中心有一项非常重要的能力,即计量计费和组织管理。我们知道高校存在各个院系、各个项目组,它们有不同的预算和资源分配,需要相互合理区分。因此,需要一个平台来协助完成计量计费工作。因为每个院系、实验室、项目组都有各自领到的预算和配额,需要进行计量,而且其内部还有计费系统。


运维中心,首先涉及硬件服务器的上架下架等工作,更重要的是它具备监控告警等基础能力,以及资源指标大盘看板之类的功能。它需要有全局视角,能够看到整个平台上高校内各个院系、实验室、用户的使用情况,并能以从高到低等多种维度呈现这些信息。


上述内容就是我们提到的PAI平台企业级能力为用户提供的功能。同时,我们也提到了 API,大家可以看到中间这层的 Open API 是企业极为看重的能力。在这个案例中,高校通过调用我们的 Open API,构建了符合自身学校使用场景的一套应用流程。例如工单管理,某个院系若要申请一批资源、一批机器,或者创建一批新账号、新用户,都需要一个流程,在学校内层层审批。这个审批流程中的很多环节需要下转到我们的基础平台,我们提供的API能很好地满足用户此类场景需求。


同样,通过 API,我们还对接了校内的统一认证系统以及其他众多校内科研业务管理平台。因此,整个计算平台很好地融合进了这家高校的整体管理系统。目前,这套平台服务于该校的数十个院系,同时还能面向社会开放,并且承担了像世界人工智能大赛这样的国际顶级赛事相关工作,是一个非常成功的计算平台案例。

相关文章
|
3天前
|
人工智能 Linux iOS开发
exo:22.1K Star!一个能让任何人利用日常设备构建AI集群的强大工具,组成一个虚拟GPU在多台设备上并行运行模型
exo 是一款由 exo labs 维护的开源项目,能够让你利用家中的日常设备(如 iPhone、iPad、Android、Mac 和 Linux)构建强大的 AI 集群,支持多种大模型和分布式推理。
187 100
|
26天前
|
人工智能 算法 前端开发
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
OmAgent 是 Om AI 与浙江大学联合开源的多模态语言代理框架,支持多设备连接、高效模型集成,助力开发者快速构建复杂的多模态代理应用。
185 72
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
|
4天前
|
人工智能 自然语言处理 安全
【2025】世界顶级AI模型本地部署私有化完整版教程 DeepSeek-R1+Ollama+ChatboxAI合体,瞬间升级你的个人电脑秒变智能神器!
震撼发布!让你的电脑智商飙升,DeepSeek-R1+Ollama+ChatboxAI合体教程,打造私人智能神器!
190 42
【2025】世界顶级AI模型本地部署私有化完整版教程 DeepSeek-R1+Ollama+ChatboxAI合体,瞬间升级你的个人电脑秒变智能神器!
|
7天前
|
人工智能
AI对话网站一键生成系统源码
可以添加进自己的工具箱,也可以嵌入自己博客的页面中,引流效果杠杠的,新拟态设计风格,有能力的大佬可以进行二开,仅提供学习,用户可输入网站名称、AI默认的开场白、AI头像昵称、AI网站中引流的你的网站等等内容,所有生成的网页全部保存到你的服务器上
51 27
AI对话网站一键生成系统源码
|
3天前
|
人工智能 开发框架 数据可视化
Eino:字节跳动开源基于Golang的AI应用开发框架,组件化设计助力构建AI应用
Eino 是字节跳动开源的大模型应用开发框架,帮助开发者高效构建基于大模型的 AI 应用。支持组件化设计、流式处理和可视化开发工具。
92 27
|
28天前
|
人工智能 数据处理 语音技术
Pipecat实战:5步快速构建语音与AI整合项目,创建你的第一个多模态语音 AI 助手
Pipecat 是一个开源的 Python 框架,专注于构建语音和多模态对话代理,支持与多种 AI 服务集成,提供实时处理能力,适用于语音助手、企业服务等场景。
98 23
Pipecat实战:5步快速构建语音与AI整合项目,创建你的第一个多模态语音 AI 助手
|
28天前
|
人工智能 搜索推荐 开发工具
24.7K Star!用 KHOJ 打造你的AI第二大脑,自动整合和更新多源知识,轻松构建个人知识库
KHOJ 是一款开源的个人化 AI 助手,支持多源知识整合、语义搜索、个性化图像生成等功能,帮助用户高效管理知识库。
338 23
24.7K Star!用 KHOJ 打造你的AI第二大脑,自动整合和更新多源知识,轻松构建个人知识库
|
5天前
|
人工智能 资源调度 API
AnythingLLM:34K Star!一键上传文件轻松打造个人知识库,构建只属于你的AI助手,附详细部署教程
AnythingLLM 是一个全栈应用程序,能够将文档、资源转换为上下文,支持多种大语言模型和向量数据库,提供智能聊天功能。
504 13
|
29天前
|
SQL 存储 人工智能
DMS+X构建Gen-AI时代的一站式Data+AI平台
本文整理自阿里云数据库团队Analytic DB、PostgreSQL产品及生态工具负责人周文超和龙城的分享,主要介绍Gen-AI时代的一站式Data+AI平台DMS+X。 本次分享的内容主要分为以下几个部分: 1.发布背景介绍 2.DMS重磅发布:OneMeta 3.DMS重磅发布:OneOps 4.DMS+X最佳实践,助力企业客户实现产业智能化升级
DMS+X构建Gen-AI时代的一站式Data+AI平台
|
22天前
|
人工智能 Serverless
两步构建 AI 总结助手,实现智能文档摘要
本方案将运用函数计算 FC,构建一套高可用性的 Web 服务,以满足用户多样化的需求。当用户发起请求时,系统内部会自动将包含文本和提示词的信息传递给百炼模型服务,百炼平台将根据后台配置调用相应的大模型服务,对文本数据进行智能识别与解析,最终将总结结果返回给用户。

相关产品

  • 人工智能平台 PAI