PAI年度发布:GenAI时代AI基础设施的演进

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 本文介绍了AI平台在大语言模型时代的新能力和发展趋势。面对推理请求异构化、持续训练需求及安全可信挑战,平台推出了一系列优化措施,包括LLM智能路由、多模态内容生成服务、serverless部署模式等,以提高资源利用效率和降低使用门槛。同时,发布了训推一体调度引擎、竞价任务等功能,助力企业更灵活地进行训练与推理任务管理。此外,PAI开发平台提供了丰富的工具链和最佳实践,支持从数据处理到模型部署的全流程开发,确保企业和开发者能高效、安全地构建AI应用,享受AI带来的红利。

AI在最近一两年大幅改变了人类对世界的认知,也改变了千行百业对AI以及云计算的依赖关系。今天发布的全是和大语言模型时代相关的一些能力。我们已经构建人工智能平台非常多年了。今天在GenAI时代有哪些新的特性能帮助客户以及客户的客户,更好的使用、构建大语言模模型,能够build自己的AI native应用。

 

一、GenAI时代新趋势

我主要会从以下几方面介绍:第一,GenAI时代在训练、推理、开发各方面的趋势变化。模型推理服务在这个时代产生了巨大的变化。大家可以回想一下,几年前做搜索、推荐、广告场景时,所有的推理服务基都是同质化/同构的。一台CPU的服务器能够承载100QPS,那用两台同样的服务器就能承载200QPS,都是线性增长的。但在generative AI时代,每一请求背后虽然可能用的是同一模型,但所需算力是不同的,即请求的异构化。我们要也要有相应的能力打造,让平台能更高效的应对变化。


另外,在模型训练领域,我们提出一个关键词是持续运行。以前像人脸识别或NLP的一些模型,每隔一段时间训练一个模型就行,人脸识别模型甚至每年迭代一次,即使是搜索推荐模型,基本也是每天迭代一次,或每周进行一次大的迭代,每天进行小的迭代。但今天当我们训练一个大语言模型时,如果做预训练,那预训练模型需要不断的consume非常多的数据,它需要持续训练。在各行各业里,当我们使用这训练平台做训练时,有任何新数据进来要做相应的一些调整都要做相应的function。所以训练变成了持续执行的诉求。虽然解决了推理和训练的问题,但AI面临着较尴尬的境地, AI听起来很火,但叫好不叫座。


AI怎样能被行业安全、可信的去使用?随着模型能力的变强,这种安全可信变得越来越难。今天我们也会带来一系列的可执行AI相关的发布。如说20年前搞人工智能的人,大家可以想象一下大概是什么样的人,他要懂数学、懂概率;十年前要懂算法;放在五年前懂python;放在现在,所有人都可以玩一玩AI,我们在AI领域里的开发者也变得越来越多。模型每天都在变,出一个新模型,它的玩法就会发生变化。大众怎么样能够跟上时代的步伐,都能够玩AI,这也是我们平台要解决的一个核心的问题。以上是我们所看到的,在GenAI时代,对于平台以及客户业务所面临的一系列新的挑战和发展趋势。

 

二、PAI推理服务年度发布

推理对我们来讲至关重要,我们今天会带来一系列在推理服务领域的重磅的发布。现在一个巨大的变化是GenAI的推理请求呈现异步化。LLM智能路由可以感知请求负载,即当业务有一个input进入平台后,LLM智能路由不仅能够看出后边哪台机器比较空去做路由,还能够预估请求所需算力的大小,进行智能化匹配。让整体集群,尤其是推理集群的使用效率更高。执行效率对于推理服务来说一定是生命线。


第二,我们提供了更灵活的多模态内容异步生成服务。前天我们专门在通义上发布了新的语言生成视频的模型。大家如果用通义千问APP,会感觉到它并不是同步生成的模型,你提供一段描述,它可能告诉你 “等五分钟/十分钟”。在GenAI时代,AIGC的模型里异步的模型请求的诉求会越来越多,消耗的资源也非常多。我们平台也提供了一系列的异步服务的能力,推理从以前单一的online推理/在线推理逐步向在线进行以及异步推理方向发展。核心都是为了更好的利用底层资源,更高效的完成相应推理。最后,在推理服务体系部分,我们提供了一系列的serverless部署模式。


作为一家企业来说,尤其是传统企业,大家对于AI之前并没有那么了解,但到了AI时代,所有人都需要进入到AI时代,享受AI红利。比如我针对自己的企业想build一个自己的chatbot,我要拉起一个模型。这时我不需要了解太多detail和细节(如底下什么样的卡、适合什么样的模型,或在推理过程中该怎么优化),我们提供serverless部署模式。同时,对于各种企业在此领域,业务对是否有用并不清楚,怎么样能以较低廉的成本开始试错呢?serverless服务提到一个很关键的概念是拉起服务是免费的,只有当相应的AIGC请求进入服务执行的时才算价格。企业在初创阶段想踏入AIGC的领域,可使用使用serverless服务,以非常低的成本验证业务和AI模型是否匹配。


这是AI应用的serverless部署。刚才讲的更多是怎么样更高效的通过调度使用背后的GPU资源,同时怎么样去压榨计算资源的算力,我们在去年全新升级了BladeLLM推理引擎,它是重点面向LLM大语言模型进行一系列的优化。今天做推理的优化已经不简单是算子的优化。一个请求进来要经过大量运算,比如最传统的LLM,有pursue的阶段、有decode阶段。这些计算在上层的调度也需要做进一步的优化。BladeLLM提供了从底层算子编译技术再到上层调度技术的全链路的优化能力。在相同的吞吐率下,我们可以提供更低的延迟。在相同延迟的情况下,我们又能提供更高的吞吐。从右图可以看到我们和一些开源解决方案的对比,还是有非常大的提升的。简单总结一下,上述讲的是说怎么样找到合适的资源去使用,接下来讲用相同的资源怎么样获得更高的效率和性价比。


在阿里云上,推理服务已经覆盖了全球16个region。刚才讲到的针对LLM优化的能力,跟随你的业务在哪里。我们在全球已经有大概数十万卡规模的推理集群,我们也提供企业级的调度能力。作为一家企业,可以在自己的build up在云上的企业内网实现跨region、多地域的联合部署和调度。把推理成本降下来了,大家也要关注一下模型到底是从哪儿来的,我们做模型训练时,会面临更多基本能力的挑战。

 

三、PAI训练服务年度发布

当我们试图使用一些推理服务的时候有非常多的选择,可以直接调API、也可以build自己的一个dedicated instance,但是当你想做训练的时候,就不是简单的买一台机器,买两台机器或者调几个API就能够解决的问题了。这个时代非常典型的特点是推理的卡变得越来越大。训练当然要用所谓的大卡(即算力特别强的卡)。我们在训练部分先推出了训推一体的调度引擎。当企业去购买了一系列的云服务后,可以白天做更多的推理,晚上还可以训练,实现更灵活的调度。训推一体的引擎从四个方面解决大家的问题。首先,它可以纳管各种各样的异构计算资源,各种各样的卡型可以从用一套调度引擎管理。同时我们做了树形结构的逻辑抽象,在企业内部就能更加灵活的进行资源的调度和分配。同时我们支持非常灵活的资源调度策略。最后,我们提供了一系列的主板自愈的能力。训推一体的服务,也有10万卡以上的服务,有非常多的训练和推理的任务跑在平台上。刚才讲到通过资源的逻辑抽象以及相应的调度策略,可以让整个集群的有效的算力利用率达到90%以上。下边是我们自己集成的一个截图。大家可以看到,在我们集群上昂贵的GPU资源跑的都非常满。


在训练的过程中,我们的引擎是怎么样提升效率的呢?我们提出一个概念——双轮驱动的核心引擎,所谓双轮驱动,是指左边。如果客户选择使用开源模型,不管是用deep speed、 mexico, 我们是一个非常开放的平台,可以支持客户各种各样的这种容器化的部署和调度。自定义的能力和使用开源的能力平台完全都能兼容。超越开源,我们在开源引擎上面也有相应的优化。比如在maximum上的优化、在MOE的模型训练效率上面的优化、在DBU上面的优化。还有很多客户更关注的是模型效果本身,并不是一定要用开源的技术,我们也提供了一系列基于开源技术打造的一系列的自研引擎,如touch a senator 、translator。 前者更多的是去解决超大规模、训练效率问题。如右图,在各种场景的训练性能都优于studio,chat girl更多的是帮助做function的客户。我不去做模型的预训练,但还需要做一做我特定行业的function。不管是IRHS、DPUXY、 online DPU, workflow都非常复杂,稍微配置有点问题,会直接影响你function的效果。我们提供ChatLearn框架,能够帮助用户高效执行element序列,快速达到想要达到的效果。这是我们在训练引擎方面的能力。


今天我们也带来一个全新的发布,即我们重磅发布竞价任务。在中国,如果想使用一些大卡进行训练,卡的资源都非常紧张。不管是在任何的云厂商,还是线下购买算力资源都非常困难。作为一家初创企业,想做一些模型的fantasy, 想实验一下大语言模型的训练,这个时候可能面临的问题是不管哪家厂商都说需要买包年包月的服务,这与云的概念本身是不相符的。我们推出PAI的竞价任务,我们在大的资源池中拿出一部分资源来, benefit所有的云上客户。当你冷启动服务时,可以使用我们的竞价任务。竞价任务的成本低至1折。我们竞价任务的时候也要付出一些代价。当有人出更高价格时,任务会被抢占。我们的平台供了自动恢复能力,即我可以定义能够接受的训练的这个资源的价格。我在这个资源价格范围内,如果能抢到资源,平台就会自动帮训练。当你的资源被抢走了,我们的平台会自动打check point。过一段时间又有资源廉价的资源进来,符合价格要求,我们的平台会通过我们的能力再把你相应的训练任务拉起来。这样,尤其是对于想要初步进入训练的场景里面的客户,强烈推荐大家可以去试用一下竞价任务。


最后在整个训练服务里,在大语言模型的场景下,稳定性对于所有人都是至关重要的。训练一个模型,动辄就要花费几周甚至几个月的时间,PAI的DLC是我们提供给云上所有客户的高稳定分布式训练,提供各种各样标准化的监控。大家可以时刻关注到自己的训练任务到底是怎样的。因为我们支撑了中国50%以上的大模型企业做训练。所以我们知道在硬件,系统、框架、平台上可能会遇到什么样的问题。我们已知的问题都会通过平台的能力自动的去侦测、发现和快速解决这些问题。中间是指我们能够快速的发现,最右边是指我们能够快速解决这些问题。作为一家模型厂商,更多要关注的是自己的模型结构、数据,训练的稳定性由平台帮大家解决。

 

四、PAI开发平台年度发布

更关键的一点是我们需要人build刚才整个过程。我们在PAI提供了一系列的开发平台的能力。我们是一个自带最佳实践的平台,以及自带最佳实践的平台。你自己做AI的领域时,如果不太会,我们会各种各样的gallery:不太会写代码的直接用model gallery;熟悉python的可以使用notebook gallery; 对自己的业务很了解,但不知道模型,甚至不知道python怎么写,可以使用pipeline gallery, 里面有各种各样的最佳实践, build right system,、chatbot、stable diffusion的workload,我们都有相应的最佳实践提供给大家。

我们打造了数据+AI的联合平台。昨天我们发布了open lake产品。今天人工智能平台是无缝的连接到所有阿里云云上的存储及大数据的相关引擎的。在PAI平台上可做各种各样数据的分析。一个简单的例子,当你想使用一些数据做LLM训练时,可能不知道数据该怎么样被处理和清洗,图中每一个小方块都是一种LLM数据预处理的方法。


如果选择了这些数据预处理方法后,你会看到这样的一个template。 它会直接使用云上已经提供好的算子,然后把数据处理任务跑到大数据平台上。我们进行多模态数据的质量分析、数据的清洗、数据的增强,这些能力平台上都有提供,可以通过人工智能的平台连接到的大数据平台去执行相应的数据操作。


做了数据的操作、做完了训练、做完了function、最后去做了推理。在整个的过程,我们对所有的操作提供全链路的雪原。一旦遇到问题,我能够发现到底是什么地方出了问题,可能是数据、模型、推理服务等出了问题。简而言之,我们提供了大数据AI一体化的开发能力,提供了轻量化基于notebook的开发,提供了对各种计算引擎的对接,包括我们AI的引擎,也有EMR 、Hologres、 math computer、Spark等大数据引擎,我们提供了涵盖AI和大数据端到端pipeline构建的能力,并且提供端到端AI血缘的跟踪。一切能力全部都在PAI平台上,大家可以去access。


AI的门槛越来越低,所有人都可以玩AI,我们提供了另外一系列的工具链。左边是PAI quick star, 顾名思义就是让大家快速上手大语言模型。它涵盖从模型训练、部署、优化、压缩评测全部过程。在的平台上面只需要点几下鼠标,选一些典型的模型就可以做刚才所说的所有的这个过程。同时我们也推出了PAI arc lab,我名牌上所生成的AIGC形象就是由我们RTLIVE上面所提供的一个type line所构建的。art lab专门为设计师以及不太懂AI的开发者提供了一系列的平台能力和相应的开发的模板,大家可以做文生图、文生视频相关的工作。不太懂AI的人也能够通过我们的平台去使用AI。


最后是关于可信AI的部分。当我们想让业务实现最终落地时,模型是否安全?PAI提供了从数据到模型开发,再到模型部署的一系列能力,保证数据安全、模型安全、服务安全。


除了安全外,作为企业客户需要一系列的企业级能力,包括网络安全能力、资源的管理、AI资产的管理。PAI平台提供了全方位的能力,让企业客户更加高效的管理自己的AI资产。


最后总结,人工智能平台面向AI的开发者,面向资源的管理者及面向企业的决策者提供了训练推理服务。在上层我们通过模型开发和构建的平台,连接了开发者和底层云上的资源,确保大家高效的去使用云上昂贵的GPU资源。通过我们的平台,我们希望能够有更多的开发者和企业客户进入AI行业,享受AI的红利。

 

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
14天前
|
人工智能 中间件 数据库
沐曦 GPU 融入龙蜥,共筑开源 AI 基础设施新底座
沐曦自加入社区以来,一直与龙蜥社区在推动 AIDC OS 的开源社区建设等方面保持合作。
|
2月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
495 109
|
3月前
|
存储 弹性计算 运维
AI时代下阿里云基础设施的稳定性架构揭秘
计算、存储、网络作为云计算基础 IaaS 服务,一直是阿里云的核心产品,承载着百万客户的 IT 基础设施。曾经我们认为应用高可用、服务分布式可以满足客户对 IaaS 所有的稳定性诉求。
447 2
AI时代下阿里云基础设施的稳定性架构揭秘
|
2月前
|
SQL 人工智能 分布式计算
ODPS十五周年实录|构建 AI 时代的大数据基础设施
本文根据 ODPS 十五周年·年度升级发布实录整理而成,演讲信息如下: 张治国:阿里云智能集团技术研究员、阿里云智能计算平台事业部 ODPS-MaxCompute 负责人 活动:【数据进化·AI 启航】ODPS 年度升级发布
127 9
|
4月前
|
存储 人工智能 Cloud Native
科技云报到:算力即国力,智算基础设施成AI下一主战场
在数字化与AI浪潮推动下,算力已成为衡量国家竞争力的核心指标。随着大模型和生成式AI迅猛发展,中国智能算力规模持续高速增长,2024年达725.3 EFLOPS,预计2026年将突破1460 EFLOPS。未来,算力将呈现多样化、泛在化与智能绿色三大趋势,推动AI基础设施升级。以联通云为代表,通过AI全栈焕新,构建覆盖“云-网-数-智-安”的全链条智算能力,助力千行百业智能化转型。
388 5
|
17天前
|
人工智能 安全 Serverless
再看 AI 网关:助力 AI 应用创新的关键基础设施
AI 网关作为云产品推出已有半年的时间,这半年的时间里,AI 网关从内核到外在都进行了大量的进化,本文将从 AI 网关的诞生、AI 网关的产品能力、AI 网关的开放生态,以及新推出的 Serverless 版,对其进行一个全面的介绍,期望对正在进行 AI 应用落地的朋友,在 AI 基础设施选型方面提供一些参考。
307 39
|
2月前
|
人工智能 运维 安全
聚焦 AI 应用基础设施,云栖大会 Serverless AI 全回顾
2025 年 9 月 26 日,为期三天的云栖大会在杭州云栖小镇圆满闭幕。随着大模型技术的飞速发展,我们正从云原生时代迈向一个全新的 AI 原生应用时代。为了解决企业在 AI 应用落地中面临的高成本、高复杂度和高风险等核心挑战,阿里云基于函数计算 FC 发布一系列重磅服务。本文将对云栖大会期间 Serverless+AI 基础设施相关内容进行全面总结。
|
4月前
|
机器学习/深度学习 人工智能 监控
AI 基础知识从0.1到0.2——用“房价预测”入门机器学习全流程
本系列文章深入讲解了从Seq2Seq、RNN到Transformer,再到GPT模型的关键技术原理与实现细节,帮助读者全面掌握Transformer及其在NLP中的应用。同时,通过一个房价预测的完整案例,介绍了算法工程师如何利用数据训练模型并解决实际问题,涵盖需求分析、数据收集、模型训练与部署等全流程。文章适合初学者和开发者学习AI基础与实战技能。
487 25
AI 基础知识从0.1到0.2——用“房价预测”入门机器学习全流程

热门文章

最新文章

相关产品

  • 人工智能平台 PAI
  • 下一篇
    开通oss服务