在过去的一年里，大家见证了AI浪潮的风起云涌。我这几天也跟大家一样，穿梭在各个展区中，看到非常多有趣的AI应用和创新应用的迸发。同时，我还参加了许多session，聆听了众多专家分享他们如何利用AI技术重塑各行各业。

那么我们看到了什么呢？我们看到了AI正扮演着客服的角色，成为了我们的导购，甚至担当起了面试官的重任。就连在游戏中，我们也不再仅仅与玩家组队，而是开始与AI并肩作战。在这些层出不穷的创新与应用背后，是谁在源源不断地提供动力呢？答案就是模型在线服务。今天很荣幸能与大家分享在过去的一年里，人工智能平台PAI在模型推理服务领域所做出的一些创新与实践。

今天的分享主要包括四个部分。首先，我们会聚焦于生成式AI（Generative AI）时代下的推理服务，探讨这一领域究竟发生了哪些变化，以及这些变化带来了哪些挑战。简而言之，在今天的讨论中，关于推理服务，最关键的一点是什么？是它的生命线，即成本。接下来，我们将从三个角度详细阐述：计算资源、推理服务的性能，以及客户的业务场景，通过这三个维度来向大家展示如何大幅度降低在推理服务上的成本。

一、在生成式AI的时代，推理服务产生了怎样的变化和挑战

今天面临着三大显著变化。第一个变化是业务负载。在上一个AI时代，主流业务大多是什么？主要是搜索和推广业务，并且这些业务有一个共同特点是它们的响应时间很短，大约在几百毫秒至一秒之间，且每个请求的负载都非常均衡，延迟反馈时间基本一致。

然而，在生成式AI时代，业务负载发生了巨大的变化。以大模型和多模态场景为例，现在的请求长度短则十几个token，长则可达数十万个token。这种业务负载的变化对资源利用产生了极大的影响。

第二个变化是模型结构。相信大家前几天也关注了静仁老师的发布。在这次发布中，千万2.5系列推出了多个不同版本的模型，包括0.5B、1.5B的版本，还有新发布的3B版本，以及7B、14B、12B等。此外，大家也注意到了像LaMA 3.1这样的模型，甚至今天发布的405B的超大模型。这些不同参数规模的模型会给我们的业务带来极大的变化。

第三个变化是资源类型。在以往的时代，即CPU主导的时代，大家的资源其实相差不大。然而，如今大家可以看到，英伟达推出的A10、H100、A800、H800等GPU卡，以及L20等型号，它们之间的性能差异显著。包括国产的显卡，其他厂商的显卡。每一个显卡的性能和业务都是不同的。

在这些变化之下，我们碰到了很多挑战

第一个挑战是资源，我们的业务负载涵盖了从十几个token到几十万个token不等的范围，这些token负载的变化会极大地影响计算效率，并导致计算效率与之前相比大幅降低。

第二个挑战在于如何提升服务的性能。面对众多不同种类和参数量的模型，我们如何统一地提升这些服务的性能成为了一个关键问题。

第三个挑战是业务的多样性。如今，大家都使用GPU，而这些GPU拥有不同类型的资源，并且这些资源遍布全球。在这样的背景下，如何才能确保我的业务能够稳定且高可用地使用这些资源。围绕着刚才提到的那些变化，先从第一点开始讲起，其目标是让每一个推理资源节点都能高效运转。在当下的生成式AI（Generated AI）的时代，我们隆重发布了三个核心能力。第一个是LM智能路由，第二个是多模态内容的异步生成，第三个是AI应用的service部署。

这三个词听起来可能让大家觉得像是天书，并且对它们也没有具体的概念。但我想告诉大家的是，许多客户借助我们提出的这些能力，已经成功降低了30%以上的成本。或许大家又会想，这30%的成本降低跟我有什么关系呢？这依然是没有概念的。想象一下，如果把这30%的成本节省下来，用来给大家发工资，我相信在场的每一个人，包括可能正在看直播的朋友们，都会因为薪水提升了30%而感到兴奋。那么，如何才能实现这样的成本节省，从而让大家的薪水得到提升呢？大家可能会好奇，这些能力具体是如何实现的。接下来会逐一为大家详细解释每个能力的作用。

首先是LM智能路由，即大语言模型场景。而我们今天做了一项非常重要的工作。之前我提到过，在不同的负载情况下，token的数量从十几个到几十万个不等，这会导致计算资源的利用率大幅降低。而我们可以通过LM智能路由，首先对请求端进行判断。根据不同的请求大小，无论是十几个token还是几十万个token，以及每次的prompt是相似还是相同，我们都会进行细致的分析。同时，我们监控后端每一个计算实例，了解它们处理过哪些prompt，擅长处理什么样的场景，确定到底是哪一个prompt，或是哪一个计算节点，它的资源是相对空闲的。通过智能的匹配，使整个集群的资源利用率飞速提升。

而且，今天我并不想给大家讲解过多的技术细节，我更想强调的是什么呢？今天包括讲到的大语言模型的LM智能路由在内的所有功能，都已经在PAIES平台上实现了一键部署，开箱即用。大家无需深入了解底层的实现细节或技术细节，大家只需要知道在EAS上面一键就可以开启这样的能力。而且，开启这些功能后，资源成本将能够节省30%以上。

第二个是多模态场景，如今，我们看到了许多纹身图案和纹身视频的应用场景。这些场景有一个显著的特点是对时延性的要求并不像过去搜索推广时代那么严格了。在这些场景中，允许几分钟甚至几个小时的响应时间都是可以的。

在今天，我们推出了异步推理和离线任务两大场景，这两个场景能够极大地提升大家的计算性能和效率。而且，无论是异步推理还是离线任务场景，在之前提到的PAIES平台上，都实现了开箱即用。大家无需理解背后复杂的架构图，这些对大家来说完全是overhead。今天，大家只需知道，在ES平台上，你可以一键使用这些功能，并能迅速将其应用到自己的业务场景中。

第三个是AI应用的service less部署。坦白说，“service”这个词现在可能已经被大家频繁使用，甚至有些泛滥了，在各种分享中，今天讲这个service，明天又讲那个service。但我想在这里澄清一下，我所说的“service”具体指的是什么。大家在使用各种模型服务时，可能会遇到一个痛点：如果请求是离散的，比如每个小时只需要调用几次，那么在传统方式下，你仍然需要为一直运行的服务付费。这会给大家带来很大的账单压力。今天，ES创造性地提出了serverless部署的概念。在全球范围内，提供这种serverless部署的云服务厂商也仅EES一家。

那么我们今天提供的是什么样的能力呢？简单来说，您部署服务的过程是完全免费的。只有当您正式发起请求，我们开始处理这个请求时，才会开始计费，这样能让您的成本达到最优化。这是第一部分的主要内容，主要讲述了如何大幅提升计算资源的效率。接下来第二部分会重点讲述如何让每个模型的推理服务性能得到大幅提升。在这里，无法绕过的一个重要发布能力是play的IM核心引擎能力。左侧的架构图可能看起来有些复杂，但大家其实不用过于关注它。

很核心的一点是我们的底层完全是基于ESPAI的平台构建的，并在上层灵活适配了客户的各种业务场景。在中间层，我们通过模型计算、量化压缩和模型并行处理策略，运用了如P、DP、PP和TP等多种手段，来帮助大家提升服务性能。同时，通过生成式引擎、prompt cash以及多种高效解码方式，并结合强大的调度能力，使得服务性能得到了显著提升。在最上层的服务框架中，我们采用了大家可能已有所耳闻的PD分离理念，并推出了自研的elastic attention方法，帮助用户快速实现性能提升。尽管这些专业名词可能让大家感到有些困惑，但重要的是，大家可以直接关注这些技术所带来的性能提升效果。

而在与一些开源框架的对比中，首先，在延时层面，TTFT是我们的首包延时。并且整个大模型的推理过程可以分为计算密集型阶段，即preview阶段、显存密集性阶段和访存密集性阶段，即decoding的阶段。这使我们在TTFT，即首包延时，以及TPOT，即每个token之间的延时方面，都实现了大幅下降，分别降低了60%和70%。并且，在吞吐量方面，我们每秒产生的token数也实现了大幅提升，具体达到了80%的增长。而这些性能的提升，为大家带来了极大的成本节约。

二、play IM核心引擎带来的好处

1.play IM核心引擎解决的三大问题

第一个问题是如何高效地利用内存。正如大家前两天从静仁老师的分享中了解到的，我们现天已经能够支持长达128K的文本token长度。这对于GPU显存来说是一个巨大的挑战，因为它需要消耗大量的资源。然而，在我们的play IM核心引擎中，通过量化压缩技术的手段实现了能够非常快速地支持多种量化方式，并且能够迅速完成资源的部署和服务的部署。

第二个是请求长度。从开篇到现在，我一直在强调一个逻辑是当前的负载发生了巨大的变化。为了应对这种变化，我们提出了一种新的能力，即自研的attention技术。这项技术旨在帮助大家高效地解决长文本和短文本之间因负载不同而带来的请求调度问题。

第三个是大模型在运行过程中分为两个截然不同的阶段：preview阶段和decode阶段，这两个阶段对资源的需求截然不同。为了优化这两个阶段，我们在preview阶段采用了prompt cache方法，而在decode阶段采用了lookahead decoding的方式，来帮助大家更容易、更高效地部署自己的服务，并且高效的提升服务性能。

2.优化和提升

总结来说，play IM带来了四大提升和四大优化，包括模型优化、系统优化、集群优化以及应用优化。您无需深入了解这些优化背后的具体细节，只需明白在PAI平台上，这些能力已经为您准备好，开箱即用，让您能够轻松实现80%的吞吐提升。同样，在PAD平台上，您也可以一键使用这些优化功能。

三、ES专属网关

讲完了前两个话题，我们现在聚焦于在座的各位客户，以及各自所处的应用和业务层面。我们今天的目标非常明确，即确保全球每一个角落的客户的业务都能持续不断地运行。为此，我们隆重发布了今年精心研发的新能力ES专属网关。通过ES专属网关，我们实现了什么呢？它能让您以极高的安全性访问自己拥有的任何访问权限。无论是公网的访问权限，还是VPC-的访问权限，还是公网的网段或是VPC的网段，都可以在ES平台上自定义地部署。并且通过ES专属网关，我们成功地将全球的推理服务连接了起来。当客户通过CEN网络构建好自己的一套网络架构后，借助ES专属网关，他们可以轻松地实现网络控制，以及全球网络的调度和规划。

今天，基于ES专属网关，我们非常开心，因为做到了全球的调度和异地的容灾能力。在当前这个充满各种不可抗力的时代，单个地域或单个可用区AZ可能会出现短暂的服务中断。但即便面对这样的情况，ESPAI平台依然能够确保您的服务不会中断。而我们会通过全球的调度，允许您将计算资源灵活地部署在北京、上海、乌兰察布、北美、欧洲等多个地域。通过ES专属网关和统一的SOB负载均衡路由分发机制，来实现全球的调度。这意味着，无论哪个资源节点或哪个AZ出现故障，您的服务都能持续运行，永不停歇。

ES目前在全球范围内已支持16个不同的地域。无论您的业务位于东亚、东南亚、欧洲、北美，还是我们此刻所在的中国，您都可以在任何地方使用PAI的推理服务。我们在全球范围内已构建了拥有10万张显卡的推理集群，确保您能够迅速获取所需资源。通过全球调度系统，我们能够确保您的每一项业务在任何角落都能得到很好的部署。同时，我们还通过网关技术，实现了整个网络架构的互联互通。

我们深知，200年前，电让人类与现代文明紧密相连。20年前，互联网则将人类生存的每一个角落相互贯通。而今天，模型服务正致力于在世界的每一个角落插上旗帜。在这个AI时代，世界将通过模型服务与大家紧密相连，实现前所未有的联通。

AI推理新纪元，PAI全球化模型推理服务的创新与实践

一、在生成式AI的时代，推理服务产生了怎样的变化和挑战

二、play IM核心引擎带来的好处

1.play IM核心引擎解决的三大问题

2.优化和提升

三、ES专属网关

人工智能平台PAI

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景