AI在最近一两年大幅改变了人类对世界的认知,也改变了千行百业对AI以及云计算的依赖关系。今天发布的全是和大语言模型时代相关的一些能力。我们已经构建人工智能平台非常多年了。今天在GenAI时代有哪些新的特性能帮助客户以及客户的客户,更好的使用、构建大语言模模型,能够build自己的AI native应用。
一、GenAI时代新趋势
我主要会从以下几方面介绍:第一,GenAI时代在训练、推理、开发各方面的趋势变化。模型推理服务在这个时代产生了巨大的变化。大家可以回想一下,几年前做搜索、推荐、广告场景时,所有的推理服务基都是同质化/同构的。一台CPU的服务器能够承载100QPS,那用两台同样的服务器就能承载200QPS,都是线性增长的。但在generative AI时代,每一请求背后虽然可能用的是同一模型,但所需算力是不同的,即请求的异构化。我们要也要有相应的能力打造,让平台能更高效的应对变化。
另外,在模型训练领域,我们提出一个关键词是持续运行。以前像人脸识别或NLP的一些模型,每隔一段时间训练一个模型就行,人脸识别模型甚至每年迭代一次,即使是搜索推荐模型,基本也是每天迭代一次,或每周进行一次大的迭代,每天进行小的迭代。但今天当我们训练一个大语言模型时,如果做预训练,那预训练模型需要不断的consume非常多的数据,它需要持续训练。在各行各业里,当我们使用这训练平台做训练时,有任何新数据进来要做相应的一些调整都要做相应的function。所以训练变成了持续执行的诉求。虽然解决了推理和训练的问题,但AI面临着较尴尬的境地, AI听起来很火,但叫好不叫座。
AI怎样能被行业安全、可信的去使用?随着模型能力的变强,这种安全可信变得越来越难。今天我们也会带来一系列的可执行AI相关的发布。如说20年前搞人工智能的人,大家可以想象一下大概是什么样的人,他要懂数学、懂概率;十年前要懂算法;放在五年前懂python;放在现在,所有人都可以玩一玩AI,我们在AI领域里的开发者也变得越来越多。模型每天都在变,出一个新模型,它的玩法就会发生变化。大众怎么样能够跟上时代的步伐,都能够玩AI,这也是我们平台要解决的一个核心的问题。以上是我们所看到的,在GenAI时代,对于平台以及客户业务所面临的一系列新的挑战和发展趋势。
二、PAI推理服务年度发布
推理对我们来讲至关重要,我们今天会带来一系列在推理服务领域的重磅的发布。现在一个巨大的变化是GenAI的推理请求呈现异步化。LLM智能路由可以感知请求负载,即当业务有一个input进入平台后,LLM智能路由不仅能够看出后边哪台机器比较空去做路由,还能够预估请求所需算力的大小,进行智能化匹配。让整体集群,尤其是推理集群的使用效率更高。执行效率对于推理服务来说一定是生命线。
第二,我们提供了更灵活的多模态内容异步生成服务。前天我们专门在通义上发布了新的语言生成视频的模型。大家如果用通义千问APP,会感觉到它并不是同步生成的模型,你提供一段描述,它可能告诉你 “等五分钟/十分钟”。在GenAI时代,AIGC的模型里异步的模型请求的诉求会越来越多,消耗的资源也非常多。我们平台也提供了一系列的异步服务的能力,推理从以前单一的online推理/在线推理逐步向在线进行以及异步推理方向发展。核心都是为了更好的利用底层资源,更高效的完成相应推理。最后,在推理服务体系部分,我们提供了一系列的serverless部署模式。
作为一家企业来说,尤其是传统企业,大家对于AI之前并没有那么了解,但到了AI时代,所有人都需要进入到AI时代,享受AI红利。比如我针对自己的企业想build一个自己的chatbot,我要拉起一个模型。这时我不需要了解太多detail和细节(如底下什么样的卡、适合什么样的模型,或在推理过程中该怎么优化),我们提供serverless部署模式。同时,对于各种企业在此领域,业务对是否有用并不清楚,怎么样能以较低廉的成本开始试错呢?serverless服务提到一个很关键的概念是拉起服务是免费的,只有当相应的AIGC请求进入服务执行的时才算价格。企业在初创阶段想踏入AIGC的领域,可使用使用serverless服务,以非常低的成本验证业务和AI模型是否匹配。
这是AI应用的serverless部署。刚才讲的更多是怎么样更高效的通过调度使用背后的GPU资源,同时怎么样去压榨计算资源的算力,我们在去年全新升级了BladeLLM推理引擎,它是重点面向LLM大语言模型进行一系列的优化。今天做推理的优化已经不简单是算子的优化。一个请求进来要经过大量运算,比如最传统的LLM,有pursue的阶段、有decode阶段。这些计算在上层的调度也需要做进一步的优化。BladeLLM提供了从底层算子编译技术再到上层调度技术的全链路的优化能力。在相同的吞吐率下,我们可以提供更低的延迟。在相同延迟的情况下,我们又能提供更高的吞吐。从右图可以看到我们和一些开源解决方案的对比,还是有非常大的提升的。简单总结一下,上述讲的是说怎么样找到合适的资源去使用,接下来讲用相同的资源怎么样获得更高的效率和性价比。
在阿里云上,推理服务已经覆盖了全球16个region。刚才讲到的针对LLM优化的能力,跟随你的业务在哪里。我们在全球已经有大概数十万卡规模的推理集群,我们也提供企业级的调度能力。作为一家企业,可以在自己的build up在云上的企业内网实现跨region、多地域的联合部署和调度。把推理成本降下来了,大家也要关注一下模型到底是从哪儿来的,我们做模型训练时,会面临更多基本能力的挑战。
三、PAI训练服务年度发布
当我们试图使用一些推理服务的时候有非常多的选择,可以直接调API、也可以build自己的一个dedicated instance,但是当你想做训练的时候,就不是简单的买一台机器,买两台机器或者调几个API就能够解决的问题了。这个时代非常典型的特点是推理的卡变得越来越大。训练当然要用所谓的大卡(即算力特别强的卡)。我们在训练部分先推出了训推一体的调度引擎。当企业去购买了一系列的云服务后,可以白天做更多的推理,晚上还可以训练,实现更灵活的调度。训推一体的引擎从四个方面解决大家的问题。首先,它可以纳管各种各样的异构计算资源,各种各样的卡型可以从用一套调度引擎管理。同时我们做了树形结构的逻辑抽象,在企业内部就能更加灵活的进行资源的调度和分配。同时我们支持非常灵活的资源调度策略。最后,我们提供了一系列的主板自愈的能力。训推一体的服务,也有10万卡以上的服务,有非常多的训练和推理的任务跑在平台上。刚才讲到通过资源的逻辑抽象以及相应的调度策略,可以让整个集群的有效的算力利用率达到90%以上。下边是我们自己集成的一个截图。大家可以看到,在我们集群上昂贵的GPU资源跑的都非常满。
在训练的过程中,我们的引擎是怎么样提升效率的呢?我们提出一个概念——双轮驱动的核心引擎,所谓双轮驱动,是指左边。如果客户选择使用开源模型,不管是用deep speed、 mexico, 我们是一个非常开放的平台,可以支持客户各种各样的这种容器化的部署和调度。自定义的能力和使用开源的能力平台完全都能兼容。超越开源,我们在开源引擎上面也有相应的优化。比如在maximum上的优化、在MOE的模型训练效率上面的优化、在DBU上面的优化。还有很多客户更关注的是模型效果本身,并不是一定要用开源的技术,我们也提供了一系列基于开源技术打造的一系列的自研引擎,如touch a senator 、translator。 前者更多的是去解决超大规模、训练效率问题。如右图,在各种场景的训练性能都优于studio,chat girl更多的是帮助做function的客户。我不去做模型的预训练,但还需要做一做我特定行业的function。不管是IRHS、DPUXY、 online DPU, workflow都非常复杂,稍微配置有点问题,会直接影响你function的效果。我们提供ChatLearn框架,能够帮助用户高效执行element序列,快速达到想要达到的效果。这是我们在训练引擎方面的能力。
今天我们也带来一个全新的发布,即我们重磅发布竞价任务。在中国,如果想使用一些大卡进行训练,卡的资源都非常紧张。不管是在任何的云厂商,还是线下购买算力资源都非常困难。作为一家初创企业,想做一些模型的fantasy, 想实验一下大语言模型的训练,这个时候可能面临的问题是不管哪家厂商都说需要买包年包月的服务,这与云的概念本身是不相符的。我们推出PAI的竞价任务,我们在大的资源池中拿出一部分资源来, benefit所有的云上客户。当你冷启动服务时,可以使用我们的竞价任务。竞价任务的成本低至1折。我们竞价任务的时候也要付出一些代价。当有人出更高价格时,任务会被抢占。我们的平台供了自动恢复能力,即我可以定义能够接受的训练的这个资源的价格。我在这个资源价格范围内,如果能抢到资源,平台就会自动帮训练。当你的资源被抢走了,我们的平台会自动打check point。过一段时间又有资源廉价的资源进来,符合价格要求,我们的平台会通过我们的能力再把你相应的训练任务拉起来。这样,尤其是对于想要初步进入训练的场景里面的客户,强烈推荐大家可以去试用一下竞价任务。
最后在整个训练服务里,在大语言模型的场景下,稳定性对于所有人都是至关重要的。训练一个模型,动辄就要花费几周甚至几个月的时间,PAI的DLC是我们提供给云上所有客户的高稳定分布式训练,提供各种各样标准化的监控。大家可以时刻关注到自己的训练任务到底是怎样的。因为我们支撑了中国50%以上的大模型企业做训练。所以我们知道在硬件,系统、框架、平台上可能会遇到什么样的问题。我们已知的问题都会通过平台的能力自动的去侦测、发现和快速解决这些问题。中间是指我们能够快速的发现,最右边是指我们能够快速解决这些问题。作为一家模型厂商,更多要关注的是自己的模型结构、数据,训练的稳定性由平台帮大家解决。
四、PAI开发平台年度发布
更关键的一点是我们需要人build刚才整个过程。我们在PAI提供了一系列的开发平台的能力。我们是一个自带最佳实践的平台,以及自带最佳实践的平台。你自己做AI的领域时,如果不太会,我们会各种各样的gallery:不太会写代码的直接用model gallery;熟悉python的可以使用notebook gallery; 对自己的业务很了解,但不知道模型,甚至不知道python怎么写,可以使用pipeline gallery, 里面有各种各样的最佳实践, build right system,、chatbot、stable diffusion的workload,我们都有相应的最佳实践提供给大家。
我们打造了数据+AI的联合平台。昨天我们发布了open lake产品。今天人工智能平台是无缝的连接到所有阿里云云上的存储及大数据的相关引擎的。在PAI平台上可做各种各样数据的分析。一个简单的例子,当你想使用一些数据做LLM训练时,可能不知道数据该怎么样被处理和清洗,图中每一个小方块都是一种LLM数据预处理的方法。
如果选择了这些数据预处理方法后,你会看到这样的一个template。 它会直接使用云上已经提供好的算子,然后把数据处理任务跑到大数据平台上。我们进行多模态数据的质量分析、数据的清洗、数据的增强,这些能力平台上都有提供,可以通过人工智能的平台连接到的大数据平台去执行相应的数据操作。
做了数据的操作、做完了训练、做完了function、最后去做了推理。在整个的过程,我们对所有的操作提供全链路的雪原。一旦遇到问题,我能够发现到底是什么地方出了问题,可能是数据、模型、推理服务等出了问题。简而言之,我们提供了大数据AI一体化的开发能力,提供了轻量化基于notebook的开发,提供了对各种计算引擎的对接,包括我们AI的引擎,也有EMR 、Hologres、 math computer、Spark等大数据引擎,我们提供了涵盖AI和大数据端到端pipeline构建的能力,并且提供端到端AI血缘的跟踪。一切能力全部都在PAI平台上,大家可以去access。
AI的门槛越来越低,所有人都可以玩AI,我们提供了另外一系列的工具链。左边是PAI quick star, 顾名思义就是让大家快速上手大语言模型。它涵盖从模型训练、部署、优化、压缩评测全部过程。在的平台上面只需要点几下鼠标,选一些典型的模型就可以做刚才所说的所有的这个过程。同时我们也推出了PAI arc lab,我名牌上所生成的AIGC形象就是由我们RTLIVE上面所提供的一个type line所构建的。art lab专门为设计师以及不太懂AI的开发者提供了一系列的平台能力和相应的开发的模板,大家可以做文生图、文生视频相关的工作。不太懂AI的人也能够通过我们的平台去使用AI。
最后是关于可信AI的部分。当我们想让业务实现最终落地时,模型是否安全?PAI提供了从数据到模型开发,再到模型部署的一系列能力,保证数据安全、模型安全、服务安全。
除了安全外,作为企业客户需要一系列的企业级能力,包括网络安全能力、资源的管理、AI资产的管理。PAI平台提供了全方位的能力,让企业客户更加高效的管理自己的AI资产。
最后总结,人工智能平台面向AI的开发者,面向资源的管理者及面向企业的决策者提供了训练推理服务。在上层我们通过模型开发和构建的平台,连接了开发者和底层云上的资源,确保大家高效的去使用云上昂贵的GPU资源。通过我们的平台,我们希望能够有更多的开发者和企业客户进入AI行业,享受AI的红利。