飞天技术观｜以大模型为中心，智能时代的云计算技术体系-阿里云开发者社区

《云栖战略参考》由阿里云与钛媒体联合策划，呈现云计算与人工智能领域的最新技术战略观点与业务实践探索，希望这些内容能让您有所启发。

文/周靖人「阿里云首席技术官」

快速发展的云计算已经成为了数字时代的创新源泉，一方面为我们各行各业提供了高效、稳定、弹性的算力，也以多种计算方式满足了各种场景需求；同时，云计算产品也在不断地丰富其产品形态，不断完善，致力于解决各行各业的实际问题。

迈入智能时代，AI发展跟云发展是密不可分的。AI模型训练依靠背后强大的算力支持，模型最终的服务也依赖于云的基础设施，覆盖到全国甚至全球，同时AI提升了云计算产业整体能力，以更有效的让开发者利用云的能力去真正意义上解决实际的业务问题。此外，我们也在不断升级整个应用开发范式，希望让云和AI的使用变得更简捷，不断降低技术的门槛，不断释放技术红利，让云和AI更实惠。

阿里云今天在人工智能大模型领域所构建的技术与服务能力，并非只是简单的因为数年前开始研究人工智能技术，最重要的是基于阿里云过往数十年技术的发展、积累和演进，才构建了今天人工智能大模型领域的基础能力与技术优势。

阿里云从2009年开始自研大数据计算服务ODPS，因此在大规模数据处理和大规模算力应用上，建设了领先的技术能力，由此推动了PAI（Platform for AI）在2016年的诞生。没有过去的探索与积累，就不会有今天阿里云完整的人工智能技术体系。也正是在该体系的建设过程中，我们在2022年9月的人工智能大会上，发布了通义大模型，并在2022年11月云栖大会上率先在业界提出“模型即服务”理念，即MaaS（Model as a Service）。

图片4.png

我们认为，一方面MaaS是未来人工智能发展的重要方向，如果能实践好，将促进AI产业界的大发展。另一方面，MaaS也对基础设施提出了新的要求，特别是和云计算基础设施的深入融合，也带来了新的AI工具的机会。

可以确定的是，未来云计算的发展会越来越快，云上的业务、企业也在加速云上创新。随着云和智能深度的融合，智能将无处不在。以云为基础，以AI为引擎，阿里云也将加速智能时代的创新，为各行各业AI快速发展奠定一个坚实的基础。

以云为基础，以模型为中心

为了加快突破AI应用难题，我们认为，首先要围绕模型去搭建相应的服务体系。

所谓MaaS，首先最底层的含义是，模型成为了重要的生产元素。我们要从模型开发入手，包括数据清理、特征工程、模型训练和调优、模型服务等，围绕模型的生命周期设计产品和技术。

其次，另一层含义是要围绕模型的生态发展，聚焦行业和场景，推动模型层次化结构不断发展、不断创新。当前大模型生态已初具规模，特别是面向多模态场景的预训练大模型已成为趋势。它的“大规模”和“预训练”属性决定了它的能力易于泛化，已成为上层应用技术基础，能有效支撑众多AI应用落地，解决传统AI应用中壁垒多、部署难的问题，从而有效降低了AI技术应用到千行百业的门槛。

图片5.png

在MaaS的理念下，阿里云以基础大模型为基础，发展垂直领域模型，适配多端模型服务部署。其中，我们基于模型开放平台为客户提供一站式的模型服务，可以覆盖众多开发所需的大模型全生命周期的管理，并与各个领域应用生态相结合，最终实现各个行业或企业专属模型的部署与应用。未来，完整的模型生态，不仅是在云端、手机端和随身设备上，更是在无形之中形成立体的服务机制，服务生活的方方面面。

一、超高性能算力支撑

人工智能正在向通用化方向发展，以大模型为代表的技术趋势是人工智能通用化的关键。

大模型的训练通常需要数千上万张专用计算卡并行计算，全量训练一次需要一到两个月。大模型计算集群构建是世界级的难题，其中计算系统“总线”是计算性能提升的关键，在此之上结合存储技术提供高效的数据交换能力也非常重要。

灵骏集群是阿里云2022年8月发布，通过软硬件一体技术深度优化的AI算力产品。灵骏基于高性能网络技术设计系统架构，支持“10万卡”规模的顶级AI集群构建，服务器节点间通过800G-3.2T的高带宽网络实现内存显存级的资源互通，通过RDMA网络技术、多级存储和数据缓存加速的技术，实现端到端微秒级（1微秒=千分之一毫秒）时延、TB级数据吞吐能力，模型训练速度提升17%，为前沿的人工智能技术发展提供高效的算力支撑。

图片6.png

传统的云计算服务基于分布式计算技术实现，为客户提供高并发的算力服务，以大模型为代表的人工智能时代需要大算力，底层是并行计算技术，随着云计算发展进入深水区，云计算服务商应与时俱进，为智能应用云原生提供更多元化的算力服务。模型发展，特别是大模型训练离不开密集型计算算力，而提供算力的所有GPU不是简单的堆砌，更需要让所有算力能够联合起来为模型训练服务。这其中，如何有效地高速连接、如何提供一个高吞吐、低延迟的网络方案，对模型训练至关重要。

二、高性能分布式模型训练

有了底层能力，还需要软件真正把这些能力运用起来，去释放硬件的算力，这就是“PAI×灵骏”高性能分布式模型训练平台。

具体来讲，做一个模型训练的时候，需要把一个模型整体的训练从单卡的情况自动做一个并行化，自动地完成各个算子在物理集群上的映射，形成一个分布式训练的执行图。这个图不是静态的，是随着训练过程中网络以及内存、计算的一系列变化动态调整的执行图，是真正意义上完成最优的分布式训练的执行方案。

这一切需要大量的技术创新和持续积累。基于技术的创新、突破，PAI经受住了整个阿里各个模型训练的考验，可以训练大致10万亿参数规模的大模型，支持万卡的单任务分布式训练规模，分布式加速比接近线性，实现了92%线性扩展效率，在一些训练场景上能够带来10倍训练效率提升。高吞吐大规模的分布式模型训练平台对人工智能的发展起到了关键的作用。

三、低延时模型推理与服务

模型训练好之后，还需要一个低延时模型推理以及服务平台。模型在做推理的时候需要把模型部署在就近的区域，这正是阿里云长期积累的优势。阿里云在全球有29个数据中心，可以实现将所有的模型部署在接近业务群体的各个区域，提供低延迟的服务。

在部署中，通过自动监测负载变化，阿里云帮助模型推理方自动进行资源的扩缩容，进一步提升模型推理效率。

通过“PAI×灵积”低延时模型推理与服务平台，可以实现一键式模型部署，省却寻找底层资源、模型上载等操作，通过一行代码，便可把模型部署在云平台实现高效推理。而且，通过Model的ID和API key的方式，可以快速把模型能力结合在应用开发里。同时，在模型压缩方面，通过剪枝、蒸馏等压缩手段，在不影响模型性能的情况下，将模型服务消耗的计算资源降低到原来的1/8。

这一系列创新都是帮助客户在人工智能的时代更好地训练自己的模型，更好地把我们模型的服务推向业务去解决实际问题。

四、模型即服务开放平台

针对业务问题，如何在一个一站式模型的社区里查找到能帮助解决实际问题的模型去做相应的尝试，是我们一直希望优化的用户体验。

2022年11月份的云栖大会上正式发布的魔搭社区（ModelScope）就是一个“模型即服务”的开放平台，这里有来自视觉、语音、自然语言处理各个领域预训练的模型可以被快速调用，也有各种开放的数据集可以用来进行模型的训练、调优。

短短的几个月，魔搭社区已经有上百万的开发者积极参与，同时累计有1600万次模型下载，开发者把各式各样的模型集成在其开发的应用里，真正辐射到各行各业实际的问题中。

魔搭社区上模型的数量也在不断增加，现在，魔搭社区已聚集180万AI开发者和由20多家顶尖人工智能机构贡献的900多个优质AI模型。不光阿里云，还有阿里云的科研伙伴、创业公司在内的社会各界都有贡献。模型贡献者基本覆盖国内大模型赛道核心玩家，如百川智能、哔哩哔哩、IDEA研究院、兰丁股份、澜舟科技、OpenBMB社区、启智社区、清华TSAIL、RWKV、深势科技、WeNet社区、元语智能、浙江大学、智谱AI等（排名不分先后），他们贡献了30多个10亿以上参数规模大模型。

在魔搭这个自由市场，所有模型生产者都可上传模型，验证模型的技术能力，探索模型的应用场景和商业化模式。魔搭社区打通了与灵积平台的部署链路，支持社区的模型通过灵积来实现服务化。为进一步降低大模型使用门槛，阿里云在大会现场推出了一款智能工具魔搭GPT（ModelScopeGPT），它能接收用户指令，通过“中枢模型”一键调用魔搭社区其他的AI模型，大小模型协同完成复杂任务。这是国内首款大模型调用工具。

魔搭GPT现已能够调用魔搭社区十多个核心AI模型的API，未来随着更多模型API的加入，魔搭GPT的能力也将不断增强。构建这一模型调用工具的数据集和训练方案将会对外开放，供开发者自行使用，开发者可以根据需要对不同的大模型和小模型进行组合。

找大模型上魔搭，我们将努力把魔搭社区培育成中国最大的“大模型自由市场”。

让模型走进产业

从2019年开始，阿里就在做一系列的多模态预训练大模型，初衷是把知识融会贯通，有效完成万物的识别、万物的理解。

2021年，我们发布了一个百亿参数规模的中文预训练多模态大模型，之后参数规模从百亿又提升到万亿、十万亿。同时，我们也在做相关的多模态模型的研发和创新。

2022年9月，所有模型汇集在一起，构成了对外发布的“通义”大模型系列。“通义”通过模态统一、任务统一甚至模型结构统一的方式，为阿里云多模态的模型提供统一的底座。除了能够提供统一的训练框架，更重要的是通过分享、开源，各行各业可以在上面进行创造和二次开发，逐渐建立起整个模型生态。

在“通义”平台上，一系列模型已经和行业的模型形成了层次化、模块化的结构。行业的模型可以在预训练模型之上进行特制，可以解决当前多达200多个业务的场景。

2023年4月，通义家族的最新成员“通义千问”发布，这是一个超大规模的语言模型，能够了解人类指令、跟人类进行多轮交互，同时也融入了多模态知识理解，能够跟我们各种外部增强的API进行互联。

“通义千问”的能力非常突出，可以解决各行各业一系列技术问题。通过将企业和行业的知识跟“通义千问”进行融合，能够真正意义上生成企业专属的大模型，满足企业个性化的需求。

继通义千问之后，阿里云通义大模型家族也在持续迎来新的产品和模型成员。

6月1日，聚焦音视频AI的“通义听悟”正式亮相，成为国内首个开放公测的大模型应用产品，其前身是早在2021年研发投入市场的“听悟”产品，此次除了集成阿里通义千问大模型的理解与摘要能力外，还融合了阿里最先进的语音语义、多模态算法等技术。听悟企业版还在与钉钉“钉闪记”、夸克APP、阿里云盘等能力进行集成。

7月7日，在2023世界人工智能大会上，AI绘画创作大模型“通义万相”开启定向邀测，该模型可辅助人类进行图片创作，未来可应用于艺术设计、电商、游戏和文创等应用场景。这是阿里云大模型全面掌握多模态能力的关键一步，该能力将逐步向行业客户开放。

通义万相的问世意味着阿里云在大模型领域已经具备处理或生成文本、语音和图片等模态的能力。目前，阿里云大模型正逐步走向千行百业，已有超过30万企业申请测试通义千问，通义听悟累计用户数达到36万。

多模态是大模型演进的必然路径，我们希望用不同模态的能力服务千行百业，帮助企业全面拥抱智能化时代。

因此，在“通义”系列模型和产品基础上，我们开发了“企业专属大模型”产品。首先，建立一个企业的专属数据空间，包括PDF、Word、知识库、云数据库等形式的任何数据都可以很方便地接入数据空间里，不需要做任何提前的处理；之后，“通义千问”模型会自动去学习企业数据空间里各种信息，生成符合企业使用习惯、行业属性的专属大模型；过程中，企业也可以把个性化的诉求加入到模型的生产过程中，参与模型的定制、开发。

不仅仅是生成一个企业专属的大模型，企业还可以把专属的大模型放在阿里云上进行推理。

企业可以在一个安全、高效的环境里使用这个专属模型，使用方式也多种多样：可以以对话的方式跟专属模型进行交流，也可以以对话框的方式嵌入到自己的网页中。

同时我们也提供完善的API开发流程，方便企业通过丰富的调用方式，将专属模型集成到企业各式各样的业务系统里，与各业务端有机地结合在一起，甚至用专属模型服务客户。所有这一切都是完全自动化生成的。

目前，阿里云和多家企业已经展开了合作探索，首批合作的企业有OPPO安第斯智能云、吉利汽车、智己汽车、奇瑞新能源、毫末智行、太古可口可乐、波司登、掌悦科技等。后续也将会与这些企业一起基于“通义千问”的语言模型持续进行创新，为企业做好更多的服务。

未来，阿里云会提供丰富的模型库覆盖各行各业。更重要的是，我们也希望跟合作伙伴一起，释放模型的能力，使其能够被二次开发、调优，能够更加结合行业知识进一步地将模型应用到实际场景中，提供各种各样丰富的灵活调用场景，完成业务系统智能化。

本文摘自《云栖战略参考》2023第一期

扫码限时申领纸质版

↓↓

飞天技术观｜以大模型为中心，智能时代的云计算技术体系

云栖战略参考

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件