文/本文根据阿里云智能集团资深副总裁、公共云事业部总裁刘伟光的演讲内容整理
什么加速了云的发展?
自 2006 年云计算概念提出,到 2009 年阿里云启动云 计算,以及随后十五年间,伴随重要环境变化和事件推动,云计算经历了巨大的变化。
从加速发展的节点来看,云原生概念的出现,从软件架构到开发测试方面提出了崭新的理念。伴随容器等技术的成熟,软件产业有了巨大的升级的空间。同时微服务架构也比原有的 SOA 架构有了更大的进步空间,这些高可用、高可靠、高性能的架构,让云原生概念深入人心。在这个时期,更多客户为了拥抱先进的软件开发技术转向了云的架构。
整个企业市场一直都在向更先进的架构演进。全球多地多活多 AZ 架构、离线在线混合部署、单元化架构、容器化部署......这些都是今天全球最先进企业的重要技术基础设施特征。要拥有这些特征,云就成为一个非常重要甚至是必须的选择。
尤其是在当前中国企业走向全球市场的必然趋势下,当这些企业带着中国最好的服务、最好的产品、最好的客户体验走向全世界的时候,随之而来就是其背后的技术能力伴随他们走出国门,走向全世界。因此,中国企业出海会更大程度的加速和放大云计算的市场。
此外,生成式 AI 爆发,其在 C 端、B 端的商业价值应 用正在显现,未来会诞生更多杀手级应用去渗透和替换原有的企业流程。同时在可预见的未来,人工智能战略在全球范围内广泛布局并深度渗透,将再度加速整个云计算的发展。
云计算下一步:AI 融合的云
回顾最早阶段,云计算更多是对标企业 IT 信息化技术 能力的升级,是狭义的云计算。今天,云计算的内涵已经有了很大延伸:PaaS 层向下,延伸到芯片、指令集,用更多的异构算力为业务提供各种各样的支撑,尤其是面向 AI 的发展;向上,面向人工智能发展了 MaaS (Model as a Service),甚至未来可能会出现 Token as a Service,这都将创造新的应用渗透空间。
可以确信,未来云和 AI 将在融合创新中螺旋上升、融合发展。
在 AI 爆发的时代,云计算正切实加速社会的全方位数字化、智能化,具体体现在以下几个方面。
第一,创新。云计算已经成为社会创新的孵化器。随着大语言模型跟云的结合,未来绝大多数新技术会优先甚至唯一诞生在云上。未来更多的 AI 原生应用也会优先诞生在云上。所有技术的发展和创新背后都离不开云计算和大数据的支撑。
第二,效率。云计算的诞生带来了效率的极大提升,未来 5 年内 50% 的中小型 IDC 将进行云升级,云让全社会的算力效能得到提高,相当于每年节省了 26 亿吨标准煤。
第三,敏捷。保持业务敏捷成为“企业生存和进化”的基本能力,数字化、智能化转变的深度将成为企业的差异化能力,企业也因此正从传统 IDC 应用向云上先进架构全面演进。
第四,可靠。云上原生的高可用架构,让全球多地多活、单元化架构、离在线混部成为“架构标配”。
这也是为什么如今越来越多的企业不仅要上云,而且要全面上云。上云不仅能提升 IT 资源利用率;同时,从重资源投入的方式改变为租赁模式,也降低了成本,提升了资本利用率;还能减少硬件采购的时间成本,用时间换取业务成功空间。
不止于此,从推动创新的角度来看,云计算不仅仅是一套技术体系,还能赋予很多领域、业务以能力提升,从 C 端到 B 端实现创新改变。云计算已经充分赋能了电商、在线支付、短视频等应用创新。当云和 AI 融合,将进一步赋能智能座舱、人形机器人等智能终端,以及拟人交互、智能专业助手(种草社区内容生成、自动驾驶、 代码助手等)、智能效率工具......正是建立在云计算的 基础上,才能实现整个技术的完整升级,才能实现更高效率的智能化转变。
而云和 AI 的融合不仅仅是在云上开发一个大模型这么简单。
一方面,云不断提升能力,更好地支撑 AI 的发展。比如,提供向量存储与检索服务,面向智算场景大幅优化存储性能;再比如构建智算容器集群,整合 GPU 与通用算 力,实现超大稳定网络高速互联......云计算加速了弹性 计算、存储、网络等方方面面能力的进化,让大家更简单、 更便捷、更高效地训练和使用大模型。
另一方面,AI 深入到云的内部,提升了云的能力与易用性。比如,基于 AI 实现更加智能化的异构资源调度和管理;利用 AI 实现智能化的故障预测、精准故障定位和精准故障规避,进行无感热迁移时能提前规避 90% 的故障;利用 AI 提供自适应业务需求的性能,更加弹 性灵活;此外,还有云产品使用助手、数据处理与分析助手等智能助手,通过大模型能力让云的使用更简单。
去年云栖大会上,王坚博士有个断言:云计算和人工智能,就是电和电机的关系。可以说,云计算为人工智能提供了发展所需的基础设施,同时 AI 也反过来加强了云平台从资源管理到应用部署、乃至计算技术架构层面的优化与提升,两者像鱼和水一样密不可分。
AI 爆发正在超越摩尔定律
2012 年到 2013 年,正值 3G 向 4G 过渡的时间,中国移动支付交易规模实现了 810% 的增长;2017 年到 2018 年,中国短视频市场爆发,实现了 850% 的规模增长。
而今天,大模型市场将迎来一个更大规模的增长。2023 年,中国大模型市场刚起步时,所有公司的 API 日调用量加在一起也不超过一个亿,但从当前发展速度来看,从我们每天接触的客户和不断增长的数据看,预计到 2024 年底,整个中国市场 API 调用量将达到 100 亿次,迎来成百上千倍的增长。因为今天多模态大模型通过其在语音、语义、图像和文本等方面的卓越能力,已经全方位地渗透到社会的每一个角落。与仅仅局限于特定领域的应用不同——如移动支付仅聚焦于金融交易的一个垂直细分,或是短视频平台仅定位于娱乐传播的一个范畴——大模型的影响是跨领域、多维度的,具有更广泛的影响力和渗透力。
这个进程中,不仅有技术能力的不断提升,也包括推理成本的不断下降,这是由市场应用爆发的趋势所决定的。 AI 发展和迭代速度远远超过了摩尔定律,AI 推理成本的下降速度也必然远远超越摩尔定律。由此,推动 AI 推理使用规模实现每年十倍甚至百倍的增长,才能真正推动各行各业 AI 应用的爆发。
那么,什么样的公司真正有能力、有资格推动成本极致降低,推动 AI 应用市场快速普及?
第一,模型实力。想要做到真正服务大众,要确保基础模型能力能够在权威评测中持续保持领先,能够经得住市场的长期考验;还要提供多种模态、不同规格的基础模型。
第二,推理能力。这不仅仅特指提供 GPU 卡等物理资源的能力,还需具备从网络、计算、存储、数据中心等方面构建大规模推理计算集群的能力,以及高性能优化、自适应调优、可扩展部署等推理性能优化的能力。
第三,用户规模。是不是已经为很多客户提供模型服务,并且正在产生商业效果。
第四,战略定力。是否坚持技术投入长期主义,坚持采用可持续的商业模式,不以流量博噱头。
以上体现到阿里云的技术和业务中,可以总结为三点: 有实力、有能力、有态度。
从实力上来说,通义大模型是持续在国际榜单名列前茅的大模型。由国际开放研究组织 LMSYS 推出的 Chatbot Arena,被称为“最强大模型盲测”,在开发者中很有公信力。2023 年 10 月,Qwen-14B-Chat 率先出现在榜单领先位置,之后 Qwen1.5-72B-Chat 冲进了前十并持续停留在榜单中。这也代表着阿里云通 义千问带着中国大模型真正进入了国际竞争舞台。在编码领域,CodeQwen1.5-7B 超过更大尺寸的模型,在 Hugging Face Leaderboard 开源代码大模型中名列前茅。5 月 9 日发布的通义千问 2.5,也在中文环境下全面赶超 GPT-4 turbo 版本。
除了模型排名领先,通义大模型还有丰富的模型服务:有视觉、语言、Audio 的全模态,也有从 0.5B 到 110B 近十个规格的全尺寸大模型,还同时提供开源和商业化大模型。
在能力上,大语言模型的输出能力高度依赖于其背后系统的综合技术实力 , 包括技术能力、集群能力、网络能力等。阿里云拥有超大规模的云基础设施,5 月 23 日,阿里云宣布将在全球五个国家投资新建数据中心,其全 球布局将增加至全球 31 个地域和 95 个可用区。而且在基础设施之上,阿里云推理集群具备多个关键技术点,包括高性能算子、高性能推理框架、编译优化能力、模 型推理部署能力的扩展弹性、解决推理服务在一定时期内的潮汐能力等。
“打造 AI 时代最开放的云”则是阿里云的态度。通义系列持续开源了全模态、全尺寸的模型家族,截至2024 年 7 月,下载量已经超过 2000 万。此外,两年前阿里云搭建了魔搭社区,相当于中国的 Hugging Face, 目前已经成为中国最大、最活跃的模型社区,吸引了超过 500 万的开发者,积累了 6000 多个开源模型,大大加速了整个中国大模型生态的繁荣。同时,阿里云还推出大模型服务平台百炼,企业和开发者不仅可以选择通义系列大模型,还可以选择市面上主流的开源模型 和垂直领域的优秀模型,并且还能与多个开发者社区联动。不仅能快速、便捷地选择和使用大模型,百炼还提供了新型工具帮助开发者和企业用户能够快速调优,助 力客户完成“最后一公里”。这一切组合起来,已经非常类似于面向未来的 AI 操作系统。
让天下没有难做的 AI 应用
“让天下没有难做的 AI 应用”是阿里云在 AI 时代的一个愿景,为了真正让更多使用者用上大模型、加速 AI 应用的爆发,通义千问系列 9 款商业化及开源系列 模 型 宣 布 降 价, 涵 盖 Qwen-Long、Qwen-Max、Qwen1.5-72B 等。其中,Qwen-Long 是通义千问的长文本增强版模型,性能对标 GPT-4,上下文 长度最高达 1000 万 tokens,输入价格降至 0.0005 元 / 千 tokens,降幅达 97%,输出价格降至 0.002 元 / 千 tokens,降幅达90%。通义千问旗舰款大模型Qwen-Max,API输入价格降至0.04元/千 tokens,降幅达 67%。
对输入价格和输出价格的调整加以区分,原因在于用户在提问时经常结合长文本,使得模型的输入调用量通常高于输出调用量。统计数据显示,模型的输入调用量大约是输出的 8 倍。通过大幅降低输入 token 的价格,对企业而言更具成本效益,有助于实现更广泛的普及,也是为了鼓励大家充分利用长文本。
阿里云选择降价背后,是基于一个坚定的认知:无论是开源模型还是商业化模型,公共云 +API 将成为企业使用大模型的主流方式。
一是公共云的技术红利和规模效应,能带来巨大的成本和性能优势。阿里云可以从模型自身和 AI 基础设施两个层面不断优化,追求极致的推理成本和性能。阿里云基于自研的异构芯片互联、高性能网络 HPN7.0、高性能存储 CPFS、人工智能平台 PAI 等核心技术和产品,构建了极致弹性的 AI 算力调度系统,结合百炼分布式推理加速引擎,大幅压缩模型推理成本,并加快模型推 理速度。
即便是同样的开源模型,在公共云上的调用价格也远远低于私有化部署的价格。以使用 Qwen-72B 开源模型、每月 1 亿 tokens 用量为例,在阿里云百炼上直接调用 API 每月仅需 600 元,而私有化部署的成本平均每月超 1 万元。
二是在云上更方便进行多模型调用,并提供企业级的数据安全保障。阿里云可以为每个企业提供专属 VPC (Virtual Private Cloud,专有网络)环境,做到计算隔离、存储隔离、网络隔离、数据加密,充分保障数据安全。目前,阿里云已主导或深度参与国际国内十多项大模型安全相关技术标准的制定。
三是云厂商天然的开放性,能为开发者提供最丰富的模型和工具链。阿里云百炼平台上汇聚通义、百川、ChatGLM、Llama 系列等上百款国内外优质模型,内置大模型定制与应用开发工具链,开发者可以便捷地测试比较并调用不同模型,还可以开发专属大模型,从而轻松搭建各类应用。从选模型、调模型、搭应用到对外服务,一站式搞定。
未来,云和 AI 融合一定会成为新的生产力。阿里巴巴有一句话:“因为相信,所以看见。”但现在我们已经看见了云和 AI 的未来正在发生,所以,不如我们提前进入那个未来。