阿里云推出第八代企业级实例 g8i:AI 推理性能最高提升 7 倍、可支持 72B 大语言模型

简介: 1 月 11 日,全球领先的云计算厂商阿里云宣布推出第八代企业级通用计算实例 ECS g8i,这也是国内首款搭载第五代英特尔至强可扩展处理器(代号 EMR)的云计算产品。依托阿里云自研的「飞天+CIPU」架构体系,ECS g8i 实例的整机性能最高提升 85%,AI 推理性能最高提升 7 倍,可支撑高达 72B 参数的大语言模型,为 AI 提速,同时新实例还提供了端到端安全防护,为企业构建可信 AI 应用提供强有力的隐私增强算力支撑。


1 月 11 日,全球领先的云计算厂商阿里云宣布推出第八代企业级通用计算实例 ECS g8i,这也是国内首款搭载第五代英特尔至强可扩展处理器(代号 EMR)的云计算产品。依托阿里云自研的「飞天+CIPU」架构体系,ECS g8i 实例的整机性能最高提升 85%,AI 推理性能最高提升 7 倍,可支撑高达 72B 参数的大语言模型,为 AI 提速,同时新实例还提供了端到端安全防护,为企业构建可信 AI 应用提供强有力的隐私增强算力支撑。


通用算力再提升,整机性能提升 85%


作为企业级通用计算实例,ECS  g8i 实例在计算、存储、网络和安全等能力得到了全方位提升。从关键参数上看,ECS g8i 实例的 L3 缓存容量提升到  320MB,内存速率高达 5600MT/s,整机性能提升 85%,单核性能提升 25%;存储方面,ESSD 云盘提供 100万  IOPS,全面搭载 NVMe,存储延迟低至百微秒;网络方面,PPS 高达 3000 万,标配阿里云自研 eRDMA 大规模加速能力,时延低至 8  微秒;安全方面,ECS g8i 实例支持可信计算与加密计算等特性,全球率先支持机密虚拟机 TDX 技术,构建了全面的安全防护。


配图01_副本.jpg


在 E2E 场景下,ECS g8i 实例可将 MySQL 性能提升最高达 60%,Redis 和 Nginx 的性能分别提升 40% 和 24%,面向游戏、视频直播、电商、金融、医疗、企业服务等行业提供强劲的算力支持,满足其在数据库、大数据、AI 推理等应用场景下对性能的严苛要求。

此外,ECS g8i 实例还提供了多种硬件原生加速能力,包括 QAT 和 IAA 等加速器。阿里云通过自研技术,将硬件加速能力更细颗粒度透传至实例虚拟机,小规格的 ECS g8i 实例也同样具备加速能力。其中,依托于 QAT 原生加解密加速器,ECS g8i 实例在压缩/解压缩场景下性能最大可提升 70 倍,加解密性能提升 4 倍以上。

为 AI 提速,可支撑 72B 参数的大语言模型


生成式 AI 掀起的技术革命,正在推动计算范式发生根本性的变化。当前,AI 大模型推理在算力上依然面临诸多挑战,例如首包延迟受限于并行处理能力与浮点运算能力,吞吐性能则受限于内存带宽和网络延迟。

阿里云  ECS g8i 实例针对这些难题都进行了相当程度的优化,包括内置指令集从AVX512 升级到了 Intel  AMX  高级矩阵扩展加速技术,可让生成式 AI 更快地运行。相对于 AVX512 指令集,启用 AMX AI 加速后,ECS g8i 实例在 int 8  矩阵计算的性能最高提升 7 倍。


配图02.jpg


基于  AMX AI 加速能力,g8i 可更迅速地响应中小规模参数模型,运行知识检索、问答系统及摘要生成等 AI 工作负载时,起建成本相比 A10  GPU 云服务器下降50%。此外,配合阿里云平台的 Spot 抢占式实例,成本优势将进一步凸显,进一步降低 AI 推理成本。

对于超大规模参数的模型来讲,通常会通过模型并行、流水线并行切分到 AI 集群,这个时候网络通讯成了主要的性能瓶颈。基于阿里云自研的 eRDMA 超低延时弹性网络,ECS  g8i 实例集群拥有超低延时网络和高弹性优势,可轻松支撑 72B  参数级别的大语言模型分布式推理,推理性能随集群规模接近线性加速,并可支持超过32batchsize 的超大参数规模的 AI  模型负载,运行文生图、AI 生成代码、虚拟助手以及创意辅助工具等 AI 工作负载。


配图03.jpg


以阿里云开源的 Qwen-72B 大模型为例,可在 g8i 实例 eRDMA 网络构建的集群实现高效运行,在输入小于 500 字情况下,首包延时小于 3 秒,每秒可生成 7 个Token。


为安全加码,助力企业构建可信 AI 应用


长久以来,云厂商一直在不遗余力提升数据的隐私保护和安全性,AI  时代尤为明显。基于自研的 CIPU,阿里云在全产品线构建了端到端的安全防护,可保障数据存储、数据传输、数据计算的全流程安全。在最底层,基于  CIPU 的安全架构搭载安全芯片 TPM 作为硬件可信根,实现服务器的可信启动,确保零篡改;虚拟化层面,支持虚拟可信能力  vTPM,提供实例启动过程核心组件的校验能力;在实例可信的基础上支持不同平台的机密计算能力,实现了运行态的内存数据隔离和加密的保护。


配图04_副本.jpg


值得一提的是,此次升级的 ECS g8i 实例全量支持 Trust Domain Extension TDX  技术能力,业务应用无需更改,即可部署到 TEE 之中,极大降低了技术门槛,并以极低的性能损耗为大模型等 AI 应用提供隐私增强算力,护航大模型的云上数据安全。


配图05_副本.jpg


以 Qwen-Chat-7B 模型为例,启用 TDX 后,既确保了模型推理的安全可信,也保护了数据的机密性和完整性。


640.jpg

相关文章
|
5天前
|
人工智能 自然语言处理 测试技术
阿里云通义实验室自然语言处理方向负责人黄非:通义灵码2.0,迈入 Agentic AI
在通义灵码 2.0 发布会上,阿里云通义实验室自然语言处理方向负责人黄非分享了代码大模型的演进。过去一年来,随着大模型技术的发展,特别是智能体技术的深入应用,通义灵码也在智能体的基础上研发了针对于整个软件研发流程的不同任务的智能体,这里既包括单智能体,也包括多智能体合并框架,在这样的基础上我们研发了通义灵码2.0。
|
5天前
|
存储 人工智能 关系型数据库
AnalyticDB PostgreSQL版:Data+AI 时代的企业级数据仓库
AnalyticDB PostgreSQL版是面向Data+AI时代的企业级数据仓库,涵盖产品架构、核心技术、客户案例及功能发布四大部分。产品架构包括数据分析和AI/ML的存储与计算优化;核心技术涉及高性能实时引擎Beam、向量化执行引擎Laser及优化器Orca;客户案例展示了丝芙兰和领跑汽车的应用;新功能如pgsearch全文检索和In-Database AI/ML进一步提升了性能与易用性。
|
6天前
|
人工智能 供应链 安全
阿里云 Confidential AI 最佳实践
本次分享的主题是阿里云 Confidential AI 最佳实践,由阿里云飞天实验室操作系统安全团队工程师张佳分享。主要分为三个部分: 1. Confidential AI 技术背景与挑战 2. Confidential AI 技术架构与应用场景 3. Confidential AI 技术实践与未来展望
|
8天前
|
人工智能 自然语言处理 搜索推荐
云端问道12期实操教学-构建基于Elasticsearch的企业级AI搜索应用
本文介绍了构建基于Elasticsearch的企业级AI搜索应用,涵盖了从传统关键词匹配到对话式问答的搜索形态演变。阿里云的AI搜索产品依托自研和开源(如Elasticsearch)引擎,提供高性能检索服务,支持千亿级数据毫秒响应。文章重点描述了AI搜索的三个核心关键点:精准结果、语义理解、高性能引擎,并展示了架构升级和典型应用场景,包括智能问答、电商导购、多模态图书及商品搜索等。通过实验部分,详细演示了如何使用阿里云ES搭建AI语义搜索Demo,涵盖模型创建、Pipeline配置、数据写入与检索测试等步骤,同时介绍了相关的计费模式。
|
6天前
|
人工智能 Java API
阿里云工程师跟通义灵码结伴编程, 用Spring AI Alibaba来开发 AI 答疑助手
本次分享的主题是阿里云工程师跟通义灵码结伴编程, 用Spring AI Alibaba来开发 AI 答疑助手,由阿里云两位工程师分享。
阿里云工程师跟通义灵码结伴编程, 用Spring AI Alibaba来开发 AI 答疑助手
|
人工智能
AI项目失败率高达50%!人工智能离企业级应用还有多远?
国际数据公司(IDC)分析师最近进行的一项研究发现,大约2/3采用AI技术的公司在努力发展“人工智能第一文化”,而在已经使用人工智能的企业中,只有1/4已经制定了“企业范围”的人工智能战略,并且发现在部署人工智能的过程中,大量项目注定要失败。
1040 0
|
7天前
|
人工智能 运维 物联网
云大使 X 函数计算 FC 专属活动上线!享返佣,一键打造 AI 应用
如今,AI 技术已经成为推动业务创新和增长的重要力量。但对于许多企业和开发者来说,如何高效、便捷地部署和管理 AI 应用仍然是一个挑战。阿里云函数计算 FC 以其免运维的特点,大大降低了 AI 应用部署的复杂性。用户无需担心底层资源的管理和运维问题,可以专注于应用的创新和开发,并且用户可以通过一键部署功能,迅速将 AI 大模型部署到云端,实现快速上线和迭代。函数计算目前推出了多种规格的云资源优惠套餐,用户可以根据实际需求灵活选择。
|
3天前
|
人工智能 算法 前端开发
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
OmAgent 是 Om AI 与浙江大学联合开源的多模态语言代理框架,支持多设备连接、高效模型集成,助力开发者快速构建复杂的多模态代理应用。
114 72
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
|
15天前
|
机器学习/深度学习 人工智能 算法
AI在体育分析与预测中的深度应用:变革体育界的智能力量
AI在体育分析与预测中的深度应用:变革体育界的智能力量
88 31
|
11天前
|
人工智能 运维 负载均衡
智能运维新时代:AI在云资源管理中的应用与实践
智能运维新时代:AI在云资源管理中的应用与实践
96 23