Arm新一代架构发布:CPU能效提升40%,GPU性能提升15%

简介: Arm新一代架构发布:CPU能效提升40%,GPU性能提升15%

对于全球 Arm 生态来说,每年不变的常数就是 Arm 新发布的「公版」架构,其设计一直在引领移动和云端计算的发展。


在最近的台北 ComputeX 展会期间,Arm 展示了下一代 Cortex-A 和 Cortex-X 系列 CPU 内核 —— 以及新一代 GPU 设计,我们将看到它们从今年下半年到明年间成为产品。昨天的发布包括旗舰级 Cortex-X4 内核、中核 Cortex-A720、小核 Cortex-A520 以及新一代 GPU Immortalis-G720。


Arm 最新的 CPU 内核建立在 Armv9 及其之前的整体计算解决方案 (TCS21/22) 生态系统的基础上。对于其 2023 的年度 IP,Arm 正在通过其 Cortex 内核系列推出一波次要的微架构改进,这些细微的变化旨在提高效率和性能,同时完全转向 AArch64 64 位指令集。


除了改进 CPU 内核外,Arm 还使用 DSU-120 对其 DynamIQ Shared Unit 内核复合块进行了全面升级。尽管引入的修改很细节,但它们在提高结构效率方面具有重要意义,同时进一步扩展了 Arm 的应用范围,支持单个块中多达 14 个 CPU 内核:此举旨在使 Cortex-A/X 更适合笔记本电脑。


开发适用于从旗舰智能手机到入门型号的各种移动设备的片上系统(SoC)需要有细致的分级,但也需要保持一致性。例如,高通的骁龙 8 Gen2 选择使用了 Arm 的 Cortex-X3、Cortex A715/710 和 Cortex-A510 内核集群。有消息说 8 Gen3 等 SoC 今年还会提前迭代,准备利用 Arm 的 TSC23 核心集群的力量,进一步提升下一代旗舰移动设备的性能。


Arm 最新的 DynamIQ 共享单元 DSU-120 支持集群中多达 14 个 CPU 内核,为多种 CPU 内核组合打开了新的大门。我们将在今年晚些时候看到高通、联发科等厂商是如何配置它们的,一种可能的配置是 1+5+2(X4+720+520),这很可能是高端智能手机的配置。与上代 1+3+4 集群(X3+715+510)相比,Arm 声称在 GeekBench 6 MT 中的计算性能提升了 27%,在 Speedometer 中的提升在 33-64% 之间。


在最初的 Armv9 架构中,Arm 通过使用其内存标记扩展(MTE)改进了安全性,这是一种基于硬件的实现,使用指针身份验证 (PA) 扩展来帮助防止内存漏洞。多年来,基于内存的漏洞一直是对基于硬件的安全性的威胁,而 Arm 在其 IP 中不断试图减少这类漏洞。作为参考,谷歌的 Chromium 项目声称大约 70% 的高严重性错误来自内存。


最新 Armv9.2 架构的相关安全功能之一是引入了新的 QARMA3 指针验证码 (PAC) 算法。Arm 声称新算法将 PAC 的 CPU 开销降低到不到 1%,即使在小核上也是如此,这让开发者和手机厂商更加没有理由不启用这种安全功能了。


Arm Cortex-X4:新一代最快 Arm 内核


在不同 CPU 核心的升级中,大核 Cortex-X4 最引人关注。从最初的 Cortex X1 内核开始,Arm 每次迭代中在每周期指令 (IPC) 方面都能取得两位数的百分比性能提升,2023 年的 Cortex-X4 也是如此(13%),Cortex-X4 专用于旗舰安卓智能手机和领先的移动设备。


Cortex-X4 旨在为移动片上系统(SoC)提供顶级算力,特别适合处理大型游戏或突发负载。Cortex-X4 是 Arm 迄今为止性能最高的内核,具有预计 3.4 GHz 时钟速度和更大的 L2 缓存,与去年的 1 MB 相比容量翻了一番,达到 2 MB。尽管有这些改进,为提升性能核心物理尺寸仍有增加,更复杂的 X4 CPU 核心的裸片尺寸增加不到 10%(不包括额外的 L2 缓存)。


至于电源效率,Arm 声称与前几代产品相比效率大幅提升了约 40%,不要指望看到太多芯片厂商利用这一点,因为 X 系列的主要工作是高负载。


在架构方面,Cortex-X4 与 Cortex-X3 有相似之处,主要侧重于改进现有架构并优化各种核心组件的效率。Cortex-X4 前端已重新洗牌并调整了指令获取块,Arm 的目标是保持低延迟,同时在其 Cortex-X4 内核和整个 TSC23 内核集群中提供峰值带宽。


Cortex-X4 前端的重大架构变化体现在其调度宽度上。Cortex-X4 现在具有更集中的 10-wide 调度宽度,最高可达 X3 的 6/8-wide 调度宽度。也就是说,尽管前端变宽了,但有效流水线长度实际上却略微缩短了,分支预测错误的惩罚从 11 个周期减少到 10 个。


前端的另一个重点是指令获取过程本身。与 Cortex-X3 相比,Arm 基本上重新设计了整个指令获取传送系统,以确保整个流水线的效率更高。


最新的架构还对 Arm 的分支预测单元进行了另一次改进,进一步提高了它们的预测准确性,但这一切都不是免费的午餐,Arm 很快注意到改进后的预测器的实施成本更高。尽管如此,Arm 认为,为了提供性能这是值得的。


再看 CPU 内核的后端,Arm 将重点放在了执行带宽上。在其他变化中,Arm 将 ALU 的数量从 6 个增加到 8 个。其中 6 个是用于处理单周期 uOPS 的简单 ALU。同时有两个复杂的 ALU 用于处理双周期和多周期指令,Arm 还挤进了另一个分支单元,使 Cortex-X4 从 2 个增加到 3 个,并增加了一个额外的 Integer MAC。在浮点方面,Cortex-X4 还升级了流水线浮点分频器。


因此从某种程度上看,X4 的性能改进来自于整体的改进,芯片能够在单个时钟内调度和吞吐更多指令。Cortex-X4 的目标是在基准测试和实际工作负载上提供最佳性能,并增加通过管道的任何指令集的提取带宽。这些好处来自延迟减少和指令融合优势,适用于更大的指令占用空间工作负载。


Cortex-A720:高效率中核


Cortex-A720 与去年的 Cortex A715 设计相比并没有太大变化,它首先也是 Arm 首款纯 AArch64 的中核。Arm 对 A700 系列的理念主要是通过优化提高性能,在设定的热限制内提供最高水平的电源效率,并针对实际用例优化工作负载,而不是极快的基准性能。


与 Cortex-X4 类似,Cortex-A720 是围绕 Armv9.2 ISA 构建的,Arm 优化了其设计,使 A720 能够在相同的功率预算内提供比 Cortex A715 更高的性能。Arm 700 系列通常涵盖范围更广的应用并迎合各种市场,包括但不限于数字电视、智能手机和笔记本电脑。为了在更多样化的空间中拥有更大灵活性,Arm 希望通过 Cortex-A720 充当 TSC23 核心集群的「主力」。


对于 Cortex-A720,Arm 还提供了多种配置选项。除了标准的、性能最高的选项外,Arm 还拥有所谓的「入门级」配置,可将 A720 缩小到与 Arm Cortex-A78 相同的尺寸,同时仍将整体性能提升 10%。由于一些 Arm 客户对裸片尺寸特别严格,因此有必要采取此类举措来说服他们最终转向 Cortex-A7xx 系列和 Armv9。


Cortex-A520:小核大幅改进


Armv9.2 内核中的第三个是 Cortex-A520,它的设计很少,但 Arm 承诺比前几代有很大改进,尤其是在能效方面。


最大的问题解决了吗:并没有,Cortex-A520 不是乱序内核设计。忠于 Arm 的小核心设计理念,它仍然是有序核心 —— 事实上,Arm 甚至在此过程中移除了 ALU。


Arm 这一代的最小内核实际上是一个新内核,但它更多的是对 Cortex-A510 的改进,而非全新的设计。在已发布的所有三个 Cortex Armv9.2 内核中,它的功率面积比最低。最明显的差异来自功率优化,Arm 声称 Cortex-A520 在等进程和等频率下的能效比之前的 Cortex-A510 内核高 22%。Arm 的 TCS23 目录中的小内核主要是为执行低强度和后台操作任务而设计的,它可以减轻 Cortex-A720/Cortex-X4 等较大内核的负载,从而提高集群内的整体能效。


Arm 的许多效率提升来自于轻度的微架构级别变化,主要围绕实现数据预取和分支预测的能力。总的来说小核改动不大,但是小改动都是为了提高效率。


Immortalis-G720 GPU:性能提升 15%


Armv9 Cortex 架构连续第三年实现了两位数的性能提升。除此之外,Arm 还推出了第五代 GPU。第五代架构重新定义了部分图形管道以减少内存带宽,从而实现了更高的游戏性能和实时 3D 应用,同时也带来了更流畅玩法和接近 PC 的体验。


延迟顶点着色(DVS)是第 5 代 GPU 架构中引入的一项新图形功能,它重新定义了数据流,使合作伙伴能够扩展以获得更大的核心数量和更高的性能。


随着我们不断突破视觉计算的界限,全新的 Immortalis-G720 是 Arm 有史以来性能和效率最高的 GPU。它提供了 15% 的性能和效率改进。与上一代产品相比,新 GPU 的系统级效率提升了 40%,从而带来更高质量的图形以及更身临其境的视觉体验。


除了 Immortalis-G720,Arm 还通过把新的 Arm Mali-G720 和 Mali-G620 添加到 GPU 产品组合中,致力于将高级图形功能更快地引入更广泛的消费设备市场。


在新一代 CPU 设计中,Arm 通过在台积电 N3E 工艺上流片 Cortex-X4,迈出了与台积电更深入合作的一大步 —— 这在业界尚属首次。这可以确保 Arm 的生态系统在其处理器技术流片后准备好最大化其 PPA 优势。


预计在今年晚些时候,基于 Arm 新架构的移动端设备就会上市。


参考内容:

https://www.anandtech.com/show/18871/arm-unveils-armv92-mobile-architecture-cortex-x4-a720-and-a520-64bit-exclusive

https://venturebeat.com/ai/arm-unveils-5th-generation-gpus-with-immortalis-g720/



相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
10月前
|
存储 机器学习/深度学习 数据库
阿里云服务器X86/ARM/GPU/裸金属/超算五大架构技术特点、场景适配参考
在云计算技术飞速发展的当下,云计算已经渗透到各个行业,成为企业数字化转型的关键驱动力。选择合适的云服务器架构对于提升业务效率、降低成本至关重要。阿里云提供了多样化的云服务器架构选择,包括X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器以及高性能计算等。本文将深入解析这些架构的特点、优势及适用场景,以供大家了解和选择参考。
1376 61
|
11月前
|
机器学习/深度学习 并行计算 PyTorch
英伟达新一代GPU架构(50系列显卡)PyTorch兼容性解决方案
本文记录了在RTX 5070 Ti上运行PyTorch时遇到的CUDA兼容性问题,分析其根源为预编译二进制文件不支持sm_120架构,并提出解决方案:使用PyTorch Nightly版本、更新CUDA工具包至12.8。通过清理环境并安装支持新架构的组件,成功解决兼容性问题。文章总结了深度学习环境中硬件与框架兼容性的关键策略,强调Nightly构建版本和环境一致性的重要性,为开发者提供参考。
7316 64
英伟达新一代GPU架构(50系列显卡)PyTorch兼容性解决方案
|
8月前
|
存储 弹性计算 固态存储
阿里云服务器配置费用整理,支持一万人CPU内存、公网带宽和存储IO性能全解析
要支撑1万人在线流量,需选择阿里云企业级ECS服务器,如通用型g系列、高主频型hf系列或通用算力型u1实例,配置如16核64G及以上,搭配高带宽与SSD/ESSD云盘,费用约数千元每月。
1044 0
|
11月前
|
存储 机器学习/深度学习 算法
阿里云X86/ARM/GPU/裸金属/超算等五大服务器架构技术特点、场景适配与选型策略
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别。本文将深入解析这些架构的特点、优势及适用场景,帮助用户更好地根据实际需求做出选择。
|
12月前
|
并行计算 PyTorch 算法框架/工具
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
本文探讨了如何通过技术手段混合使用AMD与NVIDIA GPU集群以支持PyTorch分布式训练。面对CUDA与ROCm框架互操作性不足的问题,文章提出利用UCC和UCX等统一通信框架实现高效数据传输,并在异构Kubernetes集群中部署任务。通过解决轻度与强度异构环境下的挑战,如计算能力不平衡、内存容量差异及通信性能优化,文章展示了如何无需重构代码即可充分利用异构硬件资源。尽管存在RDMA验证不足、通信性能次优等局限性,但该方案为最大化GPU资源利用率、降低供应商锁定提供了可行路径。源代码已公开,供读者参考实践。
1071 3
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
|
存储 缓存 监控
Docker容器性能调优的关键技巧,涵盖CPU、内存、网络及磁盘I/O的优化策略,结合实战案例,旨在帮助读者有效提升Docker容器的性能与稳定性。
本文介绍了Docker容器性能调优的关键技巧,涵盖CPU、内存、网络及磁盘I/O的优化策略,结合实战案例,旨在帮助读者有效提升Docker容器的性能与稳定性。
1312 7
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器架构有啥区别?X86计算、Arm、GPU异构、裸金属和高性能计算对比
阿里云ECS涵盖x86、ARM、GPU/FPGA/ASIC、弹性裸金属及高性能计算等多种架构。x86架构采用Intel/AMD处理器,适用于广泛企业级应用;ARM架构低功耗,适合容器与微服务;GPU/FPGA/ASIC专为AI、图形处理设计;弹性裸金属提供物理机性能;高性能计算则针对大规模并行计算优化。
1081 7
|
机器学习/深度学习 人工智能 缓存
【AI系统】GPU 架构回顾(从2018年-2024年)
2018年发布的Turing图灵架构,采用12nm工艺,包含18.6亿个晶体管,大幅提升了PC游戏、专业图形应用及深度学习推理的效率与性能。Turing引入了RT Core和Tensor Core,分别用于实时光线追踪和加速深度学习计算,支持GDDR6内存,显著提升了数据传输速率和效率。此外,Turing架构还支持NVLink 2.0,增强了多GPU协同工作的能力,适用于复杂的图形渲染和深度学习任务。
1011 0
【AI系统】GPU 架构回顾(从2018年-2024年)
|
5月前
|
人工智能 算法 调度
阿里云ACK托管集群Pro版共享GPU调度操作指南
本文介绍在阿里云ACK托管集群Pro版中,如何通过共享GPU调度实现显存与算力的精细化分配,涵盖前提条件、使用限制、节点池配置及任务部署全流程,提升GPU资源利用率,适用于AI训练与推理场景。
508 1
|
5月前
|
人工智能 城市大脑 运维
喜讯!阿里云国产异构GPU云平台技术荣获“2025算力中国·年度重大成果”
2025年8月23日,在工业和信息化部新闻宣传中心、中国信息通信研究院主办的2025中国算力大会上,阿里云与浙江大学联合研发的“国产异构GPU云平台关键技术与系统”荣获「算力中国·年度重大成果」。该评选旨在选拔出算力产业具有全局性突破价值的重大成果,是业内公认的技术创新“风向标”。
616 0

热门文章

最新文章