ARM 推出全新 CPU 和 GPU:首次基于 Armv9 指令集,性能显著提升

简介: ARM 推出全新 CPU 和 GPU:首次基于 Armv9 指令集,性能显著提升

5 月 25 日晚,ARM 推出了新一代 CPU 和 GPU,包括其旗舰产品 Cortex-X2 和 Cortex-A710 CPU 以及 Mali-G710 GPU,新款 CPU 和 GPU 均基于全新的 Armv9 架构。Armv9 指令集于今年 3 月底发布,被称为「ARM 十年来最大的革新与进步」。这次发布的 CPU 和 GPU 是首批使用 Armv9 指令集的芯片,这意味着其性能将有大幅提升,并且具备安全性和 AI 特性。

大多数消费者可能并不熟悉手机或电脑中的 ARM 内核,但事实上 ARM 的设计——尤其是将强大的高性能内核和节能高效的内核相结合的 big.LITTLE 技术,在安卓手机中非常普遍。这意味着 ARM 此次发布的 CPU 和 GPU 将可能影响 2022 年最好的安卓手机。


重磅发布三款 CPU,性能能效显著提升

Arm 今年推出了三款面向移动设备和客户端的新一代微体系结构:旗舰级 Cortex-X2 内核,以 Cortex-A710 形式亮相的 A78 后续产品,还有名为 Cortex-A510 的全新小核心yy.pngCortex-X2 是 Arm Cortex-X 定制计划的一部分,该计划允许合作伙伴帮助设计特定用例的专用内核。Cortex-X2 是去年 Cortex-X1 的继任者,其性能相比 Cortex-X1 有望提高 16%。

Cortex-A710 是 Cortex-A78 的后续产品,ARM 表示其能效相比 A78 有 30% 的提升,性能提升 10%。

不过,ARM 此次芯片升级并未局限于性能内核。在 Cortex-A55 诞生四年后,ARM 首次引入了新的 “LITTLE” 高效内核 Cortex-A510,用于替代自 2017 年推出以来主要用于手机端的 Cortex-A55 设计。ARM 表示 Cortex-A510 将带来最大的性能飞跃:性能提升 30%,能效提升 20%。

除了三款 CPU 以外,ARM 此次还公布了新一代 CPU 集群组合方式。

yy.png

与 ARM 8.2 相比,新一代集群组合(一个 Cortex-X2、3 个 Cortex-A710 内核、4 个 Cortex-A510 内核)的性能将出现大幅提升:峰值性能提升 30%(得益于 Cortex-X2),整体效率提升 30%(得益于 Cortex-A710),「LITTLE」性能提升 35%(得益于 Cortex-A510)。


GPU 升级,覆盖低中高端产品线

在 CPU 更新之外,ARM 还推出了三款新型 GPU:旗舰产品 Mali-G710,中端产品 Mali-G510 和入门级 Mali-G310。

yy.png

在高端产品方面,Mali-G710 是 Mali-G78 的直接继承者,旨在实现较为简单直接的迭代改进:ARM 的架构师能够基于 Mali GPU 实现最高性能。新款 GPU Mali-G710 将游戏性能提升了 20%,能效提升 20%。

Mali-G510 是 2019 年 Mali-G57 的后继产品,是 ARM 中端产品的重大升级,相较于上一代产品实现了极大的性能和能效提升(性能提升 100%,能效提升 22%)。

而新款 Mali-G310 是基于 Valhall 的新型低端入门级产品,代表了基于 Bifrost 的 Mali-G31 的多代架构升级,且瞄准了以低面积效率为重点的市场和其他嵌入式市场,如智能电视。

结语

ARM 此次发布为广泛的用例提供了多种芯片设计。例如计算机可能更依赖于 Cortex-X2 处理器和独立的 GPU 解决方案,智能手机则较依赖 ARM 的 CPU 集群和 Mali-G710 GPU,此外还有使用 Cortex-A510 和 Mali-G310 的智能手表。

新的 ARM 设计出现在手机或设备上还需要一段时间:ARM 仍然需要先将设计交给合作伙伴,然后由合作伙伴制造出半导体产品(通常在年底宣布),之后这些芯片才能进入手机制造环节。

因此,新款 ARM CPU 和 GPU 设计出现在手机设备中可能要等到 2022 年初了,这还是在全球半导体产品短缺不会进一步推迟明年产品的假设下。但ARM 的最新 CPU 和 GPU 设计仍然是智能手机未来发展的一次令人兴奋的预演。

            </div>
相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
9月前
|
存储 机器学习/深度学习 数据库
阿里云服务器X86/ARM/GPU/裸金属/超算五大架构技术特点、场景适配参考
在云计算技术飞速发展的当下,云计算已经渗透到各个行业,成为企业数字化转型的关键驱动力。选择合适的云服务器架构对于提升业务效率、降低成本至关重要。阿里云提供了多样化的云服务器架构选择,包括X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器以及高性能计算等。本文将深入解析这些架构的特点、优势及适用场景,以供大家了解和选择参考。
1307 61
CPU的工作原理基于其内部结构,通过执行指令来完成各种任务
CPU的工作原理基于其内部结构,通过执行指令来完成各种任务
554 3
|
10月前
|
存储 机器学习/深度学习 算法
阿里云X86/ARM/GPU/裸金属/超算等五大服务器架构技术特点、场景适配与选型策略
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别。本文将深入解析这些架构的特点、优势及适用场景,帮助用户更好地根据实际需求做出选择。
|
8月前
|
存储 缓存 程序员
软考软件评测师——计算机组成与体系结构(CPU指令系统)
本内容详细解析了计算机中央处理器(CPU)的核心架构及其关键组件的工作原理。首先介绍了CPU的四大核心模块:运算单元、控制单元、寄存器阵列和内部总线,并阐述其在数据处理中的核心职责。接着深入探讨了算术逻辑部件(ALU)的功能与专用寄存器的作用,以及通用寄存器对性能提升的意义。随后分析了控制单元的指令处理流程及特殊寄存器的功能。此外,还解析了寄存器系统的分类与设计特点,并对比了不同内存访问模式的特点与应用场景。最后,通过历年真题巩固相关知识点,帮助理解CPU各组件的协同工作及优化策略。
|
机器学习/深度学习 边缘计算 PyTorch
PyTorch团队为TorchAO引入1-8比特量化,提升ARM平台性能
PyTorch团队推出创新技术,在其低精度计算库TorchAO中引入低位运算符支持,实现1至8位精度的嵌入层权重量化及8位动态量化激活的线性运算符。该技术通过模块化设计和高效硬件利用,优化了资源受限环境下的深度学习计算,提升了计算效率并降低了资源消耗。新内核与PyTorch生态系统无缝集成,支持即时执行、编译优化及边缘计算,为开发者提供全方位性能优势。测试结果显示,多层次量化策略显著提升了计算效率,保持了模型精度。这一突破为深度学习框架优化开辟了多个研究方向,推动了人工智能在边缘计算等领域的广泛应用。
473 11
PyTorch团队为TorchAO引入1-8比特量化,提升ARM平台性能
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器架构有啥区别?X86计算、Arm、GPU异构、裸金属和高性能计算对比
阿里云ECS涵盖x86、ARM、GPU/FPGA/ASIC、弹性裸金属及高性能计算等多种架构。x86架构采用Intel/AMD处理器,适用于广泛企业级应用;ARM架构低功耗,适合容器与微服务;GPU/FPGA/ASIC专为AI、图形处理设计;弹性裸金属提供物理机性能;高性能计算则针对大规模并行计算优化。
1025 7
|
存储 人工智能 编译器
【AI系统】CPU 指令集架构
本文介绍了指令集架构(ISA)的基本概念,探讨了CISC与RISC两种主要的指令集架构设计思路,分析了它们的优缺点及应用场景。文章还简述了ISA的历史发展,包括x86、ARM、MIPS、Alpha和RISC-V等常见架构的特点。最后,文章讨论了CPU的并行处理架构,如SISD、SIMD、MISD、MIMD和SIMT,并概述了这些架构在服务器、PC及嵌入式领域的应用情况。
1325 5
|
人工智能 前端开发 测试技术
为RTP-LLM提供Arm CPU后端,助力Arm
本次主题是为 RTP LLM 提供 Arm CPU 后端,助力 Arm AI 软件生态持续发展。随着大语言模型(LLM)的普及与应用, AI 计算需求快速增长。许多 LLM 模型运行在基于 GPU 的硬件上,而随着 Arm 架构不仅在边缘设备,而且在数据中心领域也愈发流行,如何让 RTP LLM (实时推理框架)有效支持 Arm CPU 平台变得尤为重要。通过优化 LLM 在 Arm 平台的推理性能,可以进一步提升功耗效率和模型部署的灵活性。
557 0
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器计算架构X86/ARM/GPU/FPGA/ASIC/裸金属/超级计算集群有啥区别?
阿里云服务器ECS提供了多种计算架构,包括X86、ARM、GPU/FPGA/ASIC、弹性裸金属服务器及超级计算集群。X86架构常见且通用,适合大多数应用场景;ARM架构具备低功耗优势,适用于长期运行环境;GPU/FPGA/ASIC则针对深度学习、科学计算、视频处理等高性能需求;弹性裸金属服务器与超级计算集群则分别提供物理机级别的性能和高速RDMA互联,满足高性能计算和大规模训练需求。
651 6