Arm 发布 Neoverse 新品:数据分析性能提升 196%,奠定未来计算及 AI 的基石

简介: 北京时间 2 月 22 日,半导体巨头 Arm 更新了 Arm® Neoverse™ 产品路线图,宣布推出两款基于全新第三代 Neoverse IP 构建的全新计算子系统(CSS):Arm Neoverse CSS V3 和 Arm Neoverse CSS N3。

北京时间 2 月 22 日,半导体巨头 Arm 更新了 Arm® Neoverse™ 产品路线图,宣布推出两款基于全新第三代 Neoverse IP 构建的全新计算子系统(CSS):Arm Neoverse CSS V3 和 Arm Neoverse CSS N3。

  • Arm Neoverse CSS V3 是首款高性能 V 系列 CSS 产品,与前代产品 CSS N2 相比,单芯片性能提升可达 50%。
  • Arm Neoverse CSS N3 是 N 系列 CSS 产品的最新拓展,相较于 CSS N2,其每瓦性能提升了 20%。

image.png

Arm 高级副总裁兼基础设施事业部总经理 Mohamed Awad 指出:“Arm 构建了全球应用最为普及的 CPU 架构,在多个领域的技术革新中发挥主导作用,尤其在智能手机产业中占据核心地位。随着 AI 渗透到教育、就业、制造、医疗和交通等领域,AI 正在改变经济发展和我们的日常生活,而 Arm 是这一切变革的基石。”

Arm® Neoverse™ 这条产品线是 Arm 专为基础设施应用市场设计,进入 AI 时代之后,其应用范围从最初的应用服务器和数据中心拓展到了网络、安全和存储等诸多领域,在整个基础设施领域发挥着关键作用。

在如今 OpenAI 强势领衔,NVIDIA 叱咤风云的这段 AI 加速增长期,我们可以通过解读此次产品路线图的更新,一览 Arm 这位“老大哥”对计算技术界的未来布局。

从根本改变基础设施

在过去,软件和硬件分别由不同的公司负责开发,但如今这种传统模式已无法满足客户对性能的高要求以及应对日趋复杂的软硬件环境。很多企业期望其部署的硬件,包括微架构层面,能针对软件负载进行深度优化。然而,实现这样的深度融合与联合优化需要多方协作,在软硬件研发上耗费大量的时间。

image.png

这不仅很花精力,而且能自研硬件的软件厂商在全球范围屈指可数,于是他们不会绕弯子,而是选择直接去找最可靠的合作伙伴:Arm。

所谓可靠,是指 Arm 会通过在 IP 开发阶段便展开深入且全面的支持来确保架构与微架构设计符合实际工作负载需求,并提供从 CPU 到整个平台层面的定制化优化服务:那么,为了深入优化 TCO,就必须着眼于整个平台,而世界上只有 Arm 能够在平台级别上调优内存和 I/O,并添加自定义工作负载加速器。

这是一种非常紧密的合作关系。尤其是在 Arm 推出了 Neoverse CSS 之后,定制芯片变得更迅速,且更易实现。微软的 Cobalt 100 CPU 就是一个经典的合作案例。从头部云服务提供商到初创公司,Neoverse CSS 被广泛应用来推动更高的创新发展。

image.png

不难想象,这构成了一个极其强大的生态系统。

去年十月,Arm 在Neoverse CSS 的基础上,进一步推出了 Arm 全面设计 (Arm Total Design) 生态项目,集结了半导体产业中的芯片设计伙伴、IP 供应商、EDA 工具提供商、代工厂和固件开发商等各方力量,围绕 Arm 计算子系统(CSS)开展协同创新和系统开发工作。

通过路线图的协同和技术整合,Arm 还设立了专业技术中心来缩短上市时间并降低成本,助力合作伙伴更高效地开发基于 Neoverse CSS 的定制芯片。

image.png

在计算机发展的早期,IBM 垄断了大型机市场,拥有自己独特的硬件和软件体系结构。然而,一些公司(Amdahl、Fujitsu 和 Hitachi)决定挑战 IBM,试图制造与其大型机兼容的计算机。最终 IBM 通过保持技术领先和市场份额,还是成功抵御了这些竞争者的挑战。这就是所谓的“大型机克隆战争”。

在这个 AI 时代,比起掀起新一轮的硬件战争,Arm 选择带头团结这些力量,立志使人工智能变得无处不在,并在网络安全领域为从芯片到云端的数字世界奠定信任的根基。

其中也包括我们熟知的头部企业,如台积电、Intel 和三星。还有开发者们耳熟能详的云原生计算基金会(CNCF)毕业项目,也原生支持 Arm 架构。

image.png

目前,在短短四个月内已有超过 20 家企业加入 Arm 全面设计项目,涵盖新的 EDA 和配套 IP 提供商,以及来自韩国、中国台湾、中国大陆和印度等具有巨大发展潜力的战略市场的芯片设计公司。他们均致力于确保高性能、高效率解决方案的广泛可触及性,助力满足 AI 加速未来的计算需求。

此外,基于 Arm 全面设计生态伙伴的反馈意见,Arm 近期还发布了芯粒系统架构 (Chiplet System Architecture, CSA)。其旨在定义一个功能强大、支持通用的芯粒生态系统。

高负载才能看出性能差异

在过去的一年里,Arm 发现了不少市场空缺,于是为了提供满足基础设施性能要求的高效计算,他们推出了 N 系列的最新 CSS 产品——Neoverse CSS N3。CSS N3 的首个实例可提供 32 核心,拥有卓越的能效表现,其热设计功耗(TDP)低至 40 瓦特。

基于最新的 Neoverse N3 IP 平台构建的 CSS N3,不仅引入了 Armv9.2 架构特性,还在每个核心上配备了高达 2 MB的专用二级缓存(L2),同时兼容并支持当前最前沿的 PCIe 和 CXL I/O 接口标准,以及统一芯片互连(UCIe)的芯粒互联规范。

image.png

也有些厂商希望在保有 CSS 所有优势的同时,实现更高的性能。因此,Arm 便将 CSS 引入到了高性能的 V 系列,推出了 Neoverse CSS V3。

CSS V3 在单芯片上最多可扩展至 128 核,并支持最新的高速内存和 I/O 标准。CSS V3 基于最新的 Neoverse V3 核心打造,是 Arm 目前单线程性能最高的 Neoverse 核心。V3 为 Arm 机密计算架构 (CCA) 提供硬件支持。V3 和 N3 核心均可提供业界领先的专用 L2 缓存大小,显著改善性能表现。

image.png

既然 CSS V3 主打性能,那它在关键工作负载下又能达到什么水平?Arm 提供了如下两张数据图,并强调了一个有意思的点:代际产品之间的性能提升。Arm 的一大优势就是使合作伙伴可以不受制于技术供应商,而是自己掌握创新的步伐,所以更新迭代的速度特别快。

此外,常有人忽视一枚芯片有多少计算周期最终被用于压缩和协议转换等后台任务。N 系列在压缩方面取得了性能优势,可降低云服务运营商的成本,并最终降低云服务客户的成本。同样地,V 系列显著提高了协议缓冲区的性能,这是在数据中心内传输数据的一项关键功能。

image.png

光说数据会没什么实感,所以 Arm 也提供了实例。

如今,XGBoost 机器学习算法基本上渗透到所有依赖预测和个性化服务的领域,如内容推荐、出行费用预估及旅行优惠推送等日常应用场景。可以说,我们现在随便打开一个网页所看到的个性化内容,均使用 XGBoost 作为主要数据库来驱动相关核心算法。

所以,这种以工作负载为重点的协作就能最好地体现生活中的实际应用场景。Arm 针对特定关键工作负载的优化,让 N3 平台的 XGBoost 性能飙升至原来的 196%,而且这还是在已经超越同类厂商的工作负载上进行的结果。

image.png

未来计算及 AI 的基石

去年,有关 AI 的讨论焦点主要集中在生成式 AI 和大语言模型 (LLM) 上,行业重点都是如何训练更厉害的大模型。但根据 Arm 的分析,随着生成式 AI 广泛应用于实际业务场景,其工作重点将转向推理。

分析师估计,已部署的 AI 服务器中有高达 80% 专用于推理,且这一数字还将持续攀升。这一转变意味着要找到合适的模型和模型配置,并加以训练,然后将其部署到更具成本效益的计算基础设施上。

CPU 广泛可用,并可灵活用于机器学习或其他工作负载,此外, CPU 还易于部署,并可支持各种软件框架,具备低成本和高能效等优势。因此,CPU 推理将是生成式 AI 计算应用的关键组成。

但是,并非所有 AI 处理都将在 CPU 上进行,现在风头正盛的 AI 硬件商不是 NVIDIA 吗?事实上,NVIDIA 不仅利用其领先的 Hopper GPU,同时也使用了基于 Neoverse V2 平台的紧耦合计算芯粒 Grace。这种紧耦合的 CPU 加上加速器配置,对大参数 LLM 非常有益,对检索-增强-生成 (RAG) 等新兴方法也很有帮助。

可以见得,Arm 已经通过这次发布解释了自己为什么是未来计算及 AI 的基石。

建设 AI 时代也离不开广大开发者的努力,Arm 在生成式 AI 时代又该如何赋能开发者?Arm 基础设施事业部营销副总裁 Eddie Ramirez 向 CSDN 回答了这点:

我们致力于实现让 AI 应用开发者可以轻松部署的 AI 软件栈。针对中国开发者,我们与龙蜥社区紧密合作。通过提供 Arm Compute Library (ACL, Arm 计算库),为 AI 应用中所使用的许多算法的实现提供出色的支持。Arm 对 TensorFlow、PyTorch 等 AI 框架的支持,加之我们的加速计算库,两者将紧密集成,并纳入未来的龙蜥社区版。

————————————————

参考:

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。      

原文链接:https://blog.csdn.net/csdnnews/article/details/136576093

相关文章
|
3月前
|
人工智能
写歌词的技巧和方法基础篇:奠定创作基石,妙笔生词AI智能写歌词软件
写歌词是音乐创作中既具魅力又具挑战的任务。初学者需掌握基础技巧,如明确主题、合理布局结构、简洁生动的语言运用。《妙笔生词智能写歌词软件》提供 AI 智能写词、优化、取名等功能,帮助新手快速提升创作水平,为成功创作打下坚实基础。
|
4月前
|
机器学习/深度学习 传感器 人工智能
AI与未来医疗:重塑健康管理新格局随着人工智能(AI)技术的飞速发展,医疗行业正迎来一场前所未有的变革。AI不仅在数据分析、诊断支持方面展现出巨大潜力,还在个性化治疗、远程医疗等多个领域实现了突破性进展。本文将探讨AI技术在医疗领域的具体应用及其对未来健康管理的影响。
人工智能(AI)正在彻底改变医疗行业的面貌。通过深度学习算法和大数据分析,AI能够迅速分析海量的医疗数据,提供精准的诊断和治疗建议。此外,AI在远程医疗、药物研发以及患者管理等方面也展现出了巨大的潜力。本文将详细探讨这些技术的应用实例,并展望其对健康管理的深远影响。
|
2月前
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器架构有啥区别?X86计算、Arm、GPU异构、裸金属和高性能计算对比
阿里云ECS涵盖x86、ARM、GPU/FPGA/ASIC、弹性裸金属及高性能计算等多种架构。x86架构采用Intel/AMD处理器,适用于广泛企业级应用;ARM架构低功耗,适合容器与微服务;GPU/FPGA/ASIC专为AI、图形处理设计;弹性裸金属提供物理机性能;高性能计算则针对大规模并行计算优化。
|
3月前
|
编解码 弹性计算 应用服务中间件
阿里云服务器Arm计算架构解析:Arm计算架构云服务器租用收费标准价格参考
阿里云服务器架构分为X86计算、Arm计算、高性能计算等多种架构,其中Arm计算架构以其低功耗、高效率的特点受到广泛关注。本文将深入解析阿里云Arm计算架构云服务器的技术特点、适用场景以及包年包月与按量付费的收费标准与最新活动价格情况,以供选择参考。
|
3月前
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器计算架构X86/ARM/GPU/FPGA/ASIC/裸金属/超级计算集群有啥区别?
阿里云服务器ECS提供了多种计算架构,包括X86、ARM、GPU/FPGA/ASIC、弹性裸金属服务器及超级计算集群。X86架构常见且通用,适合大多数应用场景;ARM架构具备低功耗优势,适用于长期运行环境;GPU/FPGA/ASIC则针对深度学习、科学计算、视频处理等高性能需求;弹性裸金属服务器与超级计算集群则分别提供物理机级别的性能和高速RDMA互联,满足高性能计算和大规模训练需求。
107 6
|
5月前
|
机器学习/深度学习 算法 数据库
阿里云服务器架构区别解析:从X86计算、Arm计算到高性能计算架构的区别参考
在我们选择阿里云服务器的架构时,选择合适的云服务器架构对于提升业务效率、保障业务稳定至关重要。阿里云提供了多样化的云服务器架构选择,包括X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器以及高性能计算等。本文将深入解析这些架构的特点、优势及适用场景,以供参考和选择。
阿里云服务器架构区别解析:从X86计算、Arm计算到高性能计算架构的区别参考
|
4月前
|
机器学习/深度学习 数据挖掘 TensorFlow
从数据小白到AI专家:Python数据分析与TensorFlow/PyTorch深度学习的蜕变之路
【9月更文挑战第10天】从数据新手成长为AI专家,需先掌握Python基础语法,并学会使用NumPy和Pandas进行数据分析。接着,通过Matplotlib和Seaborn实现数据可视化,最后利用TensorFlow或PyTorch探索深度学习。这一过程涉及从数据清洗、可视化到构建神经网络的多个步骤,每一步都需不断实践与学习。借助Python的强大功能及各类库的支持,你能逐步解锁数据的深层价值。
80 0
|
5月前
|
存储 SQL 人工智能
AnalyticDB for MySQL:AI时代实时数据分析的最佳选择
阿里云云原生数据仓库AnalyticDB MySQL(ADB-M)与被OpenAI收购的实时分析数据库Rockset对比,两者在架构设计上有诸多相似点,例如存算分离、实时写入等,但ADB-M在多个方面展现出了更为成熟和先进的特性。ADB-M支持更丰富的弹性能力、强一致实时数据读写、全面的索引类型、高吞吐写入、完备的DML和Online DDL操作、智能的数据生命周期管理。在向量检索与分析上,ADB-M提供更高检索精度。ADB-M设计原理包括分布式表、基于Raft协议的同步层、支持DML和DDL的引擎层、高性能低成本的持久化层,这些共同确保了ADB-M在AI时代作为实时数据仓库的高性能与高性价比
|
5月前
|
人工智能 供应链 数据挖掘
解锁商业数据金矿!AI Prompt秘籍:让你的数据分析秒变未来视野
【8月更文挑战第1天】在数据驱动的时代,AI Prompt技术正革新商业数据分析领域,使其从梦想变为现实。AI Prompt通过预设指令增强AI模型的任务执行能力,大幅提升数据处理效率与准确性。以零售业为例,借助AI Prompt技术,企业能迅速分析销售数据,预测市场趋势,并优化决策。示例代码展示了如何利用AI Prompt进行销售预测及库存调整建议,显著提升了预测精度和决策效率,为企业带来竞争优势。随着技术进步,AI Prompt将在商业智能中扮演更重要角色。
110 4