Arm 发布 Neoverse 新品:数据分析性能提升 196%,奠定未来计算及 AI 的基石

简介: 北京时间 2 月 22 日,半导体巨头 Arm 更新了 Arm® Neoverse™ 产品路线图,宣布推出两款基于全新第三代 Neoverse IP 构建的全新计算子系统(CSS):Arm Neoverse CSS V3 和 Arm Neoverse CSS N3。

北京时间 2 月 22 日,半导体巨头 Arm 更新了 Arm® Neoverse™ 产品路线图,宣布推出两款基于全新第三代 Neoverse IP 构建的全新计算子系统(CSS):Arm Neoverse CSS V3 和 Arm Neoverse CSS N3。

  • Arm Neoverse CSS V3 是首款高性能 V 系列 CSS 产品,与前代产品 CSS N2 相比,单芯片性能提升可达 50%。
  • Arm Neoverse CSS N3 是 N 系列 CSS 产品的最新拓展,相较于 CSS N2,其每瓦性能提升了 20%。

image.png

Arm 高级副总裁兼基础设施事业部总经理 Mohamed Awad 指出:“Arm 构建了全球应用最为普及的 CPU 架构,在多个领域的技术革新中发挥主导作用,尤其在智能手机产业中占据核心地位。随着 AI 渗透到教育、就业、制造、医疗和交通等领域,AI 正在改变经济发展和我们的日常生活,而 Arm 是这一切变革的基石。”

Arm® Neoverse™ 这条产品线是 Arm 专为基础设施应用市场设计,进入 AI 时代之后,其应用范围从最初的应用服务器和数据中心拓展到了网络、安全和存储等诸多领域,在整个基础设施领域发挥着关键作用。

在如今 OpenAI 强势领衔,NVIDIA 叱咤风云的这段 AI 加速增长期,我们可以通过解读此次产品路线图的更新,一览 Arm 这位“老大哥”对计算技术界的未来布局。

从根本改变基础设施

在过去,软件和硬件分别由不同的公司负责开发,但如今这种传统模式已无法满足客户对性能的高要求以及应对日趋复杂的软硬件环境。很多企业期望其部署的硬件,包括微架构层面,能针对软件负载进行深度优化。然而,实现这样的深度融合与联合优化需要多方协作,在软硬件研发上耗费大量的时间。

image.png

这不仅很花精力,而且能自研硬件的软件厂商在全球范围屈指可数,于是他们不会绕弯子,而是选择直接去找最可靠的合作伙伴:Arm。

所谓可靠,是指 Arm 会通过在 IP 开发阶段便展开深入且全面的支持来确保架构与微架构设计符合实际工作负载需求,并提供从 CPU 到整个平台层面的定制化优化服务:那么,为了深入优化 TCO,就必须着眼于整个平台,而世界上只有 Arm 能够在平台级别上调优内存和 I/O,并添加自定义工作负载加速器。

这是一种非常紧密的合作关系。尤其是在 Arm 推出了 Neoverse CSS 之后,定制芯片变得更迅速,且更易实现。微软的 Cobalt 100 CPU 就是一个经典的合作案例。从头部云服务提供商到初创公司,Neoverse CSS 被广泛应用来推动更高的创新发展。

image.png

不难想象,这构成了一个极其强大的生态系统。

去年十月,Arm 在Neoverse CSS 的基础上,进一步推出了 Arm 全面设计 (Arm Total Design) 生态项目,集结了半导体产业中的芯片设计伙伴、IP 供应商、EDA 工具提供商、代工厂和固件开发商等各方力量,围绕 Arm 计算子系统(CSS)开展协同创新和系统开发工作。

通过路线图的协同和技术整合,Arm 还设立了专业技术中心来缩短上市时间并降低成本,助力合作伙伴更高效地开发基于 Neoverse CSS 的定制芯片。

image.png

在计算机发展的早期,IBM 垄断了大型机市场,拥有自己独特的硬件和软件体系结构。然而,一些公司(Amdahl、Fujitsu 和 Hitachi)决定挑战 IBM,试图制造与其大型机兼容的计算机。最终 IBM 通过保持技术领先和市场份额,还是成功抵御了这些竞争者的挑战。这就是所谓的“大型机克隆战争”。

在这个 AI 时代,比起掀起新一轮的硬件战争,Arm 选择带头团结这些力量,立志使人工智能变得无处不在,并在网络安全领域为从芯片到云端的数字世界奠定信任的根基。

其中也包括我们熟知的头部企业,如台积电、Intel 和三星。还有开发者们耳熟能详的云原生计算基金会(CNCF)毕业项目,也原生支持 Arm 架构。

image.png

目前,在短短四个月内已有超过 20 家企业加入 Arm 全面设计项目,涵盖新的 EDA 和配套 IP 提供商,以及来自韩国、中国台湾、中国大陆和印度等具有巨大发展潜力的战略市场的芯片设计公司。他们均致力于确保高性能、高效率解决方案的广泛可触及性,助力满足 AI 加速未来的计算需求。

此外,基于 Arm 全面设计生态伙伴的反馈意见,Arm 近期还发布了芯粒系统架构 (Chiplet System Architecture, CSA)。其旨在定义一个功能强大、支持通用的芯粒生态系统。

高负载才能看出性能差异

在过去的一年里,Arm 发现了不少市场空缺,于是为了提供满足基础设施性能要求的高效计算,他们推出了 N 系列的最新 CSS 产品——Neoverse CSS N3。CSS N3 的首个实例可提供 32 核心,拥有卓越的能效表现,其热设计功耗(TDP)低至 40 瓦特。

基于最新的 Neoverse N3 IP 平台构建的 CSS N3,不仅引入了 Armv9.2 架构特性,还在每个核心上配备了高达 2 MB的专用二级缓存(L2),同时兼容并支持当前最前沿的 PCIe 和 CXL I/O 接口标准,以及统一芯片互连(UCIe)的芯粒互联规范。

image.png

也有些厂商希望在保有 CSS 所有优势的同时,实现更高的性能。因此,Arm 便将 CSS 引入到了高性能的 V 系列,推出了 Neoverse CSS V3。

CSS V3 在单芯片上最多可扩展至 128 核,并支持最新的高速内存和 I/O 标准。CSS V3 基于最新的 Neoverse V3 核心打造,是 Arm 目前单线程性能最高的 Neoverse 核心。V3 为 Arm 机密计算架构 (CCA) 提供硬件支持。V3 和 N3 核心均可提供业界领先的专用 L2 缓存大小,显著改善性能表现。

image.png

既然 CSS V3 主打性能,那它在关键工作负载下又能达到什么水平?Arm 提供了如下两张数据图,并强调了一个有意思的点:代际产品之间的性能提升。Arm 的一大优势就是使合作伙伴可以不受制于技术供应商,而是自己掌握创新的步伐,所以更新迭代的速度特别快。

此外,常有人忽视一枚芯片有多少计算周期最终被用于压缩和协议转换等后台任务。N 系列在压缩方面取得了性能优势,可降低云服务运营商的成本,并最终降低云服务客户的成本。同样地,V 系列显著提高了协议缓冲区的性能,这是在数据中心内传输数据的一项关键功能。

image.png

光说数据会没什么实感,所以 Arm 也提供了实例。

如今,XGBoost 机器学习算法基本上渗透到所有依赖预测和个性化服务的领域,如内容推荐、出行费用预估及旅行优惠推送等日常应用场景。可以说,我们现在随便打开一个网页所看到的个性化内容,均使用 XGBoost 作为主要数据库来驱动相关核心算法。

所以,这种以工作负载为重点的协作就能最好地体现生活中的实际应用场景。Arm 针对特定关键工作负载的优化,让 N3 平台的 XGBoost 性能飙升至原来的 196%,而且这还是在已经超越同类厂商的工作负载上进行的结果。

image.png

未来计算及 AI 的基石

去年,有关 AI 的讨论焦点主要集中在生成式 AI 和大语言模型 (LLM) 上,行业重点都是如何训练更厉害的大模型。但根据 Arm 的分析,随着生成式 AI 广泛应用于实际业务场景,其工作重点将转向推理。

分析师估计,已部署的 AI 服务器中有高达 80% 专用于推理,且这一数字还将持续攀升。这一转变意味着要找到合适的模型和模型配置,并加以训练,然后将其部署到更具成本效益的计算基础设施上。

CPU 广泛可用,并可灵活用于机器学习或其他工作负载,此外, CPU 还易于部署,并可支持各种软件框架,具备低成本和高能效等优势。因此,CPU 推理将是生成式 AI 计算应用的关键组成。

但是,并非所有 AI 处理都将在 CPU 上进行,现在风头正盛的 AI 硬件商不是 NVIDIA 吗?事实上,NVIDIA 不仅利用其领先的 Hopper GPU,同时也使用了基于 Neoverse V2 平台的紧耦合计算芯粒 Grace。这种紧耦合的 CPU 加上加速器配置,对大参数 LLM 非常有益,对检索-增强-生成 (RAG) 等新兴方法也很有帮助。

可以见得,Arm 已经通过这次发布解释了自己为什么是未来计算及 AI 的基石。

建设 AI 时代也离不开广大开发者的努力,Arm 在生成式 AI 时代又该如何赋能开发者?Arm 基础设施事业部营销副总裁 Eddie Ramirez 向 CSDN 回答了这点:

我们致力于实现让 AI 应用开发者可以轻松部署的 AI 软件栈。针对中国开发者,我们与龙蜥社区紧密合作。通过提供 Arm Compute Library (ACL, Arm 计算库),为 AI 应用中所使用的许多算法的实现提供出色的支持。Arm 对 TensorFlow、PyTorch 等 AI 框架的支持,加之我们的加速计算库,两者将紧密集成,并纳入未来的龙蜥社区版。

————————————————

参考:

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。      

原文链接:https://blog.csdn.net/csdnnews/article/details/136576093

相关文章
|
3月前
|
存储 人工智能 弹性计算
AI计算加速渗透、基础设施全面升级…云栖大会重磅发布全览
阿里云全面展示了全新升级后的AI Infra系列产品及能力。通过全栈优化,阿里云打造出一套稳定和高效的AI基础设施,连续训练有效时长大于99%,模型算力利用率提升20%以上。
251 27
|
2月前
|
机器学习/深度学习 存储 人工智能
AI与量子计算:推动计算科学的边界
【10月更文挑战第7天】AI与量子计算的融合,标志着计算科学进入了一个全新的时代。在这个时代里,计算能力的边界被不断拓宽,科技创新的速度不断加快。我们有理由相信,在未来的日子里,AI与量子计算将继续携手并进,共同推动计算科学向着更加智能、更加高效的方向发展。让我们期待这一天的到来,共同见证计算科学的无限可能。
|
2月前
|
人工智能
写歌词的技巧和方法基础篇:奠定创作基石,妙笔生词AI智能写歌词软件
写歌词是音乐创作中既具魅力又具挑战的任务。初学者需掌握基础技巧,如明确主题、合理布局结构、简洁生动的语言运用。《妙笔生词智能写歌词软件》提供 AI 智能写词、优化、取名等功能,帮助新手快速提升创作水平,为成功创作打下坚实基础。
|
3月前
|
Rust 数据挖掘 数据处理
Polars库:数据分析的新星,性能与易用性的完美结合
Polars库:数据分析的新星,性能与易用性的完美结合
120 1
|
4天前
|
数据挖掘 关系型数据库 Serverless
利用数据分析工具评估特定业务场景下扩缩容操作对性能的影响
通过以上数据分析工具的运用,可以深入挖掘数据背后的信息,准确评估特定业务场景下扩缩容操作对 PolarDB Serverless 性能的影响。同时,这些分析结果还可以为后续的优化和决策提供有力的支持,确保业务系统在不断变化的环境中保持良好的性能表现。
14 2
|
2月前
|
存储 人工智能 自然语言处理
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
|
20天前
|
人工智能 Java 编译器
.NET 9 发布 性能提升、AI 支持与全方位改进
【11月更文挑战第5天】.NET 9 引入了多项改进,包括性能提升、AI 支持和全方位功能优化。性能方面,编译器增强、服务器 GC 优化、矢量化和硬件支持等提升了执行效率。AI 方面,新增学习材料、合作伙伴生态、原生支持和生成式 AI 集成。此外,.NET Aspire 组件升级、编程语言新功能和开发工具更新进一步提升了开发体验。
|
24天前
|
机器学习/深度学习 人工智能 机器人
何恺明新作出炉!异构预训练Transformer颠覆本体视觉学习范式,AI性能暴涨超20%
【10月更文挑战第29天】在机器人学习领域,训练通用模型面临数据异构性的挑战。近期研究“Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers”提出异构预训练Transformer(HPT),通过大规模预训练学习跨不同本体和任务的共享表示,显著提升了性能。实验结果显示,HPT在未见过的任务上表现优异,性能提升超过20%。
53 6
|
24天前
|
机器学习/深度学习 人工智能 自然语言处理
o1医学领域大胜GPT-4,性能暴涨!顶尖华人团队激动发文:离AI医生越来越近了
【10月更文挑战第29天】近日,一支顶尖华人团队发布论文《A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?》,揭示了OpenAI最新语言模型o1在医学领域的卓越表现。研究显示,o1在概念识别、文本总结、问答等任务上远超GPT-4,显著提升了医学领域的AI应用水平,向实现AI医生的目标迈进了一大步。
42 3
|
1月前
|
人工智能 边缘计算 监控
边缘AI计算技术应用-实训解决方案
《边缘AI计算技术应用-实训解决方案》提供完整的实训体系,面向高校和科研机构的AI人才培养需求。方案包括云原生AI平台、百度AIBOX边缘计算硬件,以及8门计算机视觉实训课程与2门大模型课程。AI平台支持大规模分布式训练、超参数搜索、标注及自动化数据管理等功能,显著提升AI训练与推理效率。硬件涵盖多规格AIBOX服务器,支持多种推理算法及灵活部署。课程涵盖从计算机视觉基础到大模型微调的完整路径,通过真实商业项目实操,帮助学员掌握前沿AI技术和产业应用。
47 2

热门文章

最新文章