CPU 架构下算力增长式微,人民需要下一代计算域架构,XPU 未来已来

简介: 后摩尔定律时代,算力如何破局?安谋科技将挥“CPU+XPU”双拳,引领新一轮算力革命。

安谋科技发布新业务品牌,布局 XPU 智能计算赛道

InfoQ 获悉,8 月 26 日,安谋科技(前身为 ARM 中国)发布了“双轮驱动”战略以及新业务品牌 — “核芯动力”,布局智能计算赛道。

“核芯动力”将市场提供高性能、可定制化的自主架构 XPU IP 产品和服务。

“核芯动力”的品牌 Logo 酷似一个涡轮发动机,寓意为中国芯片产业持续提供源源动力。标志中所包含的 A 元素,代表了对 Arm CPU 生态的传承;X 元素象征着 XPU 和未来;而众多的 i 元素,体现了新品牌所代表的创新(innovation)、智能(intelligence)以及无限可能(infinity)。

8f31407bbacca54762cb86d0c658b043.jpeg

CPU 架构下算力演进趋缓,XPU 将是下一代计算域架构

随着 AI、5G、IoT 等技术的爆炸式发展,海量数据流的产生和多元化的应用场景为智能计算产业带来发展机遇。

在这一过程中,**基于 CPU 架构和工艺提升的创新日益趋缓,已无法满足新场景下多样化算力快速增长的需求,算力提升的核心动力正从 CPU 扩展到以 NPU、ISP、VPU、GPU 等为代表的计算单元。
**
安谋科技执行董事长兼 CEO 吴雄昂认为,新时代多样化算力堆砌和多计算域的要求,需要下一代的计算域架构 — 超域架构(xDSA)来满足相应的要求和挑战,并且通过兼顾融合多个域的方法解决碎片化问题。

31209cde009843937deyy99yya440e10.jpg

为此,安谋科技发布了“双轮驱动”战略。一方面持续推动 Arm CPU 架构的本土化、生态化发展;另一方面聚焦自主研发,打造自主架构的 XPU 产品和多样化生态 ,以自主架构 XPU 与传统计算 IP 相配合,提供多样化、定制化、符合中国产业及市场需求的计算元素,打造下一代融合计算平台。

“CPU+XPU 融合计算平台将为我们下一代智能数据流计算提供核芯动力。 从 CPU 到 NPU、VPU 再到 ISP 等等,这样一个融合计算可以智能化地融合各种计算元素,减少数据流搬运之间产生的功耗。同时能够提供针对数据流的全面解决方案”,吴雄昂表示。

在过去,从 CPU 到 NPU 、VPU 再到 ISP,每个计算单元都是独立的,合作伙伴往往需要从多个供应商那里把这些 IP 根据场景重新定义、二次开发、裁剪和优化,在新的高密度数据流计算环境当中,这是一个巨大的挑战。

针对这样的挑战,安谋科技根据场景,重新定义融合计算架构、新的指令集、处理器 IP、系统软件、设计服务。不同的计算单元根据使用场景进行重新定义、组合以及架构融合,优化数据搬运,降低功耗,提升效能,给合作伙伴提供完整的交付方案。

基于超域架构(xDSA)的 XPU 是开放的智能数据流融合计算平台,将针对不同应用,处理 AI、视频、图像等功能的计算单元组成不同的解决方案,解决海量智能数据流的处理效能问题。

据安谋科技新业务副总裁张晓波介绍,新的融合计算架构,即超域架构(xDSA),其中主要核心是以高密度数据流处理为中心的专有核心计算单元,同时域处理部分也引入了智能架构,另外,也会支持架构扩展进行算力的堆叠。由此,新的超域架构可以高效地进行智能数据流的处理。

超域架构(xDSA)主要的特点一是用专用的数据流处理,二是多计算域,三是扩展,尤其是针对大算力的厂商和车厂的需求,可以提供多样化的支持。

XPU 的新架构具有灵活、高效、专用及支持丰富产品组合等特性。其中,高灵活性表现在可以根据计算密度的需求,动态来分布负载;高效率部分能够基于场景调度 XPU,提高整体计算效率;高性能部分可以用新的架构提升性能,并且实现超低功耗。此外,也可以支持丰富的 XPU 产品组合。

“核芯动力”XPU 包括四大产品系列,可应用在自动驾驶等场景

“核芯动力”旨在打造开放的智能数据流融合计算平台,它包括安谋科技此前已经发布的“周易”NPU、“山海”SPU、“玲珑”ISP 和“玲珑”VPU 等多个自研 XPU 产品系列。

截止目前,该产品系列已经实现了超 90 个本土客户 IP 授权,预计 2021 年客户基于“核芯动力”XPU 产品的芯片出货量将超过 1 亿片。此外,安谋科技 Arm CPU 累计出货量超过 200 多亿片。

XPU 产品构建出的子系统可以支持智能物联网、新型数据中心、自动驾驶等。

智能物联网应用场景支持万物互联,基于多 IP 及专用总线的 XPU 子系统可以广泛应用在 AIoT、VR/AR 以及家庭、安防等多领域。

在新型数据中心应用方面,随着数据中心的演进,大数据时代针对数据处理提出了新需求,如互联网视频,医疗领域例如疫情之下的测序,会产出更多的高密度数据流及视频流,需要及时地处理、审核。通过针对新型数据中心专用 XPU 的超域架构,可以更好地以定制的方式来解决相应的行业痛点。

XPU 子系统还可以支持新型的自动驾驶。

自动驾驶摄像头的清晰度每过几年就翻番,从 2K、4K 到 8K,摄像头数量也从 2 个、4 个到 8 个、12 个。这些摄像头产生的数据流都必须被实时性地处理,才能保障行车安全。

更重要的是,随着这类自动化、自主智能设备的出现,设备和设备之间、车和网络之间的实时互动产生了更多的多样化数据。这些海量的数据流必须有一个全新的计算架构才能提供百倍算力的提升。

随着车载 E2E 架构的发展,计算趋势也进入了下一个里程碑,多域计算及中央计算的技术演进也进一步迭代。XPU 的融合计算架构,即超域架构可以满足新的计算架构的技术演进。通过构建车规级的 CPU 及 XPU 单元的协同,XPU 能够更好地支持整个自动驾驶产业的技术演进。

张晓波在接受 InfoQ 等媒体采访时表示,针对自动驾驶业务,早在 2020 年,安谋科技就已有整体的产品规划。汽车行业较分散,需要专业的功能安全机制,安谋科技针对 CPU 产品,包括安全产品等一系列的 IP 产品已提前做了完整的规划。

一方面,今年,其 IP 产品将开始量产,可支持车厂的需求,并实现车上搭载。此外,安谋科技还有其他的大型 IP 支持 AE(Automotive Enhanced),也会做汽车类的产品支撑。

此外,安谋科技还做了针对大算力的堆叠,包括一些子系统的搭建。在这个方面将主要针对大客户的需求提供规划,客户类型包括造车新势力,传统的造车厂商,进入汽车领域的纯芯片厂商等。

开源开放打造 XPU 生态,为 ONIA 会员提供“周易”NPU 免费授权

技术之外,生态也很重要。

吴雄昂表示,接下来,安谋科技将拥抱开源开放,通过产学研投联动,构建 XPU 的全球生态。

NPU 是下一代智能计算的核心,承担着高算力和实时感知等关键任务。为了解决 NPU 定制过程中生态碎片化、重复投资和应用规模受限等问题。

今年 7 月 15 日,安谋科技联合 50 多家企业和机构共同发起成立了“智能计算产业技术创新联合体”(ONIA),并宣布了全球首个开源神经网络处理器指令集架构(NPU ISA)。

NPU ISA 将聚集全球产业链资源,通过开放的模式,共建生态、共享成果,推动 NPU 生态建设。ONIA 聚合了中国集成电路产、学,研等方面的代表力量,预计到 2021 年年底会员单位将突破 100 家。

此外,安谋科技还将通过技术及资本支持等多种手段,支持 XPU 生态建设,推动智能计算生态创新发展。

吴雄昂在发布会现场公布了惠及本土企业,支持技术创新的相关政策:

1、为 ONIA 会员提供“周易”NPU 免费授权。吴雄昂表示,此举是为了更快地推进产业的发展,更快地实现标准化,同时通过架构工具开源,让大家可以自由地、更快地开发自己的核心 IP。

2、联合安创加速器,将孵化 10 家基于开源架构和 XPU 的创业企业。

与英特尔的 XPU 有什么区别?

提到 XPU,就不得不提到英特尔。

XPU 关系着这家芯片巨头的未来。英特尔正在从一家 CPU 公司转型为一家多架构 XPU 公司。

今年 1 月 ,英特尔官宣换帅,Pat Gelsinger 接任 Bob Swan 成为新一任首席执行官。而 Pat Gelsinger 肩上就负着英特尔在 XPU 时代的重任。接下来,他继续推动英特尔从 CPU 向多架构 XPU 的公司转型。

早在 2018 年底的英特尔架构日上,英特尔对外宣布了新战略目标,即以制程和封装、XPU 架构、内存和存储、互连、安全、软件六大技术支柱核心,从以往“PC 为中心”向“以数据为中心”的转型。

英特尔的 XPU 异构愿景是,即由标量(Scalar)、矢量(Vector)、矩阵(Matrix)、空间(Spatial)组成的 SVMS 架构,分别对应 CPU、GPU、加速器和 FPGA,可以进行多种异构组合。这是英特尔首次、业界明确将单一架构之后的发展方向定义为 XPU。

那么,现在安谋科技所定义的 XPU 与英特尔所提出的 XPU 战略有什么区别?

吴雄昂对 InfoQ 等媒体表示,之前英特尔提过 XPU 作为异构计算,很多厂商使用“X”的原因是,“X”代表了“多样化、多变化、无穷”的概念。但对安谋科技来讲,在多元化概念的基础上,“X”还意味着针对不同的数据流、不同应用的可定制、可编程、可扩展的架构。其次,“X”还是针对各个场景进行精确的定位和优化。

“所以对我们来讲‘X’有三个含义:一个是可定制化的、多样化的结构,包括多域的支持;第二个是可支持多样化算力的扩展堆叠,第三个是针对各个场景的更精准的优化和效能的提升。这三个方向就是我们把它称为 XPU 的原因”,吴雄昂解释到。

张晓波进一步解释了,异构计算与融合计算的区别。

从架构的角度,异构计算已有近 10 年的历史,在异构计算发展过程中,它综合了 CPU 和非 CPU 类通用计算的其他领域,包括 GPU 和其他不同的场景,在这方面,各个公司也都在投入其中。

但实际上,计算架构在当前一些大算力要求下,例如在自动驾驶领域,有多域计算的需求,通过不同域的概念来支撑整个计算。同时,不同数据流的处理需要专用的单元支撑,也需要能扩展。在此基础上,安谋科技专门提出了新的架构定义— 超域架构(xDSA),也就是 XPU 的新架构。

超域架构(xDSA)可以完整地支持高密度数据流处理,包括算力迭代以及一些扩展。它有别于异构计算,它会把多域、超域的概念引入到行业里,重新定义整个新架构部分。 这一架构可以长期支持不同产品,包括不同业务应用场景,包括新型数据中心。

目录
相关文章
|
23天前
|
人工智能 缓存 并行计算
转载:【AI系统】CPU 计算本质
本文深入探讨了CPU计算性能,分析了算力敏感度及技术趋势对CPU性能的影响。文章通过具体数据和实例,讲解了CPU算力的计算方法、算力与数据加载之间的平衡,以及如何通过算力敏感度分析优化计算系统性能。同时,文章还考察了服务器、GPU和超级计算机等平台的性能发展,揭示了这些变化如何塑造我们对CPU性能的理解和期待。
转载:【AI系统】CPU 计算本质
|
3天前
|
存储 人工智能 运维
面向AI的服务器计算软硬件架构实践和创新
阿里云在新一代通用计算服务器设计中,针对处理器核心数迅速增长(2024年超100核)、超多核心带来的业务和硬件挑战、网络IO与CPU性能增速不匹配、服务器物理机型复杂等问题,推出了磐久F系列通用计算服务器。该系列服务器采用单路设计减少爆炸半径,优化散热支持600瓦TDP,并实现CIPU节点比例灵活配比及部件模块化可插拔设计,提升运维效率和客户响应速度。此外,还介绍了面向AI的服务器架构挑战与软硬件结合创新,包括内存墙问题、板级工程能力挑战以及AI Infra 2.0服务器的开放架构特点。最后,探讨了大模型高效推理中的显存优化和量化压缩技术,旨在降低部署成本并提高系统效率。
|
28天前
|
存储 机器学习/深度学习 人工智能
【AI系统】计算图优化架构
本文介绍了推理引擎转换中的图优化模块,涵盖算子融合、布局转换、算子替换及内存优化等技术,旨在提升模型推理效率。计算图优化技术通过减少计算冗余、提高计算效率和减少内存占用,显著改善模型在资源受限设备上的运行表现。文中详细探讨了离线优化模块面临的挑战及解决方案,包括结构冗余、精度冗余、算法冗余和读写冗余的处理方法。此外,文章还介绍了ONNX Runtime的图优化机制及其在实际应用中的实现,展示了如何通过图优化提高模型推理性能的具体示例。
55 4
【AI系统】计算图优化架构
|
2月前
|
人工智能 运维 算法
引领企业未来数字基础架构浪潮,中国铁塔探索超大规模分布式算力
引领企业未来数字基础架构浪潮,中国铁塔探索超大规模分布式算力
|
30天前
|
机器学习/深度学习 人工智能 API
【AI系统】昇腾异构计算架构 CANN
本文介绍了昇腾 AI 异构计算架构 CANN,涵盖硬件层面的达·芬奇架构和软件层面的全栈支持,旨在提供高性能神经网络计算所需的硬件基础和软件环境。通过多层级架构,CANN 实现了高效的 AI 应用开发与性能优化,支持多种主流 AI 框架,并提供丰富的开发工具和接口,助力开发者快速构建和优化神经网络模型。
41 1
|
2月前
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器架构有啥区别?X86计算、Arm、GPU异构、裸金属和高性能计算对比
阿里云ECS涵盖x86、ARM、GPU/FPGA/ASIC、弹性裸金属及高性能计算等多种架构。x86架构采用Intel/AMD处理器,适用于广泛企业级应用;ARM架构低功耗,适合容器与微服务;GPU/FPGA/ASIC专为AI、图形处理设计;弹性裸金属提供物理机性能;高性能计算则针对大规模并行计算优化。
|
2月前
|
人工智能 缓存 并行计算
【AI系统】CPU 计算本质
本文深入探讨了CPU计算性能,分析了算力敏感度及技术趋势对CPU性能的影响。文章通过具体数据和实例,解释了算力计算方法、数据加载与计算的平衡点,以及如何通过算力敏感度分析优化性能瓶颈。同时,文章还讨论了服务器、GPU和超级计算机等不同计算平台的性能发展趋势,强调了优化数据传输速率和加载策略的重要性。
62 4
|
2月前
|
存储 人工智能 编译器
【AI系统】CPU 指令集架构
本文介绍了指令集架构(ISA)的基本概念,探讨了CISC与RISC两种主要的指令集架构设计思路,分析了它们的优缺点及应用场景。文章还简述了ISA的历史发展,包括x86、ARM、MIPS、Alpha和RISC-V等常见架构的特点。最后,文章讨论了CPU的并行处理架构,如SISD、SIMD、MISD、MIMD和SIMT,并概述了这些架构在服务器、PC及嵌入式领域的应用情况。
89 4
|
2月前
|
运维 Serverless 数据处理
Serverless架构通过提供更快的研发交付速度、降低成本、简化运维、优化资源利用、提供自动扩展能力、支持实时数据处理和快速原型开发等优势,为图像处理等计算密集型应用提供了一个高效、灵活且成本效益高的解决方案。
Serverless架构通过提供更快的研发交付速度、降低成本、简化运维、优化资源利用、提供自动扩展能力、支持实时数据处理和快速原型开发等优势,为图像处理等计算密集型应用提供了一个高效、灵活且成本效益高的解决方案。
102 1
|
2月前
|
缓存 人工智能 算法
【AI系统】CPU 计算时延
CPU(中央处理器)是计算机系统的核心,其计算时延(从指令发出到完成所需时间)对系统性能至关重要。本文探讨了CPU计算时延的组成,包括指令提取、解码、执行、存储器访问及写回时延,以及影响时延的因素,如时钟频率、流水线技术、并行处理、缓存命中率和内存带宽。通过优化这些方面,可以有效降低计算时延,提升系统性能。文中还通过具体示例解析了时延产生的原因,强调了内存时延对计算速度的关键影响。
46 0