一起学点ARM的微架构二?

简介: 一起学点ARM的微架构二?

前言

最近在微信公众号上看到了前辈们关于ARM架构的更新的文章,这里一起来跟踪学习一下ARM架构系统的文章。


本文的全部内容来自两位前辈:

来源:半导体产业纵横(ID:ICVIEWS)综合

文章来源于网络,版权归原作者所有,如有侵权,请联系删除。

前辈们更新了很多关于ARM的文章,大家有兴趣可以关注学习很多的东西。

Armv9.2 的突出新增功能

Arm 推出 Cortex-X4 和 Immortalis GPU 以大幅提升移动性能和效率

Arm 宣布其最新的CPU 和 GPU 设计,它们将为未来几代智能手机、平板电脑、物联网设备甚至一些笔记本电脑提供动力。Arm 将这些设计授权给高通、联发科、三星和无数其他芯片制造商,以集成到他们自己的解决方案中。(众所周知ARM是个IP厂商,不过最近好像说打算自己做设计生产,提高利润。)

Arm 围绕对高性能移动解决方案的激增需求以及越来越多样化的外形和工作负载展开了介绍。越来越多的开发人员瞄准 Arm 设备,从移动设备扩展到数据中心和汽车工作负载等其他领域。

Arm 是一家设计智能手机的CPU内核的公司,并且每年它都会进行新的迭代,这些迭代随后将集成进芯片SOC,例如当年的旗舰 Snapdragon 、 MediaTek Dimensity。2023年,发布了新的旗舰级内核:Cortex-X4 超大核、Cortex-A720 性能大核和 Cortex-A520 功耗小核。这些core构成了公司新的 Arm v9.2 兼容设计和公司的 2023 年整体计算解决方案或 TCS23 的基础。除此之外,我们还看到了一个新的 DynamIQ 共享单元和一个更新的 Immortalis-G720 GPU。这三个新内核都是去年的微架构继承者,主要侧重于引入 IPC 和提高效率。

虽然Arm本身不生产芯片,但它开发了一个参考的总体计算解决方案(TCS)平台,为其客户提供了自己实现的起点。**TCS23跨越了三个级别的CPU内核:Cortex-X4、Cortex-A720和Cortex-520。**这些内核设计中的每一个都是为不同的工作负载片断量身定做的,可以协同工作,形成完整的系统解决方案。每一个都建立在Armv9.2架构上,它提供了一些性能优化和安全增强功能。TCS23平台还提供GPU设计,包括新的旗舰产品Immortalis-G720、Mali-G720和Mali-G620选项。

Arm 声称通过这些最新设计提高了性能和效率。有关这些收益的详细信息因解决方案和实施而异,但在较高水平上,新的 CPU 内核可以在与上一代产品相当的性能下节省 20% 以上的能源,或者在功率预算的情况下提供更高的性能可以保持不变。同样,Immortalis-G720 旗舰 GPU 解决方案可以提供 15% 以上的性能,同时通过更改其渲染管道将内存带宽使用量减少 40%。

为了优化其领先工艺节点的设计,**Arm与台积电等代工厂的合作比以往任何时候都更加紧密。**对工艺技术复杂性的更好理解和早期开发反馈有助于Arm的客户更快地将其产品推向市场。作为其中的一部分,Arm使用台积电的N3E工艺实现了业界首个Cortex-X4内核的带出。(这就是设计的护城河,和制造商的紧密耦合)

"我们与Arm的最新合作很好地展示了我们如何利用台积电最先进的工艺技术和强大的Armv9架构使客户的性能和效率达到新的水平。台积电设计基础架构管理部主管Dan Kochpatcharin说:“我们将继续与Arm这样的开放创新平台(OIP)生态系统合作伙伴密切合作,推动CPU创新,加速人工智能、5G和HPC技术的发展。”

Armv9.2 的突出新增功能包括指针身份验证 (PAC) 和分支目标标识符 (BTI),以及对硬件内存标记扩展 (MTE)的改进,以显著增强安全性。

PAC 和 BTI 都有助于减少可利用代码的足迹。即使攻击者设法逃离沙箱,PAC 也会在调用函数时在内存地址上使用加密签名,这样它就不会由于链接寄存器覆盖等原因返回到错误的位置。同样,BTI 限制函数的入口点,防止攻击者任意执行选定的代码部分作为攻击的一部分。

MTE 通过在分配内存时生成标签然后在每次加载/存储操作时检查它来帮助防止沙箱突破之类的事情开始。内存安全问题一直是增长最快的威胁向量之一。Arm 引用了一个未命名的社区应用程序,该应用程序声称 MTE 允许它在发布之前检测到 90% 的内存安全问题。

Armv9.2还增加了对可扩展矢量扩展版本2(SVE2)的支持。SVE2是AArch64的一个单指令多数据(SIMD)指令集扩展,它是SVE和Neon指令的超集。这对图像处理等高度并行的工作负载很有用。Arm专注于使SVE2的代码生成与Neon一样快,甚至比Neon更快,以鼓励采用。此外,开发人员可以标记他们希望同时生成Neon和SVE2版本的代码,然后可以在运行时选择它们。这允许通过Neon支持旧架构,而下一代设备可以从SVE2中受益,所有这些都不需要大量的开销或重写代码基础。

在与 Neon 相比使用 3D 场景的间接飞行时间捕获的给定示例中,Arm 表示 SVE2 在 FP32 时好 10%,在 FP16 时好 23%。这主要归因于 SVE2 相对于 Neon 的聚集-分散寻址指令效率。

仅支持64位 – 64-bit only: “Mission accomplished”

**TCS23 最终全面放弃了对 AArch32 的支持,**而上一代 Cortex-A710 Armv9 内核仍然支持 AArch32。向 64 位的过渡经过了长达十年的努力,需要与从 Google 及其硬件合作伙伴到各种应用商店运营商和应用程序开发人员的众多参与者进行协调。

今年 Arm 的整体计算解决方案的最大变化之一是已经完全过渡到 64 位,即该core仅支持aarch64,不再支持aarch32了。事实上在2022年发布的几个core,也已经是仅支持aarch64了,但今年 Arm 的内核仅支持 AArch64。也就意味着在你的最新架构的Android机器上,跑不了32 位的应用程序了。注意,谷歌本身已经要求自 2019 年以来更新的所有应用程序都以 64 位二进制文件的形式上传。

正如 Arm 所说,64 位过渡被认为是“任务完成”。原因是中国应用市场阻碍了整个行业的转型,但中国应用商店中的绝大多数应用现在也都兼容 64 位。

延迟的原因是缺乏同质化的应用生态系统,这意味着不同的应用商店需要不同标准的开发者。然而,由于 Arm 已与中国的多家应用商店合作,并且反复警告可能会发生转变,因此这些应用商店一直在鼓励开发人员也进行转换。

现在似乎是完全实现这种转变的时候了,无论如何,我们还需要几个月的时间才能在新的芯片SOC中应用这些arm core。

64 位独有解决方案通过其更大的地址空间增强了安全性,其中地址空间随机化等技术降低了不良行为者窥探正在运行的工作负载的可能性。64 位地址还有空闲空间,可用于有符号指针、MTE 和其他用途。

Arm 表示,芯片面积节省并不是一个重要的考虑因素。删去32位的功能只能提供 "个位数百分比 "的减少。然而,除了上述的安全优势外,它还大大降低了复杂性、测试和其他要求。这些不太明显的节省可以重新投入到整个系统的性能和效率的提高中,以超越32位架构已经停滞的地方。

Arm CPU 内核和计算集群

Arm 几代以来一直在利用三层 CPU 解决方案,用 DynamIQ 集群取代其 big.LITTLE 安排。

X 系列和 A700 系列内核具有乱序处理功能,可以在芯片因等待内存而停顿时提前工作

安排给 A500 系列内核的任务通常对时间不敏感,因此采用顺序处理来使每个操作都有意义。

这些设计的效率曲线可以很好地相互补充,为各种工作点提供合适的覆盖范围。

高端 X 系列内核执行最繁重的工作中端 A700 系列内核专注于持续性能而较小的 A500 系列内核将效率置于后台任务的首位

Cortex-X4-更高的性能和更高的效率

几年前,Arm 的 X 系列核心从 A 系列中分离出来,理念是它是一个超大核。通常情况下,芯片组制造商最多只会包括其中的一两个,因为他们非常耗电,尽管他们也有能力。

从上图可以看出,Cortex-X4 是迄今为止最强大的 Arm core,但这些计算能力是以功耗为代价的。Cortex-X4 与去年的 X3 类似,正如 Arm 所说,它甚至可以以与去年内核相同的频率运行,并且功耗降低多达 40%。它的物理尺寸大不到 10%,是有史以来最高效的 Cortex-X 内核。

新的 Cortex-X4 内核将算术逻辑单元 (ALU) 的数量从 6 个增加到 8 个,添加了一个额外的分支单元(总共 3 个),添加了一个额外的乘法累加器单元,以及流水线浮点和平方根运算.

至于后端,也有许多改进。加载-存储地址生成已从每周期 3 条指令增加到 4 条指令,因为加载-存储管道被采用并拆分。L1 中还有一个双倍的翻译后备缓冲区。

所有这些结合在一起,为 Arm 的 Cortex-X4 带来了一些令人印象深刻的性能提升。总而言之,您可以预期 Cortex-X4 的性能平均提高 15%。在 Arm 共享的功率和性能曲线中,X4 在性能和功耗方面都领先于 X3。换句话说,15% 的性能提升伴随着相当大的功耗。不过,也值得一提的是,这并不是一个同类比较**。Cortex-X3 去年配备了 1MB 的二级缓存,这意味着如果制造商今年坚持使用相同的二级缓存大小,则不一定会有 15% 的性能提升。**

不过有一件事是肯定的,那就是如果您以最大速度运行 X4,它很可能是一个主要的耗电大户。今年我们可能会看到一些原始设备制造商继续做他们去年所做的事情,并开箱即用地限制今年的许多芯片SOC。例如,OnePlus 和 Oppo 都这样做,并且在以与 X3 相同的性能点运行时获得这些能效提升,这些公司继续这样做可能会受益。我们可能不会看到全面的 15% 的性能提升,但我们可能会看到明年的芯片SOC的效率进一步提高。(挤牙膏???????????)

至于这些 IPC 改进来自何处,X4 有许多前端和后端改进。在这些前端改进中,大量工作被投入到重写和改进分支预测上,因为不正确的分支预测在性能方面代价高昂。Arm 还承诺,2MB 的 L2 缓存大小会产生更高的性能,与其说是在基准测试中,不如说是在实际使用中。

这一代 Cortex-X4 连续第四年实现两位数的 IPC 增长。Cortex-X4 的单线程性能提高了 15%,同时也是 Arm 迄今为止设计的最高效的 X 系列内核。

一个关键的改进是将 L2 缓存可扩展性提高了一倍,最高可达每个内核 2MB。额外的缓存减少了系统内存调用并使引擎更好地运行。(Instruction Per Clock)

Cortex-X4进一步得到了重新设计的指令获取传输系统的支持。它现在是一个10宽的内核,为高IPC工作负载提供同类最佳的带宽。

与Cortex-X3相比,分支预测本身已得到进一步完善,特别是减少了实际工作负载中的停滞。下图左侧描述了预测性较差的工作负载,右侧则是更多的合成工作负载。

ALU的数量也从6个增加到8个。MCQ重排序缓冲器也从320x2扩展到384x2,这使得更多的失序指令可以被跟踪,现在它把加载存储刷新当作一个分支错误预测来处理,以加快处理速度。

Arm公司宣称,在一系列工作负载中,IPC的平均速度提高了13%,但是现实世界中的场景将看到最大的优势。合成基准从前端和缓存变化中得到的好处较少,因此看到的改进也较少。

Cortex-A720-平衡性能和功耗

虽然 Arm 的 X 系列Core通常有点疯狂,但 A 系列内核通常旨在平衡功耗与性能。借助 Cortex-A720,Arm 承诺内核效率提高 20%,在与去年的 A715 相同的功率下提高性能。

至于今年A720的改进从何而来,大部分都在前端。从分支错误预测引擎中删除了一个周期,从而缩短了流水线,据说这一单周期下降导致基准测试增加了 1%。基准测试通常会导致最少的分支错误预测,这意味着这可能会以更显着(但在很大程度上无法衡量)的量改善整体现实世界的性能。

在乱序内核中,我们看到了一些结构上的改进,这些改进有助于在不影响内核占用的面积或效率的情况下提高性能。对于初学者,就像在 X4 中一样,浮点除法和平方根运算现在是流水线化的。还有从浮点数、NEON 和 SVE2 数字到整数的更快传输以及其他整体改进以加快处理速度。

Cortex-A720 的能效比上一代 Cortex-A715 高 20%,并且具有更短和更高效的流水线。在前端,它从分支预测错误流水线中移除了一个周期,允许在不可预测的现实世界工作负载中更快地恢复。 在功耗方面,A720 与去年的型号基本保持一致,但在相同功率水平下它的性能略高一些。对于 A720,就像 X4 一样,Arm 似乎更专注于强调它如何从去年的功率限制中获得更好的性能,而不是不断增加这些内核的能力。(或者是相同的性能更低的功耗)

或者,Arm 提供 Cortex-A720 的区域优化配置。在与 Cortex-A78 Armv8内核匹配的裸片尺寸下,面积优化的 Cortex-A720 可以提供 10% 以上的性能和更新的 Armv9.2 功能。

Cortex-A520-效率:相同功耗点效率翻倍

当然,说到 Arm 的内核,并不仅仅关乎性能。X 系列将一切都投入原始计算能力,A7xx 平衡计算需求和功耗,而 A5xx 系列则完全专注于高效处理。 它是单位面积功耗最低的 Arm v9.2 内核,并建立在我们看到的与 A510 相同的合并内核架构之上。

Cortex-A520 也在努力提高性能,但前提是要提高效率。LITTLE 内核在成本受限的设备中更为重要,并且是闲置或低强度使用期间电池寿命的主要驱动因素。

它保留了 Cortex-A510 使用的合并内核架构,该架构将两个内核置于一个复合体中,具有一个共享或私有 L2 缓存池(高达 512KB)和 SIMD 引擎(SVE2/Neon)。它结合了 QARMA3 PAC 算法以将开销减少到不到 1%,从而使其能够利用最新的安全功能而不会降低性能。

这种合并核心架构意味着一些资源可以在两个核心之间共享,其中两个核心可以组合成一个“复合体”

L2 高速缓存、L2 翻译后备缓冲区和向量数据路径在该复合体中共享。

需要明确的是,这并不意味着它必须捆绑成两个内核,可以组装一个单核复合体以获得最佳性能。

事实上,他们向我们展示的 Arm 的 TCS2023 核心布局之一涉及单个 X4 核心、五个 A720 核心和三个 A520 核心,这意味着至少有一个 A520 核心是隔离的。

有趣的是,Cortex-A520 将其 ALU 数量从上一代 Cortex-A510 的 3 个减少到 2 个。单独这样做会导致性能下降,但功耗和面积的节省允许其工程师以其他方式提高性能。

这最终使性能提高了 8%,而功耗却略有降低。在保持性能不变的情况下,Cortex-A520 的运行功耗比 Cortex-A510 低 22%。

A520 是一种效率优先的设计,与其他内核一样,Arm 主要侧重于在与上一代相同的功率点上提高效率。这包括改进分支预测,同时删除或缩减某些性能特征。结果,通过更高的效率恢复了这种性能。同样有趣的是,Arm 移除了 A510 中的第三个 ALU,从而节省了发布逻辑和转发结果的功耗。

在现实世界的结果中,A520 似乎没有像 A720 和 X4 那样与其前辈相比有很大的飞跃。它在较低功率间隔下的许多功能与上图中的 A510 重叠,并且只有在性能的上层我们才能看到效率提升。两个内核之间在性能和功率方面的差异是有希望的,但尚不清楚在比较 A520 和 A510 时我们是否会看到任何实际的实际优势。毕竟,在现实世界中很难真正正确地衡量两者之间的性能和效率差异。

DSU-120 计算集群

这些内核在 DSU-120(DynamIQ 共享单元)集群中连接在一起,Arm 表示,与之前的修订版相比,它提供了更好的可扩展性,以获得更多的内核和效率。每个 DSU-120 集群最多可以容纳 14 个核心,无论配置如何,客户的设计目标都是如此。集群中的每个内核都有自己的专用 L2 缓存,以及共享的集群范围(最多 32MB)L3 池。

虽然单个 DSU-120 集群对于大多数移动设计来说绰绰有余,但客户确实可以选择将多个集群链接在一起以获得更高的核心数,所有这些都通过高带宽 CoreLink 一致性互连进行链接。可以链接在一起的集群数量没有实际上限,但芯片只能做得这么大。无论如何,我们预计这不会成为基于 ARM 的解决方案的流行选项。

DSU-120 的逻辑、L3 高速缓存和探听过滤器被分成片(最多 8 个),与基于双双向环的拓扑链接。这通常通过减少跃点来减少延迟,并允许更高的带宽。

DSU-120 通过多种节能模式进一步提高系统效率。RAM 保留将 L3 缓存和探听过滤器置于低功耗状态,该状态可在逻辑部分保持活动状态时快速唤醒。或者,切片逻辑断电会关闭每个切片的逻辑,同时 L3 高速缓存和探听过滤器保持活动状态。这两种模式也可以组合,但独立控制。

此外,RAM powerdown 可以关闭每个 L3 缓存池的一半或全部,但这样做会转储已关闭区域的内容。当不需要总缓存容量时,这甚至可以节省更多电量。片断电完全关闭片(逻辑、L3 高速缓存和探听过滤器)直至单个活动片。

总的来说,这些电源模式可以在空闲或低强度工作负载期间将 DSU 的功耗降低三分之二。

DynamIQ 共享单元或 DSU 是一个集成了一个或多个内核的 L3 内存系统、控制逻辑和外部接口,以形成一个多核集群。它本质上是 Arm 的结构,允许所有这些内核相互通信并共享资源,因此,对于任何希望使用 Arm 的内核设计构建芯片的芯片组制造商来说,这是一个相当重要的难题。

在 DSU-110 的基础上,Arm 对 DSU-120 进行了多项改进,这将有利于包含它的整个芯片。对于初学者来说,现在每个集群最多有 14 个核心(从 12 个增加),并支持高达 32MB 的 L3 缓存。它还大大提高了一些关键领域的效率,包括在缓存未命中的情况下,同时还减少了功耗。

在某种程度上,Arm 的 DSU 是 TCS23 的骨干,因为它构成了这些核心如何相互交互和共享数据的基础。这里的任何改进都会使整个集群受益,但似乎大多数变化都与功耗和效率有关。

Arm 的第五代图形架构

TCS23不仅限于CPU综合体,还整合了Immortalis-G720、Mali-G720和Mali-G620 GPU选项。Arm已经放弃了对其GPU架构世代的称呼(如Valhall),而选择简单地称为第五代。

Arm 的设计目标是允许更多身临其境的游戏和实时 3D 应用程序,并让这些体验运行更长时间而无需节流或不必运行到电源插座。特别是,开发人员正在创建具有更高几何复杂性的场景,采用更多的高动态范围渲染,而内存系统功率正成为热限制的主要贡献者。

这最后一点是Arm关注的最大目标。第 5 代 GPU 架构可将内存带宽使用率降低多达 40%。这主要是通过更大的缓冲区和在渲染管道中实施延迟顶点着色 (DVS) 来实现的。

在高层次上,一个可见的三角形场景被分类为称为瓦片的区域进行处理。一些三角形可以跨越区块,这使问题变得复杂,需要传统的前期顶点着色管道来缓存大量的数据。然而,完全包含在区块中的三角形,可以在前期执行最小的工作来平坦透视,但可以丢弃数据,只在管道的延迟阶段开始顶点着色。 (有点意思,之前看了龚大的视频,有点感觉)

DVS 将顶点和片段着色结合在一起,减少错误缓存,并且只回写一次内存,从而节省了大量内存带宽。

Arm 的第 5 代 GPU 架构使用更大的区块尺寸(64x64 与 32x32),这意味着 Tiler 有更多机会选择 DVS。此外,场景复杂性的增加使得三角形更小,因此有更多机会推迟顶点着色并节省内存带宽。

新的 GPU 架构还对整个引擎进行了其他改进。它可以以更高的速率执行可变速率着色,通过额外的工作寄存器执行更快的工作调度,并支持图形的更多固定功能吞吐量。光线追踪单元 (RTU) 现在也在一个电源岛上,这意味着对于大多数根本不使用 RTU 的应用来说,漏电更少。

三种 GPU 型号是可配置的,但主要由核心数量决定。Immortalis-G720 具有 10 个或更多内核,Mali-G720 包括 6 至 9 个内核,而 Mali-G620 适用于具有 5 个或更少内核的设计。除了减少 40% 的内存带宽外,这些设计的持续性能和峰值性能比上一代产品平均高出 15%。

安卓动态性能框架

Arm请来了谷歌Android游戏高级项目经理Scott Carbon-Ogden,讨论它与谷歌Android动态性能框架(ADPF)的整合,它说这使得它能够了解并实时响应不断变化的性能、散热和用户情况。这涵盖了ADPF提示API、ADPF散热API、游戏模式和游戏状态API,但选择集中在前两个方面。

ADPF Hint API 旨在超越默认的 Linux 调度程序,以避免延迟提升性能并避免在工作负载结束后浪费电力。(这要是华为不被制裁是不是也得邀请一下鸿蒙,不过都不授权了,可能也不需要。)

API 允许应用程序更好地通知操作系统有关工作负载的目标和实际 CPU 持续时间,以便它可以更有效地进行调度。对用户而言,最终结果可能是丢帧率大幅降低,并在一定程度上节省了电能。

ADPF Thermal API提供了更多的方法来扩展性能,而不是简单地降低帧速率。相反,应用程序可以用其他选项来回应,如自适应分辨率、自适应贴花或自适应LOD(细节级别),以不那么刺耳的方式调整用户体验。

以Pixel 6 上给出的 Candy Clash 为例,ADPF Thermal API 使平均 FPS 提高了 25%,这很好,但显示的帧速率的一致性更为重要。此外,它还导致 CPU 功率降低了 18%,这些功率可以重新分配给 GPU 或保留以用于更长的游戏会话。

2023 年的 Arm 总体计算解决方案

Arm TCS23 框架为其客户开发具有更高功率、性能和效率的下一代 SoC 奠定了坚实的基础,该公司也已经在展望未来的道路。

Arm 分享了这张未来路线图的幻灯片。它描绘了 TCS24,其 Cortex-X4 继任者的代号为 Blackhawk,分别由 A7XX 和 A5XX 级别的 Chaberton 和 Hayes 内核支持。

我们还看到 Krake 被列为其下一代 GPU 的代号。Arm 表示:“我们从未像现在这样致力于我们的 CPU 和 GPU 路线图,在接下来的几年里,我们将大力投资关键 IP,例如 Krake GPU 和 Blackhawk CPU,以提供计算和图形性能我们的合作伙伴要求。” 产业期待看到 Arm 的 IP 如何继续发展,特别是随着人工智能和机器学习被证明越来越具有破坏性。(侧面这也可以看出来现在GPU日渐的重要性)

效率

效率是新目标

这个行业似乎已经发生了一段时间的变化,但我从这些核心中得到的主要第一印象是效率现在是游戏的名称。虽然我们被告知 X4 内核的速度有多快以及它如何成为公司有史以来最快的内核,但他们很快注意到以去年的峰值性能运行它的效率提高了。(是不是这样可以让这个产品生命周期持续到下一步,可以慢慢挤牙膏,反正没有对手~~)

总体而言,每一次性能提升都取决于该组件的效率有多高,而 DSU 的所有变化或多或少都体现在效率和功耗方面性能很重要,但确实感觉整个行业都在努力提高当前的计算水平,而不是逐年大幅提高性能。 (性能:功耗、计算能力各种方面)

我们预计这些内核将构成联发科天玑 9400 和高通骁龙 8 Gen 3 的基础,但具体形式还有待观察。如前所述,Arm在自己的内部测试中谈到使用1+5+3的核心布局,但这并不意味着像联发科和高通这样的合作伙伴也会这样做。

今年 AI 在 Arm 的演示中所占的比例小得惊人。该公司尚未宣布其 NPU 的后续行动,而是选择让客户通过自己的解决方案实现差异化。生成式和 LLM AI 的激增尤其导致了一些转变,使得专用硬件解决方案目前的吸引力降低。目前,许多这些工作负载都由边缘的传统 CPU 和 GPU 处理,至少在行业重新统一新标准之前是这样。与此同时,更大的工作负载正被推送到规模经济目前允许更高效率的数据中心。

Arm 的合作伙伴对这些下一代设计的潜力感到非常兴奋,特别是在游戏和启用新用例方面。Android工程副总裁 Dave Burke,说:“Android 与开发者社区一起致力于将计算的力量带给尽可能多的人。我们很高兴看到 Arm 的新硬件进步如何被供应商采用,安全性和性能改进可以从中受益整个 Android 生态系统。”

“Arm 的创新 2023 IP、Cortex-X4 和 Cortex-A720 以及 Immortalis G720 为我们的下一代 Dimensity 旗舰 5G 智能手机芯片提供了良好的基础,它将通过突破性的芯片架构和技术创新提供令人印象深刻的性能和效率。使用Arm业界领先的技术,联发科天玑将使用户能够一次完成比以往更多的事情,并解锁令人难以置信的新体验、更长的游戏时间和出色的电池寿命,”联发科公司高级副总裁兼无线通信业务部总经理 JC Hsu 博士补充道。

新 IP 可以开发成的产品大概会在明年某个时候进入市场。

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
目录
相关文章
【各种问题处理】X86架构和ARM架构的区别
【1月更文挑战第13天】【各种问题处理】X86架构和ARM架构的区别
|
6天前
|
敏捷开发 数据可视化 物联网
云效产品使用常见问题之用ARM架构的机器意义不知道如何解决
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
1月前
|
存储 机器学习/深度学习 并行计算
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别,本文主要简单介绍下不同类型的云服务器有何不同,主要特点及适用场景有哪些。
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
|
1月前
|
存储 缓存 安全
【ARM架构】ARMv8-A 系统中的安全架构概述
【ARM架构】ARMv8-A 系统中的安全架构概述
32 0
|
1月前
|
存储 机器学习/深度学习 人工智能
嵌入式中一文搞懂ARM处理器架构
嵌入式中一文搞懂ARM处理器架构
38 1
|
1月前
|
弹性计算 Java 关系型数据库
ARM架构和避坑指南|开发者分享会
今天分享的内容来自阿里云倚天ECS高级架构师张先国的“ARM架构和避坑指南”。本文内容主要从ARM架构、C和Java如何避坑 、等方面详细讲解。
|
2月前
|
存储 缓存 物联网
DP读书:鲲鹏处理器 架构与编程(二)服务器与处理器——高性能处理器的并行组织结构、ARM处理器
DP读书:鲲鹏处理器 架构与编程(二)服务器与处理器——高性能处理器的并行组织结构、ARM处理器
251 0
|
3月前
|
存储 缓存 监控
【芯核架构】听你说你很了解ARM?
【芯核架构】听你说你很了解ARM?
166 0
|
3月前
|
缓存 安全 算法
ARM阅读系列(一):架构和处理器
ARM阅读系列(一):架构和处理器
177 45
|
4月前
|
Web App开发 NoSQL 安全
ARM架构-银河麒麟v10-server离线安装Harbor
ARM架构-银河麒麟v10-server离线安装Harbor
322 0