一起学点ARM的微架构?

简介: 一起学点ARM的微架构?


大家可以关注一下这两个:

  • ARM精选
  • 内核工匠

确实内容蛮精彩的。

1、什么是结构和微内核?

这个我在参考链接1中学习到了这两个概念:

  • 结构

当我们使用术语架构时,我们指的是功能规范。在Arm架构的情况下,我们指的是处理器的功能规范。架构指定处理器的行为方式,例如它有什么指令以及指令做什么。

您可以将架构视为硬件和软件之间的规则。该架构描述了软件可以依赖硬件提供哪些功能。

  • 微架构

架构(Architecture)不会告诉您处理器是如何构建和工作的。处理器的构建和设计被称为微架构。微架构( micro-architecture)告诉你处理器是如何工作的。

微架构(Micro-architecture)包含:

前辈在ARM体系的一句话,很点醒人,学习安全就是学ARM的架构,学习ARM的架构

(而学习arm架构最核心的是什么? 最核心的就是学习和理解异常/中断。异常和中断是整个大系统软件和硬件设计的灵魂。ARM有4个异常级别、2个执行状态、2个安全状态(armv9则变成4个),在这些Exception Level、Ecution State、Security之间是怎样切换的? 其实就是利用的异常和中断。另外多系统之间的切换/交互,核心的思想也都是通过异常/中断… 所以理解异常中断后,对整个架构的学习是非常重要的。)

下面来看看这个ARM的微内核。

2、从A76到A78

伴随智能手机的高速发展,移动处理器架构设计厂商ARM公司几乎每年都更新CPU的核心架构。从2018至2020年,ARM公司基于ARMv8架构推出了三代Cortex-A76、Cortex-A77、Cortex-A78经典CPU核心架构。基于这几代CPU架构,芯片设计厂商也设计了多款性能优秀的处理器产品。本文从A76微架构开始学习,通过对比每一代的变化,让读者了解处理器微架构关键知识。下表给出了一些基于这三代ARM处理器架构的典型处理器产品。

3、从A76开始了解ARM微架构

从ARM的A76开始,网络上可以查询到较多资料,例如我们可以从**wikichip网站(en.wikichip.org)**获取到A76的完整微架构框图。(不错不错,新网站get)

1. DSU(DynamIQ Shared Unit)

从A75开始,ARM提出了一个新的多核心管理系统单元,叫做DSU。

通过DSU模块,CPU设计者可以随意摆放不同架构的核心并共享L3缓存,减少不同架构核心直接传递数据损耗。在DSU架构之前,每个Cluster需要摆放同架构CPU,如将4个A73处理器放在一个Cluster中,将4个A53放在另外一个Cluster中,这两个Cluster的数据相互访问会有一定的连接损耗。

利用DSU模块,开发者可以随意设计CPU的组合,例如图中1大+7小,2大+6小,4大+4小,1大+2小,1大+3小,1大+4小等等组合。(之前整过一篇关于ARM的big.Little和DynamIQ)

2. 性能功耗优化

架构和工艺具有一定的关联性,如A76架构设计可采用7nm工艺,根据ARM数据,基于7nm的A76比基于10nm工艺的A75,性能可提升40%,或同性能下能耗降低50%。可见A76相比上一代的A75的提升较大,后面我们会详细了解架构上差异点。

3. 三级缓存设计

A76采用三级缓存机制,其中:

  • L1是核心独有缓存,具有独立的64KB指令Cache(ICache)和64KB数据Cache(DCache);
  • L2是核心独有缓存,可以配置成256KB或者512KB(加钱);
  • L3是核间共享缓存,在DSU内部,可以配置成2MB或者4MB。

4. 分支预测单元(BPU)

多级流水线系统中,在执行分支判断指令时,系统如果不知道下面走哪一条分支,需要等到分支执行出结果才可以再获取正确的指令。为了提升流水线性能,现代处理器中提供了一个分支预测单元(BPU),用来预测常用路径,并提前进行指令预取,确保流水线被填充完整。 (良好的编码规范,可以提升CPU的预测准确率。)

A76的BPU和指令Fetch单元独立,BPU可以同时和Fetch单元工作,提前推测并获取分支后指令,降低分支预测的延迟。(指令Fetch单元-就是获取指令的单元)

5. 前端设计(Front-end)

指令预取后进入一个解码队列,A76提供了4路decoder,相比A75增加了一路decoder单元,这是性能提升的一个要素。

6. ROB模块设计

经过译码的指令叫做MOP(Macro-Operation),MOP不是实际执行的指令,最终送到执行单元的指令叫做uOP(Micro-Operation)。MOP比uOP稍微复杂一些,可能是多条uOP的组合指令,通过后端单元的拆解,可以把MOP分解成处理器可以执行的最基础指令uOP,uOP的指令数量约比MOP多20%。

ROB(ReOrder-Buffer)模块提供了128个entry,用来将指令进行重新排序,尽可能填充流水线,这里可以看到A76设计的输入是4路MOP,输出是8路uOP。

7. 执行单元 (Execution Engine)

Dispatch单元将uOP指令发射到执行单元(Issue),执行单元提供了120个entry,分成三类:整型、浮点和读写

  • 整型部分包括了1个分支单元,2个基础ALU单元,1个复合ALU单元;
  • 浮点部分提供了2个128bit的高级SIMD指令单元;
  • 读写部分则提供了2个AGU(Adress Generation Unit)地址单元。

8. LSU(Load Store Unit)设计

LSU模块和执行单元的2个AGU相连接,同时连接64KB的L1数据缓存(DCache),并提供2个16B/cycle的load端口和1个32B/cycle的store端口。

9. 小结

至此,我们从取指、译码、指令分派、指令发射、指令执行到数据读写,简略了解了A76处理器的微架构,下一节我们通过对比A77和A76架构的差异,进一步了解ARM微架构设计的步伐。

4、A77微架构和A76对比

老规矩先上图:

1. 性能提升

ARM资料显示同样是7nm工艺3GHz的条件下,A77的性能可以比A76提升20%,注意这里面标注是单线程性能提升,后面我们可以从架构升级中推测性能提升的原因。

2. L0缓存(MOP Cache)

(对比看一下图A76)

A77新引入了MOP Cache模块,这个模块并不是ARM的创新设计,在PC处理器上已经有了,例如Intel在早期的酷睿Sandy Bridge处理器中就加入了uOP Cache模块。

此外AMD的Zen架构也有MOP缓存模块。

MOP Cache主要用做L0级别缓存,存储译码过的MOP指令。MOP Cache的好处是如果在里面找到需要的指令,前面的电路模块都可以暂时由MOP Cache来替代,可以节省功耗提升性能。 ARM数据显示这个MOP Cache的命中率有85%,可见是A77的一个非常大的改进。

继续看下MOP Cache的尺寸,ARM给的尺寸数据是1.5K而不是1.5KB,单位不是Byte而是条,考虑到ARM常规decoded出的机器码是32位宽(Aarch64也是32位宽,当然也有个别64位宽指令),推测这个L0 Cache的大小应该是6KB左右(和Intel的sandy bridge时一样)。

移动处理器领域引入L0,ARM并不是首家,早在高通的Snapdragon S4时代就在Krait核心中引入了L0 cache。根据数据显示1.5K的Cache就可以达到80-85%的命中率,再增加Cache,提升命中率的边际效应会越来越明显。

3. 前端设计(Front-End)

A77相对于A76的另一个重要变化是产生MOP指令的能力从原来的每周期4个提升到最多6个,但是decode的能力还是保持4个没有变化。

可以对比下整体上fetch和decode的基本架构和A76没有太大变化,MOP提升的主要原因是新加入的MOP Cache提供的。

如果MOP Cache命中,可以绕过decode模块最多一次取6条MOP指令,如果不命中回到decode模块还是一次4条,L0 Cache和Decode进行了很好的补充,让一周期可以提供更多的MOP指令。

4. ROB模块设计

A77相对A76在执行单元上提升了重排序缓冲的大小(ReOrder-Buffer),还记得A76是128-entry,A77提升了25%到160-entry。

另外可以看到输入是6条MOP,输出提升到了10条uOP,对比A76则是8条。据说其他厂商基于ARM定制内核时会修改这个部分,随着ARM内核逐步吸收这些优秀的设计,定制ARM内核的空间和收益会越来越小 。

5. 执行单元

A77相比A76在执行单元也有比较大的改变:新增加了一路分支单元,将分支预测的带宽提升了一倍;新增了第四个基础整型ALU单元,这个单元可以用一个周期执行简单的算术运算或二个周期执行更复杂运算。

A77一共4个整型ALU,其中3个是基础整型ALU单元,还有一个是复杂整型ALU单元,可以执行更复杂的计算(例如MAC乘加,DIV除法),A76也有这个复杂ALU单元。在整型执行单元上,A77相对A76提升是比较大的,从4个提升到6个,有50%的提升。

此外,还A76的每个执行单元都有独立的发射列队,A77则进行了一定程度的优化,将发射列队(issue queue)统一成三个,整型、浮点和读写发射列队,由于A77的执行单元多,将发射列队统一进行管理和分配,可以进一步提升执行效率。

6. LSU设计

A77在Load\Store单元上有两个独立的地址生成单元AGU,这和A76是一样的。不同的地方是A77额外增加了两路Store端口,等于将Store的带宽增加了一倍。同时这四路LSU单元也共享一个发射队列,ARM宣称这样可以提升25%的内存并发读写性能。 (共享一个发射队列,为什么会提升内存并发,是因为避免了单独的队列需要切换吗?)

再来看一下LSU单元,更宽的执行单元需要有更宽的LSU支持,A77增大了LSU的load和store buffer,同时可以支持85级深度load 操作和90级深度store操作,总共支持同时175个内存操作,稍高于指令操作的宽度160,相比A76的LSU深度140,提升了25%。

(这个多少级的深度操作怎么理解?)

7. 小结

最后整理了一个更详细的表格来对比A77和A76,A77是ARMv8系列中非常成功的一代,基于A77,产生了如麒麟9000、骁龙865这样经典的产品。

5、A78微架构和A77对比

1. 性能功耗优化

2020年,ARM更新了代号Hercules的A78新架构,也是ARMv8体系中最后一代中核架构。ARM宣传这一代是“持续的性能功耗领先”,图中看到性能提升了20%,工艺从7nm提升到5nm,注意性能提升包含了频率的15%提升,架构的性能提升ARM估计在7%左右。得益于工艺进化到5nm,同样性能,功耗可以比A77降低50%(2.1GHz相当于A77的2.3GHz)。从第二张图可以看出,A78这一代的主要设计目标是小幅度提升性能,提升能效并减少芯片面积。

2. A78微架构的一些特点

  • 1、L1缓存:ARM提供了32KB缓存的选择,让一些注重成本和芯片面积的厂商可以选择更低的数据和指令缓存,默认是64KB。
  • 2、分支预测:分支预测的带宽相对A77提升了1倍。
  • 3、执行单元:增加了一个MUL单元,允许一个周期进行2个整型的乘法运算(A77是一周期1个)。增加了一个用于Store的AGU单元,Store的能力从16B/cycle提升到32B/cycle。
  • A78是ARMv8架构最后一代产品,主要是对前面几代微架构的优化,可谓ARMv8架构的守门员了。

6、总结

A78是ARMv8架构的最后一代产品,智能手机依然在高速发展并快速更新产品,ARM处理器的架构也在持续迭代和更新。2020年,ARM公司提出了对厂商定制高性能核心的计划,并推出了面积更大性能更强的Cortex-X系列核心。2021年,ARM公司推出了全新的ARMv9架构,目前已经有A710、A715等产品接替A78的路线。限于篇幅限制,后续我会和大家一起继续学习X系列和ARMv9架构的相关内容。

7、参考文献

1、DSU介绍 https://www.androidauthority.com/arm-dynamiq-need-to-know-770349/

2、A76 wikichip https://en.wikichip.org/wiki/arm_holdings/microarchitectures/cortex-a76

3、A77 wikichip https://en.wikichip.org/wiki/arm_holdings/microarchitectures/cortex-a77

4、A77介绍 https://www.anandtech.com/show/14384/arm-announces-cortexa77-cpu-ip

5、Intel’s Sandy Bridge Architecture Exposed https://www.anandtech.com/show/3922/intels-sandy-bridge-architecture-exposed/2

6、AMD Zen Microarchitecture https://www.anandtech.com/show/10578/amd-zen-microarchitecture-dual-schedulers-micro-op-cache-memory-hierarchy-revealed

7、A78介绍 https://www.anandtech.com/show/15813/arm-cortex-a78-cortex-x1-cpu-ip-diverging

8、A78 wikichip https://en.wikichip.org/wiki/arm_holdings/microarchitectures/cortex-a78

9、A78介绍 https://fuse.wikichip.org/news/3536/arm-unveils-the-cortex-a78-when-less-is-more/

10、ARMv9介绍 https://www.anandtech.com/show/16584/arm-announces-armv9-architecture

11、https://blog.csdn.net/weixin_42135087/article/details/122339498(本文的近乎全部内容来源,很精彩的文章和公众号,感谢前辈!!!)

12、https://mp.weixin.qq.com/s/aELd2q_eP5RthpwWI1Huvw

目录
相关文章
|
5月前
|
Ubuntu Linux
查看Linux系统架构的命令,查看linux系统是哪种架构:AMD、ARM、x86、x86_64、pcc 或 查看Ubuntu的版本号
查看Linux系统架构的命令,查看linux系统是哪种架构:AMD、ARM、x86、x86_64、pcc 或 查看Ubuntu的版本号
1028 3
|
10天前
|
人工智能 芯片 Windows
ARM架构PC退货率与CEO策略透视
ARM架构PC退货率与CEO策略透视
|
2月前
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器架构有啥区别?X86计算、Arm、GPU异构、裸金属和高性能计算对比
阿里云ECS涵盖x86、ARM、GPU/FPGA/ASIC、弹性裸金属及高性能计算等多种架构。x86架构采用Intel/AMD处理器,适用于广泛企业级应用;ARM架构低功耗,适合容器与微服务;GPU/FPGA/ASIC专为AI、图形处理设计;弹性裸金属提供物理机性能;高性能计算则针对大规模并行计算优化。
|
3月前
|
Docker 容器
docker:记录如何在x86架构上构造和使用arm架构的镜像
为了实现国产化适配,需将原x86平台上的Docker镜像转换为适用于ARM平台的镜像。本文介绍了如何配置Docker buildx环境,包括检查Docker版本、安装buildx插件、启用实验性功能及构建多平台镜像的具体步骤。通过这些操作,可以在x86平台上成功构建并运行ARM64镜像,实现跨平台的应用部署。
1910 2
|
3月前
|
编解码 弹性计算 应用服务中间件
阿里云服务器Arm计算架构解析:Arm计算架构云服务器租用收费标准价格参考
阿里云服务器架构分为X86计算、Arm计算、高性能计算等多种架构,其中Arm计算架构以其低功耗、高效率的特点受到广泛关注。本文将深入解析阿里云Arm计算架构云服务器的技术特点、适用场景以及包年包月与按量付费的收费标准与最新活动价格情况,以供选择参考。
|
3月前
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器计算架构X86/ARM/GPU/FPGA/ASIC/裸金属/超级计算集群有啥区别?
阿里云服务器ECS提供了多种计算架构,包括X86、ARM、GPU/FPGA/ASIC、弹性裸金属服务器及超级计算集群。X86架构常见且通用,适合大多数应用场景;ARM架构具备低功耗优势,适用于长期运行环境;GPU/FPGA/ASIC则针对深度学习、科学计算、视频处理等高性能需求;弹性裸金属服务器与超级计算集群则分别提供物理机级别的性能和高速RDMA互联,满足高性能计算和大规模训练需求。
106 6
|
3月前
|
存储 Docker 容器
ARM架构鲲鹏主机BClinux离线安装docker步骤
下载并安装适用于ARM架构的Docker CE二进制文件,解压后移动至/usr/bin目录。创建docker组,配置systemd服务脚本(docker.service、docker.socket、containerd.service),重载systemd配置,启动并启用docker服务。编辑daemon.json配置存储驱动、镜像加速地址等,最后拉取所需镜像。
80 0
|
3月前
|
NoSQL MongoDB Docker
求助,有没有大神可以找到arm64架构下mongodb的3.6.8版本的docker镜像?
在Docker Hub受限的情况下,寻求适用于ARM架构的docker镜像资源或拉取链接,以便在x86架构上获取;内网中的机器为ARM架构,因此优先请求适合ARM的Docker镜像或Dockerfile,非常感激您的帮助。
|
5月前
|
机器学习/深度学习 算法 数据库
阿里云服务器架构区别解析:从X86计算、Arm计算到高性能计算架构的区别参考
在我们选择阿里云服务器的架构时,选择合适的云服务器架构对于提升业务效率、保障业务稳定至关重要。阿里云提供了多样化的云服务器架构选择,包括X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器以及高性能计算等。本文将深入解析这些架构的特点、优势及适用场景,以供参考和选择。
阿里云服务器架构区别解析:从X86计算、Arm计算到高性能计算架构的区别参考
|
5月前
|
编解码 安全 Linux
基于arm64架构国产操作系统|Linux下的RTMP|RTSP低延时直播播放器开发探究
这段内容讲述了国产操作系统背景下,大牛直播SDK针对国产操作系统与Linux平台发布的RTMP/RTSP直播播放SDK。此SDK支持arm64架构,基于X协议输出视频,采用PulseAudio和Alsa Lib处理音频,具备实时静音、快照、缓冲时间设定等功能,并支持H.265编码格式。此外,提供了示例代码展示如何实现多实例播放器的创建与管理,包括窗口布局调整、事件监听、视频分辨率变化和实时快照回调等关键功能。这一技术实现有助于提高直播服务的稳定性和响应速度,适应国产操作系统在各行业中的应用需求。
152 3

热门文章

最新文章