CPU高速缓存和内存屏障

简介: 为了提高程序运行的性能,现代CPU在很多方面对程序进行了优化。例如:CPU高速缓存。尽可能地避免处理器访问主内存的开销,处理器大多会利用缓存以提高性能。

一、CPU性能优化手段——缓存


例如:CPU高速缓存。尽可能地避免处理器访问主内存的开销,处理器大多会利用缓存以提高性能。5f29a578b0db4a4db9ba13ba5060051d.png

二、多级缓存



1、 L1 Cache(一级缓存)

是CPU第一层高速缓存,分为数据缓存和指令缓存。一般服务器CPU的L1缓存的容量通常在32-4096kb。


2、 L2 Cache(二级缓存)

由于L1高速缓存容量的限制,为了再次提高CPU的运行速度,在CPU外部放置一高速存储器,即二级缓存。


3、L3 Cache(三级缓存)

现在的都是内置的,L3缓存的应用可以进一步降低内存延迟,同时提升大数据量计算时处理器的性能。具有较大L3缓存的处理器提供更有效的文件系统缓存行为及较短消息和处理器队列的长度。一般是多核共享一个L3缓存。


备注:CPU在读取数据时,先在L1中寻找,再从L2中寻找,再从L3中寻找,然后是内存,再后就是外存储器。

三、缓存同步协议



多CPU读取同样的数据进行缓存,进行不同运算后,最终写入主内存以哪个CPU为准?


在这种高速缓存回写的情况下,有一个缓存一致性协议,多数CPU厂商对它进行了实现。


MESI协议,规定每条缓存有个状态位,同时定义了下面四个状态:


修改态:此cache行已被修改过(脏行),内容已不同于主存,为此cache专有。

专有态:此cache行内容同于主存,但不出现与其它cache中。

共享态:此cache行内容同于主存,但也出现在其它cache中。

无效态:此cache行内容无效(空行)。

多处理器单个CPU对缓存中数据进行了改动,需要通知给其它CPU。也就是意味着,CPU处理要控制自己的读写操作,还要监听其它CPU发出的通知,从而保证最终一致。

四、CPU性能优化手段-运行时指令重排7dd839000a20478db4390bda5ea3f8e3.png

指令重排的场景:当CPU写缓存时发现缓存区块正在被其它CPU占用(如L3缓存多核共享),为了提供CPU处理性能,可能将后面的读缓存命令优先执行。


指令重排要遵守as-if-serial语义:不管怎么重排序,(单线程)程序的执行结果不能改变。编译期,runtime和处理器都必须遵守as-if-serial语义。也就是说,编译器和处理器不会对存在数据依赖关系的操作做重排序。

五、CPU性能优化手段-运行时指令重排


缓存中的数据与主内存的数据并不是实时同步的,各CPU(或CPU核心)间缓存的数据也不是实时同步。在同一个时间点,各CPU所看到同一内存地址的数据的值可能是不一致的。


2、CPU执行指令重排序优化后有一个问题:

虽然遵守了as-if-serial语义,单仅在单CPU自己执行的情况下能保证结果正确。多核多线程中,指令逻辑无法分辨因果关联,可能出现乱序执行,导致程序运行结果错误。

、内存屏障

处理器提供了两个内存屏障的指令(Memory Barrier),用于解决上面的两个问题:

六、内存屏障



(1)写内存屏障(Store Memory Barrier):在指令后面插入Store Barrier,能让写入缓存中的最新数据更新写入主内存,让其它线程可见。强制写入主内存,这种显示调用CPU不会因为性能考虑而去对指令重排。


(2)读内存屏障(Load Memory Barrier):在指令前插入Load Barrier,可以让高速缓存中的数据失效,强制重新从主内加载数据。强制读取主内存内容,让CPU缓存与主内存保存一致,避免了缓存导致的一致性问题。


相关文章
|
12月前
|
存储 缓存 芯片
让星星⭐月亮告诉你,当我们在说CPU一级缓存二级缓存三级缓存的时候,我们到底在说什么?
本文介绍了CPU缓存的基本概念和作用,以及不同级别的缓存(L1、L2、L3)的特点和工作原理。CPU缓存是CPU内部的存储器,用于存储RAM中的数据和指令副本,以提高数据访问速度,减少CPU与RAM之间的速度差异。L1缓存位于处理器内部,速度最快;L2缓存容量更大,但速度稍慢;L3缓存容量最大,由所有CPU内核共享。文章还对比了DRAM和SRAM两种内存类型,解释了它们在计算机系统中的应用。
1011 1
|
1月前
|
缓存 人工智能 算法
不同业务怎么选服务器?CPU / 内存 / 带宽配置表
本文详解了服务器三大核心配置——CPU、内存、带宽,帮助读者快速理解服务器性能原理。结合不同业务场景,如个人博客、电商、数据库、直播等,提供配置选择建议,并强调合理搭配的重要性,避免资源浪费或瓶颈限制。内容实用,适合初学者和业务选型参考。
322 0
|
1月前
|
存储 消息中间件 缓存
从纳秒到毫秒的“时空之旅”:CPU是如何看待内存与硬盘的?
在数据爆炸的时代,如何高效存储与管理海量数据成为系统设计的核心挑战。本文从计算机存储体系结构出发,解析B+树、LSM树与Kafka日志结构在不同数据库中的应用与优化策略,帮助你深入理解高性能存储背后的原理。
67 0
|
3月前
|
存储
阿里云轻量应用服务器收费标准价格表:200Mbps带宽、CPU内存及存储配置详解
阿里云香港轻量应用服务器,200Mbps带宽,免备案,支持多IP及国际线路,月租25元起,年付享8.5折优惠,适用于网站、应用等多种场景。
903 0
|
2月前
|
弹性计算 前端开发 NoSQL
2025最新阿里云服务器配置选择攻略:CPU、内存、带宽与系统盘全解析
本文详解2025年阿里云服务器ECS配置选择策略,涵盖CPU、内存、带宽与系统盘推荐,助你根据业务需求精准选型,提升性能与性价比。
|
3月前
|
存储 弹性计算 固态存储
阿里云服务器配置费用整理,支持一万人CPU内存、公网带宽和存储IO性能全解析
要支撑1万人在线流量,需选择阿里云企业级ECS服务器,如通用型g系列、高主频型hf系列或通用算力型u1实例,配置如16核64G及以上,搭配高带宽与SSD/ESSD云盘,费用约数千元每月。
248 0
|
5月前
|
数据可视化 Linux iOS开发
Python测量CPU和内存使用率
这些示例帮助您了解如何在Python中测量CPU和内存使用率。根据需要,可以进一步完善这些示例,例如可视化结果或限制程序在特定范围内的资源占用。
209 22
|
9月前
|
存储 设计模式 监控
快速定位并优化CPU 与 JVM 内存性能瓶颈
本文介绍了 Java 应用常见的 CPU & JVM 内存热点原因及优化思路。
930 166
|
7月前
|
存储 设计模式 监控
如何快速定位并优化CPU 与 JVM 内存性能瓶颈?
如何快速定位并优化CPU 与 JVM 内存性能瓶颈?
175 0
如何快速定位并优化CPU 与 JVM 内存性能瓶颈?