Java 理解CPU缓存(CPU Cache)

简介: 从Java视角理解系统结构连载, 关注我的微博(链接)了解最新动态 众所周知, CPU是计算机的大脑, 它负责执行程序的指令; 内存负责存数据, 包括程序自身数据. 同样大家都知道, 内存比CPU慢很多. 其实在30年前, CPU的频率和内存总线的频率在同一个级别, 访问内存只比访问CPU寄存器慢一点儿. 由于内存的发展都到技术及成本的限制, 现在获取内存中的一条数据大概需要200多个
从Java视角理解系统结构连载, 关注我的微博( 链接 )了解最新动态 

众所周知, CPU是计算机的大脑, 它负责执行程序的指令; 内存负责存数据, 包括程序自身数据. 同样大家都知道, 内存比CPU慢很多. 其实在30年前, CPU的频率和内存总线的频率在同一个级别, 访问内存只比访问CPU寄存器慢一点儿. 由于内存的发展都到技术及成本的限制, 现在获取内存中的一条数据大概需要200多个CPU周期(CPU cycles), 而CPU寄存器一般情况下1个CPU周期就够了. 

CPU缓存  
网页浏览器为了加快速度,会在本机存缓存以前浏览过的数据; 传统数据库或NoSQL数据库为了加速查询, 常在内存设置一个缓存, 减少对磁盘(慢)的IO. 同样内存与CPU的速度相差太远, 于是CPU设计者们就给CPU加上了缓存(CPU Cache). 如果你需要对同一批数据操作很多次, 那么把数据放至离CPU更近的缓存, 会给程序带来很大的速度提升. 例如, 做一个循环计数, 把计数变量放到缓存里,就不用每次循环都往内存存取数据了. 下面是CPU Cache的简单示意图.  
 
随着多核的发展, CPU Cache分成了三个级别: L1, L2, L3. 级别越小越接近CPU, 所以速度也更快, 同时也代表着容量越小. L1是最接近CPU的, 它容量最小, 例如32K, 速度最快,每个核上都有一个L1 Cache(准确地说每个核上有两个L1 Cache, 一个存数据 L1d Cache, 一个存指令 L1i Cache). L2 Cache 更大一些,例如256K, 速度要慢一些, 一般情况下每个核上都有一个独立的L2 Cache; L3 Cache是三级缓存中最大的一级,例如12MB,同时也是最慢的一级, 在同一个CPU插槽之间的核共享一个L3 Cache. 

从CPU到 大约需要的CPU周期 大约需要的时间(单位ns)
寄存器 1 cycle  
L1 Cache ~3-4 cycles ~0.5-1 ns
L2 Cache ~10-20 cycles ~3-7 ns
L3 Cache ~40-45 cycles ~15 ns
跨槽传输   ~20 ns
内存 ~120-240 cycles ~60-120ns

感兴趣的同学可以在Linux下面用cat /proc/cpuinfo, 或Ubuntu下lscpu看看自己机器的缓存情况, 更细的可以通过以下命令看看: 
Shell代码   收藏代码
  1. $ cat /sys/devices/system/cpu/cpu0/cache/index0/size  
  2. 32K  
  3. $ cat /sys/devices/system/cpu/cpu0/cache/index0/type  
  4. Data  
  5. $ cat /sys/devices/system/cpu/cpu0/cache/index0/level   
  6. 1  
  7. $ cat /sys/devices/system/cpu/cpu3/cache/index3/level     
  8. 3  

就像数据库cache一样, 获取数据时首先会在最快的cache中找数据, 如果没有命中(Cache miss) 则往下一级找, 直到三层Cache都找不到,那只要向内存要数据了. 一次次地未命中,代表取数据消耗的时间越长. 

缓存行(Cache line)  
为了高效地存取缓存, 不是简单随意地将单条数据写入缓存的.  缓存是由缓存行组成的, 典型的一行是64字节. 读者可以通过下面的shell命令,查看cherency_line_size就知道知道机器的缓存行是多大. 
Shell代码   收藏代码
  1. $ cat /sys/devices/system/cpu/cpu0/cache/index0/coherency_line_size   
  2. 64  

CPU存取缓存都是按行为最小单位操作的. 在这儿我将不提及缓存的associativity问题, 将问题简化一些. 一个Java long型占8字节, 所以从一条缓存行上你可以获取到8个long型变量. 所以如果你访问一个long型数组, 当有一个long被加载到cache中, 你将无消耗地加载了另外7个. 所以你可以非常快地遍历数组. 

实验及分析  
我们在Java编程时, 如果不注意CPU Cache, 那么将导致程序效率低下. 例如以下程序, 有一个二维long型数组, 在我的32位笔记本上运行时的内存分布如图: 
 
32位机器中的java的数组对象头共占16字节(详情见  链接 ), 加上62个long型一行long数据一共占512字节. 所以这个二维数据是顺序排列的. 
Java代码   收藏代码
  1. public class L1CacheMiss {  
  2.     private static final int RUNS = 10;  
  3.     private static final int DIMENSION_1 = 1024 * 1024;  
  4.     private static final int DIMENSION_2 = 62;  
  5.   
  6.     private static long[][] longs;  
  7.   
  8.     public static void main(String[] args) throws Exception {  
  9.         Thread.sleep(10000);  
  10.         longs = new long[DIMENSION_1][];  
  11.         for (int i = 0; i < DIMENSION_1; i++) {  
  12.             longs[i] = new long[DIMENSION_2];  
  13.             for (int j = 0; j < DIMENSION_2; j++) {  
  14.                 longs[i][j] = 0L;  
  15.             }  
  16.         }  
  17.         System.out.println("starting....");  
  18.   
  19.         final long start = System.nanoTime();  
  20.         long sum = 0L;  
  21.         for (int r = 0; r < RUNS; r++) {  
  22. //          for (int j = 0; j < DIMENSION_2; j++) {  
  23. //              for (int i = 0; i < DIMENSION_1; i++) {  
  24. //                  sum += longs[i][j];  
  25. //              }  
  26. //          }  
  27.   
  28.             for (int i = 0; i < DIMENSION_1; i++) {  
  29.                 for (int j = 0; j < DIMENSION_2; j++) {  
  30.                     sum += longs[i][j];  
  31.                 }  
  32.             }  
  33.         }  
  34.         System.out.println("duration = " + (System.nanoTime() - start));  
  35.     }  
  36. }  

编译后运行,结果如下 
Shell代码   收藏代码
  1. $ java L1CacheMiss   
  2. starting....  
  3. duration = 1460583903  

然后我们将22-26行的注释取消, 将28-32行注释, 编译后再次运行,结果是不是比我们预想得还糟? 
Shell代码   收藏代码
  1. $ java L1CacheMiss   
  2. starting....  
  3. duration = 22332686898  

前面只花了1.4秒的程序, 只做一行的对调要运行22秒. 从上节我们可以知道在加载longs[i][j]时, longs[i][j+1]很可能也会被加载至cache中, 所以立即访问longs[i][j+1]将会命中L1 Cache, 而如果你访问longs[i+1][j]情况就不一样了, 这时候很可能会产生 cache miss导致效率低下. 
下面我们用perf来验证一下,先将快的程序跑一下. 
Shell代码   收藏代码
  1. $ perf stat -e L1-dcache-load-misses java L1CacheMiss   
  2. starting....  
  3. duration = 1463011588  
  4.   
  5.  Performance counter stats for 'java L1CacheMiss':  
  6.   
  7.        164,625,965 L1-dcache-load-misses                                         
  8.   
  9.       13.273572184 seconds time elapsed  

一共164,625,965次L1 cache miss, 再看看慢的程序 
Shell代码   收藏代码
  1. $ perf stat -e L1-dcache-load-misses java L1CacheMiss   
  2. starting....  
  3. duration = 21095062165  
  4.   
  5.  Performance counter stats for 'java L1CacheMiss':  
  6.   
  7.      1,421,402,322 L1-dcache-load-misses                                         
  8.   
  9.       32.894789436 seconds time elapsed  

这回产生了1,421,402,322次 L1-dcache-load-misses, 所以慢多了. 

以上我只是示例了在L1 Cache满了之后才会发生的cache miss. 其实cache miss的原因有下面三种: 
1. 第一次访问数据, 在cache中根本不存在这条数据, 所以cache miss, 可以通过prefetch解决. 
2. cache冲突, 需要通过补齐来解决. 
3. 就是我示例的这种, cache满, 一般情况下我们需要减少操作的数据大小, 尽量按数据的物理顺序访问数据. 
具体的信息可以参考 这篇 论文. 
目录
相关文章
|
3月前
|
存储 缓存 芯片
让星星⭐月亮告诉你,当我们在说CPU一级缓存二级缓存三级缓存的时候,我们到底在说什么?
本文介绍了CPU缓存的基本概念和作用,以及不同级别的缓存(L1、L2、L3)的特点和工作原理。CPU缓存是CPU内部的存储器,用于存储RAM中的数据和指令副本,以提高数据访问速度,减少CPU与RAM之间的速度差异。L1缓存位于处理器内部,速度最快;L2缓存容量更大,但速度稍慢;L3缓存容量最大,由所有CPU内核共享。文章还对比了DRAM和SRAM两种内存类型,解释了它们在计算机系统中的应用。
128 1
|
3月前
|
缓存 JavaScript 前端开发
Java 如何确保 JS 不被缓存
【10月更文挑战第19天】在 Java 中,可以通过设置 HTTP 响应头来确保 JavaScript 文件不被浏览器缓存。方法包括:1. 使用 Servlet 设置响应头,通过 `doGet` 方法设置 `Expires`、`Cache-Control` 和 `Pragma` 头;2. 在 Spring Boot 中配置拦截器,通过 `NoCacheInterceptor` 类和 `WebConfig` 配置类实现相同功能。这两种方法都能确保每次请求都能获取到最新的 JavaScript 内容。
|
5月前
|
存储 缓存 NoSQL
【Azure Redis 缓存】关于Azure Cache for Redis 服务在传输和存储键值对(Key/Value)的加密问题
【Azure Redis 缓存】关于Azure Cache for Redis 服务在传输和存储键值对(Key/Value)的加密问题
|
1月前
|
Java 对象存储 开发者
如何找出Java进程占用CPU高的元凶
本文记录了一次Java进程CPU占用率过高的问题和排查思路。
|
2月前
|
存储 缓存 算法
面试官:单核 CPU 支持 Java 多线程吗?为什么?被问懵了!
本文介绍了多线程环境下的几个关键概念,包括时间片、超线程、上下文切换及其影响因素,以及线程调度的两种方式——抢占式调度和协同式调度。文章还讨论了减少上下文切换次数以提高多线程程序效率的方法,如无锁并发编程、使用CAS算法等,并提出了合理的线程数量配置策略,以平衡CPU利用率和线程切换开销。
面试官:单核 CPU 支持 Java 多线程吗?为什么?被问懵了!
|
18天前
|
存储 缓存 前端开发
JavaEE初阶——初识EE(Java诞生背景,CPU详解)
带你从零入门JAVAEE初阶,Java的发展历程认识什么是cpu,cpu的工作原理,cpu是如何进行计算的,cpu的架构,指令集,cpu的核心,如何提升cpu的算力,cpu的指令,,cup的缓存,cpu的流水线
|
3月前
|
Java
Java面试题之cpu占用率100%,进行定位和解决
这篇文章介绍了如何定位和解决Java服务中CPU占用率过高的问题,包括使用top命令找到高CPU占用的进程和线程,以及使用jstack工具获取堆栈信息来确定问题代码位置的步骤。
187 0
Java面试题之cpu占用率100%,进行定位和解决
|
3月前
|
缓存 JavaScript 前端开发
Java 如何确保 JS 不被缓存
大家好,我是 V 哥。本文探讨了 Java 后端确保 JavaScript 不被缓存的问题,分析了文件更新后无法生效、前后端不一致、影响调试与开发及安全问题等场景,并提供了使用版本号、设置 HTTP 响应头、配置静态资源缓存策略和使用 ETag 等解决方案。最后讨论了缓存的合理使用及其平衡方法。
113 0
|
5月前
|
小程序 JavaScript Java
【Java】服务CPU占用率100%,教你用jstack排查定位
本文详细讲解如何使用jstack排查定位CPU高占用问题。首先介绍jstack的基本概念:它是诊断Java应用程序线程问题的工具,能生成线程堆栈快照,帮助找出程序中的瓶颈。接着,文章通过具体步骤演示如何使用`top`命令找到高CPU占用的Java进程及线程,再结合`jstack`命令获取堆栈信息并进行分析,最终定位问题代码。
488 1
【Java】服务CPU占用率100%,教你用jstack排查定位
消息中间件 缓存 监控
177 0