Linux内核27-优化和内存屏障

简介: Linux内核27-优化和内存屏障

1. 引言


我们都知道,带有优化的编译器,会尝试重新排序汇编指令,以提高程序的执行速度。但是,当在处理同步问题的时候,重新排序的指令应该被避免。因为重新排序可能会打乱我们之前想要的同步效果。其实,所有的同步原语都可以充当优化和内存屏障。

优化屏障保证屏障原语前后的C语言转换成汇编语言之后,指令序列不会发生变化。比如说,对于Linux内核的barrier()宏,展开后就是asm volatile("":::"memory"),就是一个优化屏障。asm告知编译器插入一条汇编指令,volatile关键字禁止编译器用程序的其它指令重新洗牌asm指令。memory关键字强迫编译器假设RAM中所有的位置都被汇编指令更改了;因此,编译器不会使用CPU寄存器中的值优化asm指令之前的代码。我们需要注意的是优化屏障不能保证汇编指令的执行不会乱序,这是由内存屏障保障的。

内存屏障确保屏障原语前的指令完成后,才会启动原语之后的指令操作。


2. 架构相关的内存屏障实现


X86系统中,下面这些汇编指令都是串行的,可以充当内存屏障:

  • 所有操作I/O端口的指令;
  • 前缀lock的指令;
  • 所有写控制寄存器,系统寄存器或debug寄存器的指令(比如,clisti指令,可以改变eflags寄存器的IF标志);
  • lfencesfencemfence汇编指令,分别用来实现读内存屏障、写内存屏障和读/写内存屏障;
  • 特殊的汇编指令,比如iret指令,可以终止中断或异常处理程序。

ARM系统中,使用ldrexstrex汇编指令实现内存屏障。


3. Linux内核使用的内存屏障原语


Linux内核中使用的内存屏障原语如下,如表5-6所示。当然了,这些原语完全可以作为优化屏障,阻止编译器优化该屏障前后的汇编指令。读内存屏障只对内存的读操作指令有效;写内存屏障只对内存的写操作指令有效。smp_xxx()之类的内存屏障只对发生在多核系统里的竞态条件有效,单核系统中,什么也没有做。其它的内存屏障对多核系统和单核系统都有效。

表5-6 Linux内存屏障

macro 描述
mb() MP和UP的内存屏障
rmb() MP和UP的读内存屏障
wmb() MP和UP的写内存屏障
smp_mb() MP内存屏障
smp_rmb() MP读内存屏障
smp_wmb() MP写内存屏障

内存屏障的实现跟系统架构息息相关。在X86系统上,如果支持lfence汇编指令,则rmb()实现为:

asm volatile("lfence":::"memory")

如不支持lfence汇编指令,则rmb()实现为:

asm volatile("lock;addl $0,0(%%esp)":::"memory")

asm volatile的作用之前的文章已经介绍过,不再赘述。lock;addl $0,0(%%esp)":::"memory"的意思是,对栈顶保存的内存地址内的内容加上0,所以这条命令本身没有意义,主要还是lock前缀,对数据总线加锁,从而使该条指令对CPU而言,称为内存屏障。

wmb()的实现事实上非常简单,就是barrier()的宏声明。这是因为,现有的Intel处理器不会对写内存访问进行重新排序,所以无法插入特定的内存屏障指令。但是,该宏还是会禁止编译器打乱指令。

值得注意的是多核处理器中,所有的原子操作指令都会前缀lock,所以都可以充当内存屏障。


4. 总结


内存屏障主要解决的还是硬件数据总线上对于指令的读取可能会发生乱序问题。所以,内存屏障的使用场合就是对系统进行设置或者配置时,因为这些设置关系到后面的程序能否正确工作,所以需要内存屏障,保证程序运行之前,系统的配置已经生效。

相关文章
|
1月前
|
机器学习/深度学习 算法 PyTorch
125_训练加速:FlashAttention集成 - 推导注意力优化的独特内存节省
2025年,大型语言模型的训练面临着前所未有的挑战。随着模型参数量和序列长度的不断增加,传统注意力机制的内存瓶颈问题日益突出。FlashAttention作为一种突破性的注意力算法,通过创新的内存访问模式和计算优化,显著提升了训练效率和内存利用。
|
1月前
|
存储 机器学习/深度学习 PyTorch
119_LLM训练的高效内存管理与优化技术:从ZeRO到Flash Attention
大型语言模型(LLM)的训练面临着前所未有的计算和内存挑战。随着模型规模达到数百亿甚至数千亿参数,高效的内存管理成为训练成功的关键因素之一。2025年,LLM训练的内存优化技术已经取得了显著进展,从ZeRO优化器到Flash Attention等创新技术,为训练超大规模模型提供了可能。
|
3月前
|
安全 网络协议 Linux
深入理解Linux内核模块:加载机制、参数传递与实战开发
本文深入解析了Linux内核模块的加载机制、参数传递方式及实战开发技巧。内容涵盖模块基础概念、加载与卸载流程、生命周期管理、参数配置方法,并通过“Hello World”模块和字符设备驱动实例,带领读者逐步掌握模块开发技能。同时,介绍了调试手段、常见问题排查、开发规范及高级特性,如内核线程、模块间通信与性能优化策略。适合希望深入理解Linux内核机制、提升系统编程能力的技术人员阅读与实践。
400 1
|
3月前
|
Ubuntu Linux
Ubuntu 23.04 用上 Linux 6.2 内核,预计下放到 22.04 LTS 版本
Linux 6.2 带来了多项内容更新,修复了 AMD 锐龙处理器设备在启用 fTPM 后的运行卡顿问题,还增强了文件系统。
|
3月前
|
Ubuntu Linux
Ubuntu 23.10 现在由Linux内核6.3提供支持
如果你想在你的个人电脑上测试一下Ubuntu 23.10的最新开发快照,你可以从官方下载服务器下载最新的每日构建ISO。然而,请记住,这是一个预发布版本,所以不要在生产机器上使用或安装它。
|
3月前
|
传感器 监控 Ubuntu
10 月发布,Ubuntu 23.10 已升级到 Linux Kernel 6.3 内核
硬件方面,Linux 6.3 引入了在 HID 中引入了原生的 Steam Deck 控制器接口,允许罗技 G923 Xbox 版赛车方向盘在 Linux 上运行;改善 8BitDo Pro 2 有线控制器的行为;并为一系列华硕 Ryzen 主板添加传感器监控。
|
3月前
|
Ubuntu Linux
Ubuntu24.04LTS默认采用Linux 6.8内核,实验性版本可通过PPA获得
IT之家提醒,当下的 Ubuntu 23.10 也是一个“短期支持版本”,该版本将在今年 7 月终止支持,而今年 4 月推出的 Ubuntu 24.04 LTS 长期支持版本将获得 5 年的更新支持。
|
2月前
|
缓存 监控 Linux
Linux内存问题排查命令详解
Linux服务器卡顿?可能是内存问题。掌握free、vmstat、sar三大命令,快速排查内存使用情况。free查看实时内存,vmstat诊断系统整体性能瓶颈,sar实现长期监控,三者结合,高效定位并解决内存问题。
244 0
Linux内存问题排查命令详解
|
3月前
|
监控 Ubuntu Linux
什么Linux,Linux内核及Linux操作系统
上面只是简单的介绍了一下Linux操作系统的几个核心组件,其实Linux的整体架构要复杂的多。单纯从Linux内核的角度,它要管理CPU、内存、网卡、硬盘和输入输出等设备,因此内核本身分为进程调度,内存管理,虚拟文件系统,网络接口等4个核心子系统。
293 0

热门文章

最新文章