Linux内核工作队列探秘

简介: 工作队列的节能特性最早由3.11内核引入,此后,50多个子系统和设备驱动开始使用它。而节能工作队列则被广泛用于手持设备(如平板电脑,智能手机)。ARM平台上,在Android系统中使用节能工作队列,可以显著降低能源消耗。

工作队列的节能特性最早由3.11内核引入,此后,50多个子系统和设备驱动开始使用它。而节能工作队列则被广泛用于手持设备(如平板电脑,智能手机)。ARM平台上,在Android系统中使用节能工作队列,可以显著降低能源消耗。


在Linux kernel中,工作队列是常见的延后执行机制,经常出现在异步执行上下文中。上下文由内核工作线程提供,当有任务被放入队列(入队操作)时,工作线程将会被唤醒。内核实现时,工作队列由strut workqueue_struct表示,而任务由strut work_struct表示。work_struct中包含一个回调函数,该函数将会被工作线程调用,以表示任务被执行。一旦工作队列上的所有任务执行完毕,工作线程又继续睡眠。


下面是工作队列相关的常见API:

bool queue_work(...); bool queue_work_on(...); bool queue_delayed_work(...); bool queue_delayed_work_on(...);


queue_work_on()和queue_delayed_work_on()指定了任务由哪个cpu上的工作线程执行,另两个函数允许任务运行在任意cpu上。对于前两个函数,任务将会被立即执行;而对于后两个函数,任务需要等待一段时间才会被执行。


绑定工作队列的缺陷

在内核中,一种常见的使用工作队列的场景是处理周期性的工作:不断重复执行队列任务,并由回调函数重新将任务放入队列。下面是一段演示程序:

static void foohandler(struct work_struct *work)
{
    struct delayed_work *dwork = to_delayed_work(work);
    /* Do some work here */
    queue_delayed_work(system_wq,dwork,10);
}
voidfoo_init(void)
{
    struct delayed_work *dwork = kmalloc(sizeof(*dwork), GFP_KERNEL);
    INIT_DEFERRABLE_WORK(dwork,foo_handler);
    queue_delayed_work(system_wq,dwork,10);
}


读者可能会认为,任务将会被任意cpu执行(由调度器选出一个最合适的cpu)。遗憾的是,这不完全正确。工作队列机制倾向于将任务放入local cpu(即,执行queue_delayed_work()的那个cpu),除非local cpu被wq_unbound_cpumask屏蔽了。举个例子,在8核平台上,上面演示程序中的回调函数总是在一个cpu上执行,尽管该cpu处于idle状态且存在其它cpu处于运行状态。


wq_unbound_cpumask表示可以执行“工作队列任务”的cpu集合,注意,只有当该任务没有通过API(xxx_work_on())指定到某个特定的cpu时,该掩码才生效。该掩码可以通过 /sys/devices/virtual/workqueue/cpumask设置。


从节能的角度看,一个正在执行正常程序的cpu被中断,然后执行工作队列任务,这是可接受的。反之,如果唤醒一个处于idle状态的cpu,然后仅仅更新时钟和将任务放入队列,这将消耗更多能源。cpu绑定有时并不能带来好的性能,因为被绑定的cpu并不一定是调度器认为的负载最轻的cpu,此时调度器不能进行负载均衡。


工作队列的节能特性

默认情况下,工作队列的节能特性是关闭的。使能该特性有两种方式:

  1. 内核启动参数 workqueue.power_efficient=true
  2. 编译内核时打开开关 CONFIGWQPOWER_EFFICIENT = y


一旦使能节能模式,我们就可以在调用 alloc_workqueue() 时传入WQ_POWER_EFFICIENT标志,建立节能工作队列。内核中还维护了两个全局的节能工作队列:system_power_efficient_wq 和 system_freezable_power_efficient_wq,当用户不想建立自己私有的队列时,可以使用它们。


不同于之前的local cpu策略,节能模式下,任务入队时,总是由调度器提供一个target cpu,然后将任务放入target cpu上的工作队列。因此,现在任务可以在不同的cpu执行了。


不幸的是,这并不意味着调度器总是选择一个最优的cpu去执行工作队列任务。调度器的调度算法非常复杂,但总体上,它在考虑cache亲和性的基础上,倾向于选择一个负载最轻的cpu。如果,工作队列任务没有被快速执行完,任务还有可能会被调度器迁移到别的cpu上。


节能特性的实现依赖于cpu调度器,但cpu调度器更主要的设计点是性能,其次才在调度策略中加入了能效方面的考虑。因此,当前实现的节能工作队列显然没有采用最优的节能策略,但它在能效方面确实表现得更好了。


很自然的,我们会想到,是否所有的工作队列都应该工作在节能模式下呢?节能工作队列有一个明显的缺点:每次执行任务都在不同的cpu上,cache亲和性被破坏,可能会导致大量cache miss(取决于任务的访存特性),这会显著降低性能。但有的时候,队列任务对cache miss不敏感,调度器的负载均衡操作反而能显著降低队列任务的响应延迟。考虑到上述两方面,在使用节能队列时需要仔认真地评估。


测试数据

在32-bit ARM big.LITTLE平台上运行benchmark,该平台具有4个Cortex A7核和4个Cortex A15核。除了用aplay在后台播放音乐外,整个系统没有其它负载。测试内核采用Linaro公司的ubuntu-devel版本,此外还打了一些调度器补丁。测试结果显示,节能工作队列的能源效率平均提高15.7%。具体数据如下:

                 Vanilla kernel +        Vanilla   Kernel+
                                                 scheduler patches +
                 scheduler patches       power-efficient wq
A15 cluster      0.322866            0.2289042
A7 cluster       2.619137            2.2514632
Total               2.942003            2.4803674

如果使用upstream kernel,节能工作队列将会工作得更好。因为在后续调度其中,越来却多的考虑了能源效率。

—— 完 ——


加入龙蜥社群

加入微信群:添加社区助理-龙蜥社区小龙(微信:openanolis_assis),备注【龙蜥】拉你入群;加入钉钉群:扫描下方钉钉群二维码。欢迎开发者/用户加入龙蜥OpenAnolis社区交流,共同推进龙蜥社区的发展,一起打造一个活跃的、健康的开源操作系统生态!

 1.jpeg               龙蜥助手.jpeg

                    龙蜥社区钉钉交流群                            龙蜥社区-小龙


关于龙蜥社区

龙蜥社区是由企事业单位、高等院校、科研单位、非营利性组织、个人等按照自愿、平等、开源、协作的基础上组成的非盈利性开源社区。龙蜥社区成立于2020年9月,旨在构建一个开源、中立、开放的Linux上游发行版社区及创新平台。

短期目标是开发Anolis OS作为CentOS替代版,重新构建一个兼容国际Linux主流厂商发行版。中长期目标是探索打造一个面向未来的操作系统,建立统一的开源操作系统生态,孵化创新开源项目,繁荣开源生态。

龙蜥OS 8.4已发布,支持x86_64和ARM64架构,完善适配Intel、飞腾、海光、兆芯、鲲鹏芯片。

欢迎下载:https://openanolis.cn/download

加入我们,一起打造面向未来的开源操作系统!

Https://openanolis.cn

相关文章
|
2月前
|
缓存 Linux 开发者
Linux内核中的并发控制机制
本文深入探讨了Linux操作系统中用于管理多线程和进程的并发控制的关键技术,包括原子操作、锁机制、自旋锁、互斥量以及信号量。通过详细分析这些技术的原理和应用,旨在为读者提供一个关于如何有效利用Linux内核提供的并发控制工具以优化系统性能和稳定性的综合视角。
|
2月前
|
缓存 负载均衡 算法
深入探索Linux内核的调度机制
本文旨在揭示Linux操作系统核心的心脏——进程调度机制。我们将从Linux内核的架构出发,深入剖析其调度策略、算法以及它们如何共同作用于系统性能优化和资源管理。不同于常规摘要提供文章概览的方式,本摘要将直接带领读者进入Linux调度机制的世界,通过对其工作原理的解析,展现这一复杂系统的精妙设计与实现。
98 8
|
2月前
|
算法 Linux 调度
深入理解Linux内核调度器:从基础到优化####
本文旨在通过剖析Linux操作系统的心脏——内核调度器,为读者揭开其高效管理CPU资源的神秘面纱。不同于传统的摘要概述,本文将直接以一段精简代码片段作为引子,展示一个简化版的任务调度逻辑,随后逐步深入,详细探讨Linux内核调度器的工作原理、关键数据结构、调度算法演变以及性能调优策略,旨在为开发者与系统管理员提供一份实用的技术指南。 ####
82 4
|
2天前
|
Ubuntu Linux 开发者
Ubuntu20.04搭建嵌入式linux网络加载内核、设备树和根文件系统
使用上述U-Boot命令配置并启动嵌入式设备。如果配置正确,设备将通过TFTP加载内核和设备树,并通过NFS挂载根文件系统。
30 15
|
28天前
|
算法 Linux
深入探索Linux内核的内存管理机制
本文旨在为读者提供对Linux操作系统内核中内存管理机制的深入理解。通过探讨Linux内核如何高效地分配、回收和优化内存资源,我们揭示了这一复杂系统背后的原理及其对系统性能的影响。不同于常规的摘要,本文将直接进入主题,不包含背景信息或研究目的等标准部分,而是专注于技术细节和实际操作。
|
28天前
|
存储 缓存 网络协议
Linux操作系统的内核优化与性能调优####
本文深入探讨了Linux操作系统内核的优化策略与性能调优方法,旨在为系统管理员和高级用户提供一套实用的指南。通过分析内核参数调整、文件系统选择、内存管理及网络配置等关键方面,本文揭示了如何有效提升Linux系统的稳定性和运行效率。不同于常规摘要仅概述内容的做法,本摘要直接指出文章的核心价值——提供具体可行的优化措施,助力读者实现系统性能的飞跃。 ####
|
29天前
|
监控 算法 Linux
Linux内核锁机制深度剖析与实践优化####
本文作为一篇技术性文章,深入探讨了Linux操作系统内核中锁机制的工作原理、类型及其在并发控制中的应用,旨在为开发者提供关于如何有效利用这些工具来提升系统性能和稳定性的见解。不同于常规摘要的概述性质,本文将直接通过具体案例分析,展示在不同场景下选择合适的锁策略对于解决竞争条件、死锁问题的重要性,以及如何根据实际需求调整锁的粒度以达到最佳效果,为读者呈现一份实用性强的实践指南。 ####
|
29天前
|
缓存 监控 网络协议
Linux操作系统的内核优化与实践####
本文旨在探讨Linux操作系统内核的优化策略与实际应用案例,深入分析内核参数调优、编译选项配置及实时性能监控的方法。通过具体实例讲解如何根据不同应用场景调整内核设置,以提升系统性能和稳定性,为系统管理员和技术爱好者提供实用的优化指南。 ####
|
1月前
|
负载均衡 算法 Linux
深入探索Linux内核调度机制:公平与效率的平衡####
本文旨在剖析Linux操作系统内核中的进程调度机制,特别是其如何通过CFS(完全公平调度器)算法实现多任务环境下资源分配的公平性与系统响应速度之间的微妙平衡。不同于传统摘要的概览性质,本文摘要将直接聚焦于CFS的核心原理、设计目标及面临的挑战,为读者揭开Linux高效调度的秘密。 ####
37 3
|
2月前
|
负载均衡 算法 Linux
深入探索Linux内核调度器:公平与效率的平衡####
本文通过剖析Linux内核调度器的工作机制,揭示了其在多任务处理环境中如何实现时间片轮转、优先级调整及完全公平调度算法(CFS),以达到既公平又高效地分配CPU资源的目标。通过对比FIFO和RR等传统调度策略,本文展示了Linux调度器如何在复杂的计算场景下优化性能,为系统设计师和开发者提供了宝贵的设计思路。 ####
43 6