Linux芯片级移植与底层驱动(基于3.7.4内核) --SMP多核启动以及CPU热插拔驱动

简介:

宋宝华 Barry Song <21cnbao@gmail.com>

新浪微博: @宋宝华Barry

Linux系统中,对于多核的ARM芯片而言,Bootrom代码中,CPU0会率先起来,引导BootloaderLinux内核执行,而其他的核则在上电时Bootrom一般将自身置于WFI或者WFE状态,并等待CPU0给其发CPU核间中断(IPI)或事件(一般透过SEV指令)唤醒之。一个典型的启动过程如下图:

 

CPU0唤醒的CPUn可以在运行过程中进行热插拔。譬如运行如下命令即可卸载CPU1并且将CPU1上的任务全部迁移到其他CPU

# echo 0 > /sys/devices/system/cpu/cpu1/online

同样地,运行如下命令可以再次启动CPU1:

# echo 1 > /sys/devices/system/cpu/cpu1/online

之后CPU1会主动参与系统中各个CPU之间要运行任务的负载均衡工作。

CPU0唤醒其他 CPU的动作在内核中被封装为一个smp_operations的结构体,该结构体的成员如下:

  83struct smp_operations {

  84#ifdef CONFIG_SMP

  85        /*

  86         * Setup the set of possible CPUs (via set_cpu_possible)

  87         */

  88        void (*smp_init_cpus)(void);

  89        /*

  90         * Initialize cpu_possible map, and enable coherency

  91         */

  92        void (*smp_prepare_cpus)(unsigned int max_cpus);

  93

  94        /*

  95         * Perform platform specific initialisation of the specified CPU.

  96         */

  97        void (*smp_secondary_init)(unsigned int cpu);

  98        /*

  99         * Boot a secondary CPU, and assign it the specified idle task.

 100         * This also gives us the initial stack to use for this CPU.

 101         */

 102        int  (*smp_boot_secondary)(unsigned int cpu, struct task_struct *idle);

 103#ifdef CONFIG_HOTPLUG_CPU

 104        int  (*cpu_kill)(unsigned int cpu);

 105        void (*cpu_die)(unsigned int cpu);

 106        int  (*cpu_disable)(unsigned int cpu);

 107#endif

 108#endif

 109};

      我们从arch/arm/mach-vexpress/v2m.c看到VEXPRESS电路板用到的smp_opsvexpress_smp_ops

666DT_MACHINE_START(VEXPRESS_DT, "ARM-Versatile Express")

 667        .dt_compat      = v2m_dt_match,

 668        .smp            = smp_ops(vexpress_smp_ops),

 669        .map_io         = v2m_dt_map_io,

 670        .init_early     = v2m_dt_init_early,

 671        .init_irq       = v2m_dt_init_irq,

 672        .timer          = &v2m_dt_timer,

 673        .init_machine   = v2m_dt_init,

 674        .handle_irq     = gic_handle_irq,

 675        .restart        = v2m_restart,

 676MACHINE_END

透过arch/arm/mach-vexpress/platsmp.c的实现代码可以看出,smp_operations的成员函数smp_init_cpus() vexpress_smp_init_cpus()会探测SoCCPU核的个数,并设置了核间通信的方式为gic_raise_softirq()。可见于vexpress_smp_init_cpus()中调用的vexpress_dt_smp_init_cpus()

103static void __init vexpress_dt_smp_init_cpus(void)

 104{

 

128        for (i = 0; i < ncores; ++i)

 129                set_cpu_possible(i, true);

 130

 131        set_smp_cross_call(gic_raise_softirq);

 132}

smp_operations的成员函数smp_prepare_cpus()vexpress_smp_prepare_cpus()则会透过v2m_flags_set(virt_to_phys(versatile_secondary_startup))设置其他CPU的启动地址为versatile_secondary_startup

179static void __init vexpress_smp_prepare_cpus(unsigned int max_cpus)

 180{

 181        

 189

 190        /*

 191         * Write the address of secondary startup into the

 192         * system-wide flags register. The boot monitor waits

 193         * until it receives a soft interrupt, and then the

 194         * secondary CPU branches to this address.

 195         */

 196        v2m_flags_set(virt_to_phys(versatile_secondary_startup));

 197}

注意这部分的具体实现方法是SoC相关的,由芯片的设计以及芯片内部的Bootrom决定。对于VEXPRESS来讲,设置方法如下:

139void __init v2m_flags_set(u32 data)

 140{

 141        writel(~0, v2m_sysreg_base + V2M_SYS_FLAGSCLR);

 142        writel(data, v2m_sysreg_base + V2M_SYS_FLAGSSET);

 143}

即填充v2m_sysreg_base + V2M_SYS_FLAGSCLR地址为0xFFFFFFFF,将其他CPU初始启动执行的指令地址填入v2m_sysreg_base + V2M_SYS_FLAGSSET。这2个地址属于芯片实现时候设定的。填入的CPUn的起始地址都透过virt_to_phys()转化为物理地址,因为此时CPUnMMU尚未开启。

比较关键的是smp_operations的成员函数smp_boot_secondary(),它完成最终的CPUn的唤醒工作:

  27static void __cpuinit write_pen_release(int val)

  28{

  29        pen_release = val;

  30        smp_wmb();

  31        __cpuc_flush_dcache_area((void *)&pen_release, sizeof(pen_release));

  32        outer_clean_range(__pa(&pen_release), __pa(&pen_release + 1));

  33}

 

  59int __cpuinit versatile_boot_secondary(unsigned int cpu, struct task_struct *idle)

  60{

  61        unsigned long timeout;

  62

  63        /*

  64         * Set synchronisation state between this boot processor

  65         * and the secondary one

  66         */

  67        spin_lock(&boot_lock);

  68

  69        /*

  70         * This is really belt and braces; we hold unintended secondary

  71         * CPUs in the holding pen until we're ready for them.  However,

  72         * since we haven't sent them a soft interrupt, they shouldn't

  73         * be there.

  74         */

  75        write_pen_release(cpu_logical_map(cpu));

  76

  77        /*

  78         * Send the secondary CPU a soft interrupt, thereby causing

  79         * the boot monitor to read the system wide flags register,

  80         * and branch to the address found there.

  81         */

  82        gic_raise_softirq(cpumask_of(cpu), 0);

  83

  84        timeout = jiffies + (1 * HZ);

  85        while (time_before(jiffies, timeout)) {

  86                smp_rmb();

  87                if (pen_release == -1)

  88                        break;

  89

  90                udelay(10);

  91        }

  92

  93        /*

  94         * now the secondary core is starting up let it run its

  95         * calibrations, then wait for it to finish

  96         */

  97        spin_unlock(&boot_lock);

  98

  99        return pen_release != -1 ? -ENOSYS : 0;

 100}

上述代码中高亮的部分首先会将pen_release变量设置为要唤醒的CPU核的CPUcpu_logical_map(cpu),而后透过gic_raise_softirq(cpumask_of(cpu), 0)CPUcpu发起0IPI,这个时候,CPUcpu核会从前面smp_operations中的smp_prepare_cpus()成员函数即vexpress_smp_prepare_cpus()透过v2m_flags_set()设置的其他CPU核的起始地址versatile_secondary_startup开始执行,如果顺利的话,该CPU会将原先为正数的pen_release写为-1,以便CPU0从等待pen_release成为-1的循环中跳出。

versatile_secondary_startup实现于arch/arm/plat-versatile/headsmp.S,是一段汇编:

  21ENTRY(versatile_secondary_startup)

  22        mrc     p15, 0, r0, c0, c0, 5

  23        and     r0, r0, #15

  24        adr     r4, 1f

  25        ldmia   r4, {r5, r6}

  26        sub     r4, r4, r5

  27        add     r6, r6, r4

  28pen:    ldr     r7, [r6]

  29        cmp     r7, r0

  30        bne     pen

  31

  32        /*

  33         * we've been released from the holding pen: secondary_stack

  34         * should now contain the SVC stack for this core

  35         */

  36        b       secondary_startup

  37

  38        .align

  391:      .long   .

  40        .long   pen_release

  41ENDPROC(versatile_secondary_startup)

1段高亮的部分实际上是等待pen_release成为CPU0设置的cpu_logical_map(cpu),一般直接就成立了。第2段高亮的部分则调用到内核通用的secondary_startup()函数,经过一系列的初始化如MMU等,最终新的被唤醒的CPU将调用到smp_operationssmp_secondary_init()成员函数,对于本例为versatile_secondary_init()

  37void __cpuinit versatile_secondary_init(unsigned int cpu)

  38{

  39        /*

  40         * if any interrupts are already enabled for the primary

  41         * core (e.g. timer irq), then they will not have been enabled

  42         * for us: do so

  43         */

  44        gic_secondary_init(0);

  45

  46        /*

  47         * let the primary processor know we're out of the

  48         * pen, then head off into the C entry point

  49         */

  50        write_pen_release(-1);

  51

  52        /*

  53         * Synchronise with the boot thread.

  54         */

  55        spin_lock(&boot_lock);

  56        spin_unlock(&boot_lock);

  57}

上述代码中高亮的那1行会将pen_release写为-1,于是CPU0还在执行的 versatile_boot_secondary()函数中的如下循环就退出了:

  85        while (time_before(jiffies, timeout)) {

  86                smp_rmb();

  87                if (pen_release == -1)

  88                        break;

  89

  90                udelay(10);

  91        }

此后CPU0和新唤醒的其他CPU各自狂奔。整个系统在运行过程中会进行实时进程和正常进程的动态负载均衡。

CPU hotplug的实现也是芯片相关的,对于VEXPRESS而言,实现了smp_operationscpu_die()成员函数即vexpress_cpu_die()。它会在进行CPUn的拔除操作时将CPUn投入低功耗的WFI状态,相关代码位于arch/arm/mach-vexpress/hotplug.c

  90void __ref vexpress_cpu_die(unsigned int cpu)

  91{

  92        int spurious = 0;

  93

  94        /*

  95         * we're ready for shutdown now, so do it

  96         */

  97        cpu_enter_lowpower();

  98        platform_do_lowpower(cpu, &spurious);

  99

 100        /*

 101         * bring this CPU back into the world of cache

 102         * coherency, and then restore interrupts

 103         */

 104        cpu_leave_lowpower();

 105

 106        if (spurious)

 107                pr_warn("CPU%u: %u spurious wakeup calls\n", cpu, spurious);

 108}

  57static inline void platform_do_lowpower(unsigned int cpu, int *spurious)

  58{

  59        /*

  60         * there is no power-control hardware on this platform, so all

  61         * we can do is put the core into WFI; this is safe as the calling

  62         * code will have already disabled interrupts

  63         */

  64        for (;;) {

  65                wfi();

  66

  67                if (pen_release == cpu_logical_map(cpu)) {

  68                        /*

  69                         * OK, proper wakeup, we're done

  70                         */

  71                        break;

  72                }

  73

  74                /*

  75                 * Getting here, means that we have come out of WFI without

  76                 * having been woken up - this shouldn't happen

  77                 *

  78                 * Just note it happening - when we're woken, we can report

  79                 * its occurrence.

  80                 */

  81                (*spurious)++;

  82        }

  83}

CPUn睡眠于wfi(),之后再次online的时候,又会因为CPU0给它发出的IPI而从wfi()函数返回继续执行,醒来时CPUn也判决了是否pen_release == cpu_logical_map(cpu)成立,以确定该次醒来确确实实是由CPU0唤醒的一次正常醒来。



 本文转自 21cnbao 51CTO博客,原文链接:http://blog.51cto.com/21cnbao/1143518,如需转载请自行联系原作者


相关文章
|
26天前
|
算法 Linux
深入探索Linux内核的内存管理机制
本文旨在为读者提供对Linux操作系统内核中内存管理机制的深入理解。通过探讨Linux内核如何高效地分配、回收和优化内存资源,我们揭示了这一复杂系统背后的原理及其对系统性能的影响。不同于常规的摘要,本文将直接进入主题,不包含背景信息或研究目的等标准部分,而是专注于技术细节和实际操作。
|
26天前
|
存储 缓存 网络协议
Linux操作系统的内核优化与性能调优####
本文深入探讨了Linux操作系统内核的优化策略与性能调优方法,旨在为系统管理员和高级用户提供一套实用的指南。通过分析内核参数调整、文件系统选择、内存管理及网络配置等关键方面,本文揭示了如何有效提升Linux系统的稳定性和运行效率。不同于常规摘要仅概述内容的做法,本摘要直接指出文章的核心价值——提供具体可行的优化措施,助力读者实现系统性能的飞跃。 ####
|
27天前
|
监控 算法 Linux
Linux内核锁机制深度剖析与实践优化####
本文作为一篇技术性文章,深入探讨了Linux操作系统内核中锁机制的工作原理、类型及其在并发控制中的应用,旨在为开发者提供关于如何有效利用这些工具来提升系统性能和稳定性的见解。不同于常规摘要的概述性质,本文将直接通过具体案例分析,展示在不同场景下选择合适的锁策略对于解决竞争条件、死锁问题的重要性,以及如何根据实际需求调整锁的粒度以达到最佳效果,为读者呈现一份实用性强的实践指南。 ####
|
27天前
|
缓存 监控 网络协议
Linux操作系统的内核优化与实践####
本文旨在探讨Linux操作系统内核的优化策略与实际应用案例,深入分析内核参数调优、编译选项配置及实时性能监控的方法。通过具体实例讲解如何根据不同应用场景调整内核设置,以提升系统性能和稳定性,为系统管理员和技术爱好者提供实用的优化指南。 ####
|
29天前
|
负载均衡 算法 Linux
深入探索Linux内核调度机制:公平与效率的平衡####
本文旨在剖析Linux操作系统内核中的进程调度机制,特别是其如何通过CFS(完全公平调度器)算法实现多任务环境下资源分配的公平性与系统响应速度之间的微妙平衡。不同于传统摘要的概览性质,本文摘要将直接聚焦于CFS的核心原理、设计目标及面临的挑战,为读者揭开Linux高效调度的秘密。 ####
36 3
|
1月前
|
存储 缓存 监控
Docker容器性能调优的关键技巧,涵盖CPU、内存、网络及磁盘I/O的优化策略,结合实战案例,旨在帮助读者有效提升Docker容器的性能与稳定性。
本文介绍了Docker容器性能调优的关键技巧,涵盖CPU、内存、网络及磁盘I/O的优化策略,结合实战案例,旨在帮助读者有效提升Docker容器的性能与稳定性。
94 7
|
2月前
|
弹性计算 Kubernetes Perl
k8s 设置pod 的cpu 和内存
在 Kubernetes (k8s) 中,设置 Pod 的 CPU 和内存资源限制和请求是非常重要的,因为这有助于确保集群资源的合理分配和有效利用。你可以通过定义 Pod 的 `resources` 字段来设置这些限制。 以下是一个示例 YAML 文件,展示了如何为一个 Pod 设置 CPU 和内存资源请求(requests)和限制(limits): ```yaml apiVersion: v1 kind: Pod metadata: name: example-pod spec: containers: - name: example-container image:
261 1
|
2月前
|
存储 关系型数据库 MySQL
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
870 2
|
4月前
|
存储 关系型数据库 MySQL
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
219 5
|
3月前
|
C# 开发工具 Windows
C# 获取Windows系统信息以及CPU、内存和磁盘使用情况
C# 获取Windows系统信息以及CPU、内存和磁盘使用情况
80 0