从启动引导程序 bootloader(uboot)跳转到 Linux 内核后,Linux 内核开始启动,今天我们分析一下 Linux 内核启动入口。
跳转过去初始化肯定是在汇编文件中,根据架构可以选择不同的平台,这里看一下链接汇编文件:
linux4.14/arch/arm/kernel/vmlinux.lds.S
这里可以看到链接时候 Linux 入口是 stext 段,这里是启动引导程序跳转过来的第一段Linux 代码:
第一:Linux入口地址
我们先看一下入口地址的确定,同一文件。
SECTIONS { /* * XXX: The linker does not define how output sections are * assigned to input sections when there are multiple statements * matching the same input section name. There is no documented * order of matching. * * unwind exit sections must be discarded before the rest of the * unwind sections get included. */ /DISCARD/ : { *(.ARM.exidx.exit.text) *(.ARM.extab.exit.text) ARM_CPU_DISCARD(*(.ARM.exidx.cpuexit.text)) ARM_CPU_DISCARD(*(.ARM.extab.cpuexit.text)) ARM_EXIT_DISCARD(EXIT_TEXT) ARM_EXIT_DISCARD(EXIT_DATA) EXIT_CALL #ifndef CONFIG_MMU *(.text.fixup) *(__ex_table) #endif #ifndef CONFIG_SMP_ON_UP *(.alt.smp.init) #endif *(.discard) *(.discard.*) } . = PAGE_OFFSET + TEXT_OFFSET; .head.text : { _text = .; HEAD_TEXT }
这个 SECTIONS 比较长,只放一部分。在这里有个比较重要的东西:
. = PAGE_OFFSET + TEXT_OFFSET;
这一句表示了 Linux 系统真正的启动地址。
PAGE_OFFSET 是 Linux 内核空间的虚拟起始地址,定义在:
linux4.14/arch/arm64/include/asm/memory.h
注意,这里的地址都很重要,很多地方会用到。当然,这里的地址可能会随着 Linux 内核版本的不同和硬件的不同,会变化。这里没有一个具体的数,因为 VA_BITS 中的数字是可选的,大家可以根据自己的平台算一下。
TEXT_OFFSET 定义在:
linux4.14/arch/arm/Makefile 中:
这个值一般是 0x00008000 ,算出 PAGE_OFFSET 后加上这个值就是 Linux 内核的起始地址。
修改这个偏移量就可以使Linux内核拷贝到不同的地址,自己修改注意内存对齐。
第二:stext 段
从上面的ENTRY(stext)可以知道,一开始是运行stext段,这个段内的代码是 start_kernel 函数前汇编环境的初始化。
linux4.14/arch/arm64/kernel/head.S
preserve_boot_args 保存 bootloader 传递过来的参数。
el2_setup 是设置 Linux 启动模式是 EL2。Linux 有 EL0、EL1、EL2、EL3 四种异常启动模式,这里设置一开始是 EL2,EL2 支持虚拟内存技术,然后注释说明后面又退回 EL1,在 EL1 启动 kernel。EL3 一般是只在安全模式使用。
set_cpu_boot_mode_flag 保存上面 cpu 的启动模式。
__create_page_tables 创建页表。
__cpu_setup 初始化CPU,这里主要是初始化和 MMU 内存相关的 CPU 部分。
__primary_switch 这里会进行跳转。
在同一个文件中,会跳转到这里,739 行开启了MMU。然后最重要的是跳转到
__primary_switched 函数。先把 __primary_switched 地址放到 x8 寄存器中,再跳转到 x8,也就是跳转到 __primary_switched。
接下来分析 __primary_switched 函数:
324-327 初始化了 init 进程的内存信息,开辟了内存空间。
329-334 设置了向量表。
336-340 保存了FDT,也就是 flat device tree 。
342-348 清除了BSS 段,我们知道一般是内存四区:堆区、栈区、全局区、代码区。其中全局区可以再分为 data 段和 BSS 段,BSS 段存储了未初始化的变量,这里将BSS段进行清零操作,否则内存中的值是不确定的,这是一个传统操作。
367 行跳转到了我们熟悉的 start_kernel,就可以看下面这篇文章:
上次我们写过了 Linux 启动详细流程,这次单独解析 start_kernel 函数。
如下请参考注释:
Linux kernel-6.1/init/main.c
asmlinkage __visible void __init __no_sanitize_address start_kernel(void) { char *command_line; char *after_dashes; set_task_stack_end_magic(&init_task);/*设置任务栈结束魔术数,用于栈溢出检测*/ smp_setup_processor_id();/*跟 SMP 有关(多核处理器),设置处理器 ID*/ debug_objects_early_init();/* 做一些和 debug 有关的初始化 */ init_vmlinux_build_id(); cgroup_init_early();/* cgroup 初始化,cgroup 用于控制 Linux 系统资源*/ local_irq_disable();/* 关闭当前 CPU 中断 */ early_boot_irqs_disabled = true; /* * Interrupts are still disabled. Do necessary setups, then * enable them. * 中断关闭期间做一些重要的操作,然后打开中断 */ boot_cpu_init();/* 跟 CPU 有关的初始化 */ page_address_init();/* 页地址相关的初始化 */ pr_notice("%s", linux_banner);/* 打印 Linux 版本号、编译时间等信息 */ early_security_init(); /* 系统架构相关的初始化,此函数会解析传递进来的 * ATAGS 或者设备树(DTB)文件。会根据设备树里面 * 的 model 和 compatible 这两个属性值来查找 * Linux 是否支持这个单板。此函数也会获取设备树 * 中 chosen 节点下的 bootargs 属性值来得到命令 * 行参数,也就是 uboot 中的 bootargs 环境变量的 * 值,获取到的命令行参数会保存到 command_line 中 */ setup_arch(&command_line); setup_boot_config(); setup_command_line(command_line);/* 存储命令行参数 */ /* 如果只是 SMP(多核 CPU)的话,此函数用于获取 * CPU 核心数量,CPU 数量保存在变量 nr_cpu_ids 中。 */ setup_nr_cpu_ids(); setup_per_cpu_areas();/* 在 SMP 系统中有用,设置每个 CPU 的 per-cpu 数据 */ smp_prepare_boot_cpu(); /* arch-specific boot-cpu hooks */ boot_cpu_hotplug_init(); build_all_zonelists(NULL);/* 建立系统内存页区(zone)链表 */ page_alloc_init();/* 处理用于热插拔 CPU 的页 */ /* 打印命令行信息 */ pr_notice("Kernel command line: %s\n", saved_command_line); /* parameters may set static keys */ jump_label_init(); parse_early_param();/* 解析命令行中的 console 参数 */ after_dashes = parse_args("Booting kernel", static_command_line, __start___param, __stop___param - __start___param, -1, -1, NULL, &unknown_bootoption); print_unknown_bootoptions(); if (!IS_ERR_OR_NULL(after_dashes)) parse_args("Setting init args", after_dashes, NULL, 0, -1, -1, NULL, set_init_arg); if (extra_init_args) parse_args("Setting extra init args", extra_init_args, NULL, 0, -1, -1, NULL, set_init_arg); /* Architectural and non-timekeeping rng init, before allocator init */ random_init_early(command_line); /* * These use large bootmem allocations and must precede * kmem_cache_init() */ setup_log_buf(0);/* 设置 log 使用的缓冲区*/ vfs_caches_init_early(); /* 预先初始化 vfs(虚拟文件系统)的目录项和索引节点缓存*/ sort_main_extable();/* 定义内核异常列表 */ trap_init();/* 完成对系统保留中断向量的初始化 */ mm_init();/* 内存管理初始化 */ ftrace_init(); /* trace_printk can be enabled here */ early_trace_init(); /* * Set up the scheduler prior starting any interrupts (such as the * timer interrupt). Full topology setup happens at smp_init() * time - but meanwhile we still have a functioning scheduler. */ sched_init();/* 初始化调度器,主要是初始化一些结构体 */ if (WARN(!irqs_disabled(), "Interrupts were enabled *very* early, fixing it\n")) local_irq_disable();/* 检查中断是否关闭,如果没有的话就关闭中断 */ radix_tree_init();/* 基数树相关数据结构初始化 */ maple_tree_init(); /* * Set up housekeeping before setting up workqueues to allow the unbound * workqueue to take non-housekeeping into account. */ housekeeping_init(); /* * Allow workqueue creation and work item queueing/cancelling * early. Work item execution depends on kthreads and starts after * workqueue_init(). */ workqueue_init_early(); rcu_init();/* 初始化 RCU,RCU 全称为 Read Copy Update(读-拷贝修改) */ /* Trace events are available after this */ trace_init();/* 跟踪调试相关初始化 */ if (initcall_debug) initcall_debug_enable(); context_tracking_init(); /* init some links before init_ISA_irqs() */ /* 初始中断相关初始化,主要是注册 irq_desc 结构体变 * 量,因为 Linux 内核使用 irq_desc 来描述一个中断。 */ early_irq_init(); init_IRQ();/* 中断初始化 */ tick_init();/* tick 初始化 */ rcu_init_nohz(); init_timers();/* 初始化定时器 */ srcu_init(); hrtimers_init();/* 初始化高精度定时器 */ softirq_init();/* 软中断初始化 */ timekeeping_init(); time_init();/* 初始化系统时间 */ /* This must be after timekeeping is initialized */ random_init(); /* These make use of the fully initialized rng */ kfence_init(); boot_init_stack_canary(); perf_event_init(); profile_init(); call_function_init(); WARN(!irqs_disabled(), "Interrupts were enabled early\n"); early_boot_irqs_disabled = false; local_irq_enable();/* 使能中断 */ kmem_cache_init_late();/* slab 初始化,slab 是 Linux 内存分配器 */ /* * HACK ALERT! This is early. We're enabling the console before * we've done PCI setups etc, and console_init() must be aware of * this. But we do want output early, in case something goes wrong. */ /* 初始化控制台,之前 printk 打印的信息都存放 * 缓冲区中,并没有打印出来。只有调用此函数 * 初始化控制台以后才能在控制台上打印信息。 */ console_init(); if (panic_later) panic("Too many boot %s vars at `%s'", panic_later, panic_param); lockdep_init(); /* * Need to run this when irqs are enabled, because it wants * to self-test [hard/soft]-irqs on/off lock inversion bugs * too: */ locking_selftest();/* 锁自测 */ /* * This needs to be called before any devices perform DMA * operations that might use the SWIOTLB bounce buffers. It will * mark the bounce buffers as decrypted so that their usage will * not cause "plain-text" data to be decrypted when accessed. */ mem_encrypt_init(); #ifdef CONFIG_BLK_DEV_INITRD if (initrd_start && !initrd_below_start_ok && page_to_pfn(virt_to_page((void *)initrd_start)) < min_low_pfn) { pr_crit("initrd overwritten (0x%08lx < 0x%08lx) - disabling it.\n", page_to_pfn(virt_to_page((void *)initrd_start)), min_low_pfn); initrd_start = 0; } #endif setup_per_cpu_pageset(); numa_policy_init(); acpi_early_init(); if (late_time_init) late_time_init(); sched_clock_init(); /* 测定 BogoMIPS 值,可以通过 BogoMIPS 来判断 CPU 的性能 * BogoMIPS 设置越大,说明 CPU 性能越好。 */ calibrate_delay(); pid_idr_init(); anon_vma_init();/* 生成 anon_vma slab 缓存 */ #ifdef CONFIG_X86 if (efi_enabled(EFI_RUNTIME_SERVICES)) efi_enter_virtual_mode(); #endif thread_stack_cache_init(); cred_init();/* 为对象的每个用于赋予资格(凭证) */ fork_init();/* 初始化一些结构体以使用 fork 函数 */ proc_caches_init();/* 给各种资源管理结构分配缓存 */ uts_ns_init(); key_init();/* 初始化密钥 */ security_init();/* 安全相关初始化 */ dbg_late_init(); net_ns_init(); vfs_caches_init();/* 虚拟文件系统缓存初始化 */ pagecache_init(); signals_init();/* 初始化信号 */ seq_file_init(); proc_root_init();/* 注册并挂载 proc 文件系统 */ nsfs_init(); /* 初始化 cpuset,cpuset 是将 CPU 和内存资源以逻辑性 * 和层次性集成的一种机制,是 cgroup 使用的子系统之一 */ cpuset_init(); cgroup_init();/* 初始化 cgroup */ taskstats_init_early();/* 进程状态初始化 */ delayacct_init(); poking_init(); check_bugs();/* 检查写缓冲一致性 */ acpi_subsystem_init(); arch_post_acpi_subsys_init(); kcsan_init(); /* Do the rest non-__init'ed, we're now alive */ /* 调用 rest_init 函数 */ /* 创建 init、kthread、idle 线程 */ arch_call_rest_init(); prevent_tail_call_optimization(); }