前景描述
公司10台物理服务器,系统为Redhat7.9,因安装K8S,需将内核升级至3.10.0-1060以上,并修改相关参数,否则会造成内存泄露问题。
操作步骤
需要用到的升级包及顺序如下
linux-firmware-20190429-72.gitddde598.el7.noarch.rpm kernel-tools-libs-3.10.0-1062.4.1.el7.x86_64.rpm kernel-tools-3.10.0-1062.4.1.el7.x86_64.rpm kernel-headers-3.10.0-1062.4.1.el7.x86_64.rpm kernel-devel-3.10.0-1062.4.1.el7.x86_64.rpm kernel-3.10.0-1062.4.1.el7.x86_64.rpm
问题汇总
- 重启后服务器长时间无法SSH链接且无法PING通,登陆BMC控制台查看,发现已进入系统引导界面并卡在“start crash recovery kernel arming.ails.nt. certficates”
- 通过卡主此行描述得知“Crash Recovery与kdump服务有关”,进行查阅资料得知需在/etc/default/grub中加入“crashkernel”参数
- 我的服务器grub文件中未发现自动配置的“crashkernel=auto”参数,所以缺少此参数,故重启后停留在“start crash recovery kernel arming.ails.nt. certficates”界面。
Kdump服务及CrashKernel参数
kdump
- 什么是kdump
kdump是一种先进的基于 kexec 的内核崩溃转储机制。当系统崩溃时,kdump 使用 kexec 启动到第二个内核。第二个内核通常叫做捕获内核,以很小内存启动以捕获转储镜像。第一个内核保留了内存的一部分给第二内核启动用。由于 kdump 利用 kexec 启动捕获内核,绕过了 BIOS,所以第一个内核的内存得以保留。这是内核崩溃转储的本质。 - 什么是Kexec?
kexec 是一个快速启动kernel的机制,它运行在某一正在运行的kernel中,启动一个新的kernel(这里是crash kernel),而且不用重新经过BIOS 就可以完成启动。因为一般BIOS都会花费很长的时间,尤其是在大型并且同时连接许多外部设备的Server上的环境下,BIOS会花费更多的时间。
CrashKernel
- 如果系统的内存 <= 8 GB 对kdump kernel不会保留任何内容;也就是说,crashkernel=auto 等于关掉了机器上的kdump功能。
- 如果系统的内存 > 8 GB 但是 <= 16 GB,crashkernel=auto会保留256M,等同于crashkernel=256M;
- 如果系统内存> 16GB, crashkernel=auto会保留512M, 等同于crashkernel=512M
解决方法
1.开机进入系统引导菜单界面,并进入单用户模式
2.进入单用户后进行如下操作:
mount -o remount,rw /sysroot chroot /sysroot vim /etc/default/grub
3.在lv或硬盘分区quiet前加入“crashkernel=512M”即可。