Linux系统诊断小技巧(14):启停问题之如何修复initrd损坏-阿里云开发者社区

开发者社区> 宁希波若> 正文

Linux系统诊断小技巧(14):启停问题之如何修复initrd损坏

简介: initrd丢失、损坏或者没有正常工作,是导致系统启动失败比较常见的原因。 如何解决这类问题呢?重新做initrd即可。那么,具体怎么操作呢?我们讨论下。这里我们主要是围绕阿里云的实例问题展开。
+关注继续查看

题外话

我们先讲什么是initrd和需要的工具。

initrd的二意性

initrd在Linux内核社区有两种意义。一是内核的一种启动机制。二是指实现这种机制的一种方法。作为方法的initrd,已经逐步被initramfs取代

三大利器

关于工具的重要性我们就不絮叨了。解决启停问题,一定要有三大利器的辅助:快照、VNC和录屏工具。

关于这些工具,请参考Linux系统诊断小技巧(13):启停问题之如何修复grub损坏对应小节。

bind挂载

修复启停时经常需要做chroot操作,即我们要在一个新的根文件系统内操作。但是,只执行chroot是不够的。我们还需要挂载/dev、/proc和/sys目录。这样才能使用在chroot后继续使用系统数据。

关于bind挂载,同样请参考Linux系统诊断小技巧(13):启停问题之如何修复grub损坏对应小节。

回到话题

initrd丢失、损坏或者没有正常工作,是导致系统启动失败比较常见的原因。

如何解决这类问题呢?重新做initrd即可。那么,具体怎么操作呢?我们讨论下。这里我们主要是围绕阿里云的实例问题展开。

现场复现

initrd丢失相对容易模拟。重启、及时VNC登录,在grub提供可用内核清单界面,按字母e就能修改启动项配置。我们修改initrd文件名称即可。

修改文件名称
877BFF8096B2C828AB8F0E87ED6A0F1E

按照终端提示,启动系统,得到结果如下(但是这个界面很快会被内核堆栈信息覆盖,灵活使用录屏工具是需要的)
BCB608B3D1F9433AB6B672209C863D1A

initrd缺少驱动

我们可以分别测试缺少主板驱动、磁盘驱动、显卡驱动等多种情形。简单计,这里我们只测试initrd只包括主板驱动的情形。

创建这样的initramfs,可以使用下面的命令:

kernel_verion_str=$(uname -r) # chroot情形的话,需要手工设定
dracut -d virtio_pci /boot/initramfs-${kernel_version_str}-issues.img ${kernel_version_str}

如果不是chroot环境,可以直接使用下面的命令

dracut -d virtio_pci /boot/initramfs-$(uname -r)-issues.img $(uname -r)

命令执行示例如下:
FD5007C86939B99F82558B16E026DD08

验证下我们作出了initrd文件:
1C4E4EE47D83D4745F26968B8C8C208C

复现现场,现在:
D3C495B418B1EBF0CA016160CFCE5DCD

磨刀不误砍柴工

常见的Linux系统都有救援模式,而且(大多)都是有多个内核可用。所以,一个内核的initrd出现问题,并不妨碍我们启动系统,拿到shell。但是,的确存在需要在其他系统上重新做initrd的情形。比如,我们运气不好,碰到的实例,其上的系统只有一个内核。这样现有系统是启动不起来了。系统启动不起来,则拿不到shell,拿不到shell,则读写不了系统盘。

所以,在运气不好的情况下,我们的问题就变成了两个:

  1. 通过什么方式来处理系统盘。
  2. 怎么重新生成initrd

解决第一个问题的方法比较多,这里我们提供一个使用快照的方式。

如何使用快照?

请参考Linux系统诊断小技巧(13):启停问题之如何修复grub损坏有关章节。

重新制作initrd的其他准备步骤

在正常实例上重新制作initrd需要

# 1. 把新创建磁盘作为数据盘挂载到正常实例上。这需要在控制台操作。
# 2. 挂载目标根文件系统。
mount /dev/vdb1 /mnt
# 3. 把/dev、/proc和/sys挂载到新挂载文件系统。这样我们就能够使用内核导出的系统数据了。
for d in dev proc sys;do mount --bind /$d /mnt/$d
4. chroot到目标根文件系统,使之成为当前跟文件系统。
chroot /mnt

有关上面步骤的执行示例,请参考Linux系统诊断小技巧(13):启停问题之如何修复grub损坏有关章节。

重新制作initrd

各个主流发行版都提供了制作initrd文件的易用工具,我们不赘述。这里我们以CentOS 7系统为例。重要的是要把需要启动系统所需的驱动不要忘记了。

对于阿里云当前的实例,主要是主板驱动(virtio_pci)和系统盘驱动(virtio_blk):

# 1. 如果要制作initrd文件的版本号不同于当前运行的内核(比如chroot条件下),
# 则需要手工设定内核版本号;否则,直接使用uname -r的结果即可
kernel_verion_str=...
# 2. 备份老的文件
cp -p /boot/initramfs-${kernel_version_str}.img /boot/initramfs-${kernel_version_str}.img.origin
# 3. 验证备份完毕
ls /boot/initramfs-${kernel_version_str}.img*
# 4. 删除老的initrd文件
rm -f /boot/initramfs-${kernel_version_str}.img
# 5. 重新生成initrd
dracut --add-drivers "virio_pci virtio_blk" /boot/initramfs-${kernel_version_str}.img ${kernel_version_str} 

执行示例如下

E288068055C2F7363A559B14F3D91944

这样我们就重新制作了initrd文件。

终焉

祝探索愉快。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
PostgreSQL pg_rewind,时间线修复,脑裂修复,flashback - 从库开启读写后,回退为只读从库。异步主从发生角色切换后,主库rewind为新主库的从库
PostgreSQL pg_rewind,时间线修复,脑裂修复,flashback - 从库开启读写后,回退为只读从库。异步主从发生角色切换后,主库rewind为新主库的从库
666 0
系统诊断小技巧(9):如何从Ext3或者Ext4文件系统推断分区位置
扩容失败或者系统重启后分区丢失,需要文件系统推定分区位置。我们这里给出一个自动化的工具
1752 0
NLPIR大数据语义系统KGB技术引领新方向
NLPIR大数据语义智能分析平台平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,
1218 0
推荐系统遇上深度学习(六)--PNN模型理论和实践
推荐系统遇上深度学习(六)--PNN模型理论和实践。
2021 0
核心系统100%上云!全球最大流量洪峰,阿里云扛住了
阿里巴巴核心系统,100%上云,我们扛住了!
3283 0
SQL Server元数据损坏(metadata corruption)修复
原文:SQL Server元数据损坏(metadata corruption)修复   在升级一个SQL Server 2000的数据库时,遇到了一致性错误,其中有几个错误是元数据损坏(metadata corruption),特意研究了一下这个案例,因为以前也零零散散的遇到过一些一致性相关错误,但是难得遇到元数据损坏的案例。
843 0
Linux系统小技巧(5):如何列出和排序正在读写的进程?
如何利用经典UNIX工具列出正在读写的进程并且排序之?
2022 0
+关注
宁希波若
Linux系统黑客,传统意义上的。多时候栖身C库和内核交界处。
23
文章
0
问答
来源圈子
更多
作为全球云计算的领先者,阿里云为全球230万企业提供着云计算服务,服务范围覆盖200多个国家和地区。我们致力于为企业、政府等组织机构提供安全可靠的云计算服务,给用户带来极速愉悦的服务体验。
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载