这些年积攒的系统起不来以及root登陆异常排查的点

本文涉及的产品
对象存储 OSS,20GB 3个月
运维安全中心(堡垒机),免费版 6个月
运维安全中心(堡垒机),企业双擎版 50资产 7天
简介: 最近在整理文档,这些年陆陆续续写了好多个不同排查点的文档去记录系统起不来,以及root登陆异常的案例,今天整理一下放出来,希望大家可以喜欢

> 作者:牧原

系统启动异常:
1,部分centos启动黑屏,无异常报错的场景,可以fsck一下系统盘

2,根分区空间满,以及inode耗尽

3,升级内核或者从老的共享实例迁移到独享规格导致的启动异常
3.1 手动注入驱动 (mkinitrd virtio相关驱动 )
3.2 修改grub 的启动顺序,优先尝试使用老内核启动
3.3 boot目录下面内核的关联文件是否全(下面仅为demo,不同系统内核版本文件不一致,部分内核版本boot下的i386目录也是有用的)

config-4.9.0-7-amd64 
initrd.img-4.9.0-7-amd64  
System.map-4.9.0-7-amd64 
vmlinuz-4.9.0-7-amd64

3.4 /boot/grub/device.map里面的hda改成vda

4,fstab/grub中的 uuid不对,可以直接修改为/dev/vda1这种形式尝试
数据盘分区异常加载起不来的场景,可以去注释ftab所有的行,添加类似下面的启动项尝试,也适用用系统盘快照创建云盘挂载后,uuid一致导致的启动异常,改成非UUID的挂载即可

/dev/vda1 / ext4 defaults 1 1

5,根目录777(部分目录777)也会导致启动异常,或者ssh登陆异常  
可参考我之前的文章仅限修复尝试
https://yq.aliyun.com/articles/761371

6,常见的关键目录缺失,有的是软链,也可以看看对应目录下面的文件数量(文件数量要跟同内核版本或者相差不大的版本对比),简单判断

/bin  /sbin /lib  /lib32 /lib64 /etc /boot /usr/bin /usr/sbin /usr/lib /usr/lib64等目录或文件缺失
for i in /bin  /sbin /lib  /lib32 /lib64 /etc /boot /usr/bin /usr/sbin /usr/lib /usr/lib64 ;do ls -l $i |wc -l ;done

7,影响启动的参数
如果参数设置不当,是会导致启动异常的,如/etc/sysctl.conf以及检查rc.local的配置,profile的检查

vm.nr_hugepages 
vm.min_free_kbytes

8,centos的需要selinux需要关闭,走

# cat /etc/selinux/config   
# This file controls the state of SELinux on the system.
# SELINUX= can take one of these three values:
#     enforcing - SELinux security policy is enforced.
#     permissive - SELinux prints warnings instead of enforcing.
#     disabled - No SELinux policy is loaded.
SELINUX=disabled 把这一行改成disabled
# SELINUXTYPE= can take one of three values:
#     targeted - Targeted processes are protected,
#     minimum - Modification of targeted policy. Only selected processes are protected.
#     mls - Multi Level Security protection.
SELINUXTYPE=targeted

root登录异常类:

1,/etc/passwd /etc/shadow (用户名 root polikt dbus等关键用户存在与否,文件为空,格式乱(dos2unix)

2,/etc/pam.d 目录下是否有为空的文件及参数设置是否正常,如常见的 system-auth passwd

3,/etc/pam.d 下面所有文件里面涉及的so文件,看看文件是否存在,是否为空 /usr/lib64/security  

4,查/etc /lib64 /bin /sbin /usr/bin /usr/sbin等目录有没有size为0的文件

5,/etc/profile /etc/profile.d(打印列表)  /etc/bashrc /root/.bash_profile /root/.bashrc 等涉及登陆环境设置的文件是否异常

6,注意内核版本,是否存在新老内核,多更换几个内核试下  

7,系统日志也是一个比较重要的检查项(后面介绍下无法登陆怎么检查)

9,ubuntu1204登陆异常 在/etc/login.defs 里面配置了错误的ERASECHAR导致,恢复默认0177即可

configuration error - cannot parse erasechar value

10,输入root后直接login失败三连,日志如下
找个同内核版本的机器对比发现没有/etc/pam.d/login 有一个login.defs
rpm包校验一下,确认login没了,手动创建一个,内容拷贝过来,好了

[root@iZbp1cabe6lyx26ikmjie2Z pam.d]# rpm -V util-linux
missing   c /etc/pam.d/login
[root@iZbp1cabe6lyx26ikmjie2Z pam.d]# rpm -ql util-linux|egrep -vi "gz|mo|share"
/etc/mtab
/etc/pam.d/chfn
/etc/pam.d/chsh
/etc/pam.d/login
/etc/pam.d/runuser
/etc/pam.d/runuser-l
/etc/pam.d/su
/etc/pam.d/su-l

12,/etc/ssh/sshd_config 相关参数如 LoginGraceTime/Allowusers/PermitRootLogin

13,问题不好确认的时候,可以将shadow密码字段清空,看看登陆是否正常,可以判断是否到密码验证阶段了

之前有些过一篇关于ssh问题排查的文档,可参考
https://yq.aliyun.com/articles/540769

系统登陆不进去了,不挂盘的情况下怎么操作?

阿里云新推出的卸载系统盘功能,可以把系统盘卸载掉,作为数据盘挂载到一个新的机器,这样就可以执行上面的检查了
详见:https://help.aliyun.com/document_detail/146752.html

嫌麻烦?

目前上面这些点,包括一些常见的参数优化,我们正在开发一套 “一键处理”及“一键检查”的系统,在控制台点点授权,上面涉及的很多常见的问题排查就可以自动处理了(通过oos创建一个新实例,把坏掉的实例系统盘挂载到新实例为数据盘,然后做检查修复等)~敬请期待

场景覆盖
Linux系统常见问题诊断覆盖以下场景:
image
Linux系统常见启动问题修复覆盖以下场景:
image

脚本共享给大家~


OS优化脚本github链接:https://github.com/huigher/os-performance-optimization

相关文章
|
关系型数据库 数据库
数据库原子性(Atomicity)
数据库原子性(Atomicity)
866 2
|
关系型数据库 MySQL 数据库
【Navicat 连接MySQL时出现错误1251:客户端不支持服务器请求的身份验证协议;请考虑升级MySQL客户端】
【Navicat 连接MySQL时出现错误1251:客户端不支持服务器请求的身份验证协议;请考虑升级MySQL客户端】
1498 0
|
Linux
Win或Linux系统下用conda安装Open Babel
Win或Linux系统下用conda安装Open Babel
2101 0
Win或Linux系统下用conda安装Open Babel
|
8月前
|
人工智能 Serverless
两步构建 AI 总结助手,实现智能文档摘要
本方案将运用函数计算 FC,构建一套高可用性的 Web 服务,以满足用户多样化的需求。当用户发起请求时,系统内部会自动将包含文本和提示词的信息传递给百炼模型服务,百炼平台将根据后台配置调用相应的大模型服务,对文本数据进行智能识别与解析,最终将总结结果返回给用户。
489 20
|
负载均衡 网络协议 算法
【揭秘】IP负载均衡背后的神秘力量:如何让网站永不宕机?揭秘四大核心技术,解锁高可用性的秘密通道!
【8月更文挑战第19天】负载均衡技术保障互联网服务的高可用性和可扩展性。它像交通指挥官般按策略分配用户请求至服务器集群,提高响应速度与系统稳定性。本文轻松介绍IP负载均衡的工作原理、算法(如轮询、最少连接数)及实现方法,通过示例展示基于四层负载均衡的设置步骤,并讨论健康检查和会话保持的重要性。负载均衡是构建高效系统的关键。
338 2
|
10月前
|
机器学习/深度学习 数据采集 Python
从零到一:手把手教你完成机器学习项目,从数据预处理到模型部署全攻略
【10月更文挑战第25天】本文通过一个预测房价的案例,详细介绍了从数据预处理到模型部署的完整机器学习项目流程。涵盖数据清洗、特征选择与工程、模型训练与调优、以及使用Flask进行模型部署的步骤,帮助读者掌握机器学习的最佳实践。
680 1
|
存储 搜索推荐 数据建模
Elasticsearch 的数据建模与索引设计
【9月更文第3天】Elasticsearch 是一个基于 Lucene 的搜索引擎,广泛应用于全文检索、数据分析等领域。为了确保 Elasticsearch 的高效运行,合理的数据建模和索引设计至关重要。本文将探讨如何为不同的应用场景设计高效的索引结构,并分享一些数据建模的最佳实践。
462 2
|
存储 关系型数据库 MySQL
Python搭建代理IP池实现存储IP的方法
Python搭建代理IP池实现存储IP的方法
224 2
|
IDE 搜索推荐 Devops
|
存储 SQL 缓存
Mysql行记录格式
Mysql行记录格式
394 0
Mysql行记录格式