记一次非常"吊诡"的生产服务器SSH无法访问故障处理过程

本文涉及的产品
运维安全中心(堡垒机),企业双擎版|50资产|一周时长
运维安全中心(堡垒机),免费版 6个月
简介: 记一次非常"吊诡"的生产服务器SSH无法访问故障处理过程

1、故障现象


运维同事反馈一台生产服务器通过堡垒机无法访问SSH


服务器IP:192.168.31.127 (说明:文章中IP地址均非现场实际IP,这里为了复盘故障问题,使用模拟机器进行还原演示描述)


接到故障后,先通过VMware虚拟化平台控制台登录服务器,确认过服务器的root密码没有问题,控制台可以登录


640.png


但是通过堡垒机(192.168.31.254)就是无法访问


注释掉/etc/hosts.deny中SSH访问的黑名单(防止堡垒机绕过的SSH访问控制策略)


sshd:   ALL     :spawn echo `date` login attempt from %c to %s ,the host is %h .PID is %p >> /var/


640.png

允许测试机器(192.168.31.230)访问SSH后,但是输入正确的密码就是无法正常登录

640.png


在控制台查看安全日志提示就是密码不对的报错

640.png


tail -f /var/log/secure


2、原因排查


pam_tally2


pam_tally2查看root SSH登录也没有锁住

排查了很久都没有找到原因 这时决定检查一下SSH的pam配置文件

神奇的发现/etc/pam.d/sshd文件空了

640.png


顿时知道为啥SSH输入正常的密码为啥也无法登录了


3、尝试恢复但又冒出新的问题


从正常的服务器SCP拷贝一个过来 但是发现scp root@192.168.31.230:/etc/pam.d/sshd /opt会报Permission deied错误

640.png


一度以为是192.168.31.230服务器有啥问题


但发现另外一台机器执行scp root@192.168.31.230:/etc/pam.d/sshd /opt,输入密码却是正常的


那说明192.168.31.230 SSHD服务正常


这时在故障服务器上尝试Debug看看


ssh -v root@192.168.31.230


在尝试密钥文件登录后就提示下面这句

640.png

debug1:No more authentication methods to try。


这时大致怀疑是不是本地的ssh_config有问题


cat /etc/ssh/ssh_config| grep -v ^# | grep -v ^$
看到这个PasswordAuthentication no


瞬间明白了

640.png

修改为#PasswordAuthentication yes


640.png


4、问题解决


scp root@192.168.31.230:/etc/pam.d/sshd /opt
cp /opt/sshd /etc/pam.d/sshd


640.png


这时再用堡垒机登录就正常登录了


640.png


5、简单加固措施和总结


  • 1、加固

排查为啥这两个文件为啥被修改了,两个问题同时出现也是非常"吊诡"

查看堡垒机审计录像未找到相关的运维动作。


那就先做些加固吧


1、chattr +i /etc/pam.d/sshd
2、chattr +i /etc/ssh/ssh_config


  • 2、总结 阿里云上总结的比较详细,供参考


https://help.aliyun.com/document_detail/41470.html


640.png


相关文章
|
1月前
|
存储 数据挖掘 Windows
服务器数据恢复—V7000存储raid5故障导致LUN无法访问的数据恢复案例
服务器数据恢复环境: 三台V7000存储,共有64块SAS硬盘(其中有三块热备盘,其中一块已启用)组建了数组raid5阵列。分配若干LUN,上层安装Windows server操作系统,数据分区格式化为NTFS文件系统。 服务器故障: V7000存储中有多块硬盘出现故障离线,阵列失效,LUN无法访问。需要恢复卷中所有数据(主要为dcm文件)。
|
1月前
|
存储 数据挖掘 虚拟化
服务器数据恢复—Raid5阵列两块硬盘硬件故障掉线的数据恢复案例
服务器数据恢复环境: 一台某品牌存储设备上有一组由10块硬盘(9块数据盘+1块热备盘)组建的raid5阵列,上层部署vmware exsi虚拟化平台。 服务器故障: raid5阵列中两块硬盘对应的指示灯亮黄灯掉线。硬盘序列号无法读取,通过SAS扩展卡也无法读取。
|
15天前
|
监控 Ubuntu Linux
使用VSCode通过SSH远程登录阿里云Linux服务器异常崩溃
通过 VSCode 的 Remote - SSH 插件远程连接阿里云 Ubuntu 22 服务器时,会因高 CPU 使用率导致连接断开。经排查发现,VSCode 连接根目录 ".." 时会频繁调用"rg"(ripgrep)进行文件搜索,导致 CPU 负载过高。解决方法是将连接目录改为"root"(或其他具体的路径),避免不必要的文件检索,从而恢复正常连接。
|
25天前
|
存储 Unix Linux
服务器数据恢复—DELL EqualLogic PS6100系列存储简介及发生故障后的处理方案
DELL EqualLogic PS6100系列存储采用虚拟ISCSI SAN阵列,支持VMware、Solaris、Linux、Mac、HP-UX、AIX操作系统,提供全套企业级数据保护和管理功能,具有可扩展性和容错功能。
|
28天前
|
监控 网络协议 安全
DNS服务器故障不容小觑,从应急视角谈DNS架构
DNS服务器故障不容小觑,从应急视角谈DNS架构
50 4
|
1月前
|
网络安全 虚拟化 Docker
SSH后判断当前服务器是云主机、物理机、虚拟机、docker环境
结合上述方法,您可以对当前环境进行较为准确的判断。重要的是理解每种环境的特征,并通过系统的响应进行综合分析。如果在Docker容器内,通常会有明显的环境标志和受限的资源视图;而在云主机或虚拟机上,虽然它们也可能是虚拟化的,但通常提供更接近物理机的体验,且可通过硬件标识来识别虚拟化平台。物理机则直接反映硬件真实信息,较少有虚拟化痕迹。通过这些线索,您应该能够定位到您所处的环境类型。
32 2
|
1月前
|
运维 安全 Linux
IDC服务器故障排除思路
本文详细介绍了服务器维修流程,包括维修前的工具和备件准备,以及不拆机情况下的初步检查步骤。文中还提供了拆机维修的具体方法,如最小化测试法、替换法和交叉比较法,并针对CPU、主板、内存、硬盘、电源、风扇、网卡及BMC等主要配件的故障排除进行了说明,强调了注意事项,旨在帮助技术人员快速准确地定位并解决问题。
84 13
ly~
|
1月前
|
缓存 监控 安全
反向代理服务器的常见故障有哪些?
反向代理服务器常遇到的故障包括配置错误、网络问题、性能瓶颈及安全漏洞。配置相关故障如错误监听端口、域名配置不当及代理转发规则错误,可使用`netstat -tuln`检查端口状态,并验证域名及DNS解析。网络故障涉及连接中断和带宽不足,利用`ping`和`traceroute`检测连通性,用`iftop`监控带宽。性能问题如资源耗尽和缓存不一致需通过`top`监控资源使用,并检查缓存策略。安全故障包括DDoS攻击和配置漏洞,应使用流量分析工具检测异常并加强安全配置,确保SSL/TLS加密和访问控制策略正确无误。
ly~
114 3
|
1月前
|
前端开发 Java
学习SpringMVC,建立连接,请求,响应 SpringBoot初学,如何前后端交互(后端版)?最简单的能通过网址访问的后端服务器代码举例
文章介绍了如何使用SpringBoot创建简单的后端服务器来处理HTTP请求,包括建立连接、编写Controller处理请求,并返回响应给前端或网址。
53 0
学习SpringMVC,建立连接,请求,响应 SpringBoot初学,如何前后端交互(后端版)?最简单的能通过网址访问的后端服务器代码举例
|
2月前
|
存储 数据挖掘 数据库
服务器数据恢复—raid磁盘故障导致数据库数据损坏的数据恢复案例
存储中有一组由3块SAS硬盘组建的raid。上层win server操作系统层面划分了3个分区,数据库存放在D分区,备份存放在E分区。 RAID中一块硬盘的指示灯亮红色,D分区无法识别;E分区可识别,但是拷贝文件报错。管理员重启服务器,导致离线的硬盘上线开始同步数据,同步还没有完成就直接强制关机了,之后就没有动过服务器。
下一篇
无影云桌面