记一次非常"吊诡"的生产服务器SSH无法访问故障处理过程

本文涉及的产品
运维安全中心(堡垒机),企业双擎版|50资产|一周时长
运维安全中心(堡垒机),免费版 6个月
简介: 记一次非常"吊诡"的生产服务器SSH无法访问故障处理过程

1、故障现象


运维同事反馈一台生产服务器通过堡垒机无法访问SSH


服务器IP:192.168.31.127 (说明:文章中IP地址均非现场实际IP,这里为了复盘故障问题,使用模拟机器进行还原演示描述)


接到故障后,先通过VMware虚拟化平台控制台登录服务器,确认过服务器的root密码没有问题,控制台可以登录


640.png


但是通过堡垒机(192.168.31.254)就是无法访问


注释掉/etc/hosts.deny中SSH访问的黑名单(防止堡垒机绕过的SSH访问控制策略)


sshd:   ALL     :spawn echo `date` login attempt from %c to %s ,the host is %h .PID is %p >> /var/


640.png

允许测试机器(192.168.31.230)访问SSH后,但是输入正确的密码就是无法正常登录

640.png


在控制台查看安全日志提示就是密码不对的报错

640.png


tail -f /var/log/secure


2、原因排查


pam_tally2


pam_tally2查看root SSH登录也没有锁住

排查了很久都没有找到原因 这时决定检查一下SSH的pam配置文件

神奇的发现/etc/pam.d/sshd文件空了

640.png


顿时知道为啥SSH输入正常的密码为啥也无法登录了


3、尝试恢复但又冒出新的问题


从正常的服务器SCP拷贝一个过来 但是发现scp root@192.168.31.230:/etc/pam.d/sshd /opt会报Permission deied错误

640.png


一度以为是192.168.31.230服务器有啥问题


但发现另外一台机器执行scp root@192.168.31.230:/etc/pam.d/sshd /opt,输入密码却是正常的


那说明192.168.31.230 SSHD服务正常


这时在故障服务器上尝试Debug看看


ssh -v root@192.168.31.230


在尝试密钥文件登录后就提示下面这句

640.png

debug1:No more authentication methods to try。


这时大致怀疑是不是本地的ssh_config有问题


cat /etc/ssh/ssh_config| grep -v ^# | grep -v ^$
看到这个PasswordAuthentication no


瞬间明白了

640.png

修改为#PasswordAuthentication yes


640.png


4、问题解决


scp root@192.168.31.230:/etc/pam.d/sshd /opt
cp /opt/sshd /etc/pam.d/sshd


640.png


这时再用堡垒机登录就正常登录了


640.png


5、简单加固措施和总结


  • 1、加固

排查为啥这两个文件为啥被修改了,两个问题同时出现也是非常"吊诡"

查看堡垒机审计录像未找到相关的运维动作。


那就先做些加固吧


1、chattr +i /etc/pam.d/sshd
2、chattr +i /etc/ssh/ssh_config


  • 2、总结 阿里云上总结的比较详细,供参考


https://help.aliyun.com/document_detail/41470.html


640.png


相关文章
|
2月前
|
存储 数据挖掘 Windows
服务器数据恢复—V7000存储raid5故障导致LUN无法访问的数据恢复案例
服务器数据恢复环境: 三台V7000存储,共有64块SAS硬盘(其中有三块热备盘,其中一块已启用)组建了数组raid5阵列。分配若干LUN,上层安装Windows server操作系统,数据分区格式化为NTFS文件系统。 服务器故障: V7000存储中有多块硬盘出现故障离线,阵列失效,LUN无法访问。需要恢复卷中所有数据(主要为dcm文件)。
|
27天前
|
负载均衡 数据可视化 API
像素流送api ue多人访问需要什么显卡服务器
本文总结了关于像素流送技术的五大常见问题,包括是否支持Unity模型推流、UE多人访问的最大并发数、所需服务器配置、稳定性问题及API支持情况,旨在帮助开发者更好地理解和应用这一技术。
52 1
|
1月前
|
监控 Ubuntu Linux
使用VSCode通过SSH远程登录阿里云Linux服务器异常崩溃
通过 VSCode 的 Remote - SSH 插件远程连接阿里云 Ubuntu 22 服务器时,会因高 CPU 使用率导致连接断开。经排查发现,VSCode 连接根目录 ".." 时会频繁调用"rg"(ripgrep)进行文件搜索,导致 CPU 负载过高。解决方法是将连接目录改为"root"(或其他具体的路径),避免不必要的文件检索,从而恢复正常连接。
|
2月前
|
网络安全 虚拟化 Docker
SSH后判断当前服务器是云主机、物理机、虚拟机、docker环境
结合上述方法,您可以对当前环境进行较为准确的判断。重要的是理解每种环境的特征,并通过系统的响应进行综合分析。如果在Docker容器内,通常会有明显的环境标志和受限的资源视图;而在云主机或虚拟机上,虽然它们也可能是虚拟化的,但通常提供更接近物理机的体验,且可通过硬件标识来识别虚拟化平台。物理机则直接反映硬件真实信息,较少有虚拟化痕迹。通过这些线索,您应该能够定位到您所处的环境类型。
66 2
|
2月前
|
网络安全
Ubuntu14.04安装ssh服务器
Ubuntu14.04安装ssh服务器
60 0
|
2月前
|
前端开发 Java
学习SpringMVC,建立连接,请求,响应 SpringBoot初学,如何前后端交互(后端版)?最简单的能通过网址访问的后端服务器代码举例
文章介绍了如何使用SpringBoot创建简单的后端服务器来处理HTTP请求,包括建立连接、编写Controller处理请求,并返回响应给前端或网址。
61 0
学习SpringMVC,建立连接,请求,响应 SpringBoot初学,如何前后端交互(后端版)?最简单的能通过网址访问的后端服务器代码举例
|
3月前
|
人工智能 网络协议 Shell
内网穿透实现公网访问自己搭建的Ollma架构的AI服务器
内网穿透实现公网访问自己搭建的Ollma架构的AI服务器
92 1
|
2月前
|
Apache 数据中心 Windows
将网站迁移到阿里云Windows系统云服务器,访问该站点提示连接被拒绝,如何处理?
将网站迁移到阿里云Windows系统云服务器,访问该站点提示连接被拒绝,如何处理?
|
2月前
|
域名解析 缓存 网络协议
Windows系统云服务器自定义域名解析导致网站无法访问怎么解决?
Windows系统云服务器自定义域名解析导致网站无法访问怎么解决?
|
3月前
|
人工智能 网络协议 Shell
内网穿透实现公网访问自己搭建的Ollma架构的AI服务器
内网穿透实现公网访问自己搭建的Ollma架构的AI服务器
85 0
内网穿透实现公网访问自己搭建的Ollma架构的AI服务器