开发者社区问答正文

服务器卡死，网站无法访问，服务器无法登陆

服务器突然卡死，无法连接，无法访问，过一会儿又好了
13点21分那次最久，卡了10分钟
14点40分那次也卡了，然后又自动恢复了
我在服务器上部署了多个应用，
请问我应该如何排查是哪个应用引起的以上高负载导致服务器卡死

展开

收起

hxjno1 2018-08-16 14:58:48 713 版权

阿里云 AI 助理回答

遇到服务器间歇性卡死的问题，确实需要进行细致的排查以确定具体原因。这里有几个步骤和工具可以帮助您定位问题：

查看系统日志：首先检查服务器的系统日志，如Linux系统的/var/log/messages、/var/log/syslog或/var/log/kern.log等，以及应用日志。这些日志中可能会记录下异常信息，比如CPU、内存使用率过高，或者某个进程异常等。
使用监控工具：如果之前已经部署了监控工具（如Prometheus+Grafana、Zabbix、CloudMonitor等），可以查看监控图表，特别是CPU使用率、内存使用率、磁盘I/O、网络流量等指标在故障发生时的变化情况，这有助于快速定位到高负载的具体时间点和原因。
使用top或htop命令：当服务器恢复正常时，立即使用top或htop命令查看当前系统进程的资源占用情况，尤其是CPU和内存使用情况。如果可能，尝试在故障发生时远程登录服务器执行这些命令，以实时查看是哪个进程占用了大量资源。
使用dmesg命令：查看内核消息，有时候系统崩溃或硬件问题会在这里留下线索。
分析应用日志：仔细检查每个应用的日志文件，寻找错误信息、异常堆栈或超时警告，这些都可能是导致高负载的线索。
性能分析工具：使用如strace跟踪系统调用，或perf进行性能分析，来深入理解某个特定应用的行为。这些工具可以帮助您发现应用内部的瓶颈。
资源限制与隔离：考虑为每个应用设置资源使用上限（如使用cgroups），这样即使某个应用出现问题，也不会影响整个系统的稳定性。
计划性的压力测试：在非高峰时段，对各个应用分别进行压力测试，模拟高负载情况，观察服务器的响应，这有助于提前发现潜在问题。

通过上述方法，您可以逐步缩小问题范围，最终找到导致服务器卡死的具体应用或服务。解决问题后，建议优化应用配置、增加资源或改进代码逻辑，以提高系统的稳定性和性能。您也可以通过ECS一键诊断全面排查并修复ECS问题。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

弹性计算云计算云服务器 ECS

问答标签：

云服务器 ECS网站云服务器 ECS访问云服务器 ECS登陆云服务器 ECS网站访问云服务器 ECS无法访问

问答地址：

开发者社区 > 云计算 > 问答

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

服务器卡死，网站无法访问，服务器无法登陆

相关文章