Linux OS||不响应SYN总结

简介: 背景 对外提供TCP服务的进程,在压测时发现,TCP连接SYN响应慢,甚至不响应。导致无法正常接收新的请求,影响业务。 抓包分析:  如上有大量的重传,有时能够正常的响应请求,有时就无法响应请求。

背景

对外提供TCP服务的进程,在压测时发现,TCP连接SYN响应慢,甚至不响应。导致无法正常接收新的请求,影响业务。

抓包分析:

c1ca68e268bdb792bb818bda0540c93e4539e63a


如上有大量的重传,有时能够正常的响应请求,有时就无法响应请求。

排查思路

1、系统负载是否过高

2、是否有安全软件(比如安全狗,安骑士等)

3、是否开启防火墙

4、Snat问题 

5、TCP相关参数:net.ipv4.tcp_max_syn_backlog\net.ipv4.tcp_syncookies\fs.file-max等

6、系统最大文件打开数是否有限制

7、进程最大文件打开数是否有限制

8、业务程序是否有相关的安全限制

9、协议栈异常

10、网络安全设备原因


12月2日增加:

1、由于服务端收包时checksum错误,内核会默认丢弃该报文;


[root@xxxx ~]# netstat -s | grep -i sum
    InCsumErrors: 105
    InCsumErrors: 32

2、列队满了

[root@xxxxx ~]# ss -tanl
State       Recv-Q Send-Q                             Local Address:Port                                            Peer Address:Port
LISTEN      0      128                                            *:80                                                         *:*

其中Recv-Q表示当前accept queue中的连接数量,Send-Q表示accept queue的最大长度。如上:可以看到进程的accept queue默认是128,因为受到系统net.core.somaxconn=128的限制。


排查过程

根据排查思路中的几个关键点,进行逐一仔细确认:

1、检查系统负载是否正常

2、是否有安全软件:关闭安骑士服务,检查系统进程是否有其他安全软件进程

3、关闭系统防火墙:排除由于防火墙安全配置导致的问题。

4、Snat问题:根据问题环境判断,是否有该问题,如有根据案例方式处理。

5、检查TCP相关参数:调大相关参数:

net.ipv4.tcp_max_syn_backlog\net.ipv4.tcp_syncookies\fs.file-max等

6、系统最大文件打开数是否有限制:


[root@xxxx ~]# ulimit -a
core file size          (blocks, -c) 0
data seg size           (kbytes, -d) unlimited
scheduling priority             (-e) 0
file size               (blocks, -f) unlimited
pending signals                 (-i) 3895
max locked memory       (kbytes, -l) 64
max memory size         (kbytes, -m) unlimited
open files                      (-n) 65535
pipe size            (512 bytes, -p) 8
POSIX message queues     (bytes, -q) 819200
real-time priority              (-r) 0
stack size              (kbytes, -s) 8192
cpu time               (seconds, -t) unlimited
max user processes              (-u) 3895
virtual memory          (kbytes, -v) unlimited
file locks                      (-x) unlimited
[root@xxxx ~]#


主要关注open files信息

7、查看进程最大文件打开数限制


[root@XXXXXX ~]# ps -ef | grep nginx
root      4867     1  0 Apr20 ?        00:00:00 nginx: master process /usr/sbin/nginx
nginx     4868  4867  0 Apr20 ?        00:00:00 nginx: worker process
root     20159 20105  0 09:59 pts/0    00:00:00 grep --color=auto nginx
[root@XXXXXX ~]# cat /proc/4868/limits
Limit                     Soft Limit           Hard Limit           Units
Max cpu time              unlimited            unlimited            seconds
Max file size             unlimited            unlimited            bytes
Max data size             unlimited            unlimited            bytes
Max stack size            8388608              unlimited            bytes
Max core file size        0                    unlimited            bytes
Max resident set          unlimited            unlimited            bytes
Max processes             3895                 3895                 processes
Max open files            1024                 4096                 files
Max locked memory         65536                65536                bytes
Max address space         unlimited            unlimited            bytes
Max file locks            unlimited            unlimited            locks
Max pending signals       3895                 3895                 signals
Max msgqueue size         819200               819200               bytes
Max nice priority         0                    0
Max realtime priority     0                    0
Max realtime timeout      unlimited            unlimited            us
[root@XXXXXXX ~]#


进程的调整方法:


echo -n 'Max open files=10000:10000' > /proc/3622/limits


如果上述方法无法使用,或者不生效,则:


写一个简单的shell,在里面启动命令之前写入
ulimit -n
然后写入启动命令。
测试启动没有问题后,执行脚本观察下。



prlimit要2.6.36版本+才行

http://xiezhenye.com/tag/prlimit

8、业务程序是否有相关的限制(联系用户确认)

9、协议栈异常;尝试初始化。

最后那三板斧

1、协议栈跟踪,参考
2、程序跟踪和抓包,参考


附录

针对问题:TCP连接失败
分析:netstat -s输出中和连接失败相关的参数
`202270382 invalid SYN cookies received 
--- 三次握手ack包,syncookies校验没通过;

13700572 resets received for embryonic SYN_RECV sockets 
---syn_recv状态下,收到非重传的syn包,则返回reset

1123035 passive connections rejected because of time stamp
---开启sysctl_tw_recycle,syn包相应连接的时间戳 小于 路由中保存的时间戳;

14886782 failed connection attempts 
--- syn_recv状态下,socket被关闭; 或者 收到syn包(非重传)

438798 times the listen queue of a socket overflowed
---收到三次握手ack包,accept队列满

438798 SYNs to LISTEN sockets ignored 
---收到三次握手ack包,因各种原因(包括accept队列满) 创建socket失败`
注:转载至:http://blog.sina.com.cn/s/blog_781b0c850101pu2q.html

目录
相关文章
|
2月前
|
安全 Linux 网络安全
部署07--远程连接Linux系统,利用FinalShell可以远程连接到我们的操作系统上
部署07--远程连接Linux系统,利用FinalShell可以远程连接到我们的操作系统上
|
2月前
|
Linux 虚拟化 数据安全/隐私保护
部署05-VMwareWorkstation中安装CentOS7 Linux操作系统, VMware部署CentOS系统第一步,下载Linux系统,/不要忘, CentOS -7-x86_64-DVD
部署05-VMwareWorkstation中安装CentOS7 Linux操作系统, VMware部署CentOS系统第一步,下载Linux系统,/不要忘, CentOS -7-x86_64-DVD
|
30天前
|
编解码 安全 Linux
基于arm64架构国产操作系统|Linux下的RTMP|RTSP低延时直播播放器开发探究
这段内容讲述了国产操作系统背景下,大牛直播SDK针对国产操作系统与Linux平台发布的RTMP/RTSP直播播放SDK。此SDK支持arm64架构,基于X协议输出视频,采用PulseAudio和Alsa Lib处理音频,具备实时静音、快照、缓冲时间设定等功能,并支持H.265编码格式。此外,提供了示例代码展示如何实现多实例播放器的创建与管理,包括窗口布局调整、事件监听、视频分辨率变化和实时快照回调等关键功能。这一技术实现有助于提高直播服务的稳定性和响应速度,适应国产操作系统在各行业中的应用需求。
|
2月前
|
Linux 测试技术 数据安全/隐私保护
阿里云Linux os copilot 运维助手初体验
阿里云Linux os copilot 初体验
375 1
阿里云Linux os copilot 运维助手初体验
|
2月前
|
弹性计算 运维 自然语言处理
阿里云OS Copilot测评:重塑Linux运维与开发体验的智能革命
阿里云OS Copilot巧妙地将大语言模型的自然语言处理能力与操作系统团队的深厚经验相结合,支持自然语言问答、辅助命令执行等功能,为Linux用户带来了前所未有的智能运维与开发体验。
|
2月前
|
存储 缓存 安全
【Linux】冯诺依曼体系结构与操作系统及其进程
【Linux】冯诺依曼体系结构与操作系统及其进程
138 1
|
2月前
|
缓存 监控 关系型数据库
深入理解Linux操作系统的内存管理机制
【7月更文挑战第11天】在数字时代的浪潮中,Linux操作系统凭借其强大的功能和灵活性,成为了服务器、云计算以及嵌入式系统等领域的首选平台。内存管理作为操作系统的核心组成部分,对于系统的性能和稳定性有着至关重要的影响。本文将深入探讨Linux内存管理的基本原理、关键技术以及性能优化策略,旨在为读者提供一个全面而深入的理解视角,帮助开发者和系统管理员更好地优化和管理Linux系统。
|
2月前
|
弹性计算 运维 Linux
基于在Alibaba Cloud Linux 3 的OS Copilot 产品评测
作为一名技术运维的工作者,每天做的最多一件事就是在Linux下敲各种各样的命令,或完成功能性的部署,或检查系统的稳定性。如果 OS Copilot 作为我的日常工具,我使用场景会更集中于快捷命令或脚本的实现,智能帮我生成各类功能脚本,为我提高运维效率。
基于在Alibaba Cloud Linux 3 的OS Copilot 产品评测
|
2月前
|
人工智能 运维 自然语言处理
当Linux遇上AI:探索操作系统中的智能新纪元
阿里云的OS Copilot是专为Linux打造的智能助手,利用大模型提供自然语言交互、命令辅助及运维优化。它简化编程任务,生成脚本框架,提供代码审查建议,适合开发者和运维人员。
317 0
当Linux遇上AI:探索操作系统中的智能新纪元
|
2月前
|
弹性计算 运维 Linux
阿里云Linux os copilot 运维助手初体验
摘要(Markdown格式): 在阿里云ECS上体验了Linux编程助手OS Copilot,步骤包括申请账户、开通ECS、安装Copilot。Copilot准确解释代码、快速响应问答、辅助编程,尤其在代码生成和注解上表现出色。作为运维人员,认为其简化了工作,给出8分评价,并愿意推荐给他人。期望它能支持更多操作系统,优化代码直接运行功能,并与更多阿里云产品集成。目前只体验了Copilot的基础功能,未与其他类似产品对比。