实现一台服务器的百万并发,服务器支撑百万连接会出现哪些问题,如何排查与解决这些问题 是本文的重点
- 服务器能够同时建立连接的数量 不是 并发量,它只是并发量一个基础。
- 服务器的并发量:一个服务器能够同时承载客户端的数量;
- 承载:服务器能够稳定的维持这些连接,能够响应请求,在200ms内返回响应就认为是ok的,其中这200ms包括数据库的操作,网络带宽,内存操作,日志等时间。
服务器 采用 1台 centos7 12G 1核虚拟机
客户端 采用 2台 centos7 3G 1核虚拟机
由于fd的数量未知,这里设计ntyreactor 里面包含 eventblock ,eventblock 包含1024个fd。每个fd通过 fd/1024定位到在第几个eventblock,通过fd%1024定位到在eventblock第几个位置。
struct ntyevent { int fd; int events; void *arg; NCALLBACK callback; int status; char buffer[BUFFER_LENGTH]; int length; }; struct eventblock { struct eventblock *next; struct ntyevent *events; }; struct ntyreactor { int epfd; int blkcnt; struct eventblock *evblk; };
#include <stdio.h> #include <string.h> #include <stdlib.h> #include <sys/types.h> #include <sys/socket.h> #include <sys/epoll.h> #include <errno.h> #include <netinet/tcp.h> #include <arpa/inet.h> #include <netdb.h> #include <fcntl.h> #include <sys/time.h> #include <unistd.h> #define MAX_BUFFER 128 #define MAX_EPOLLSIZE (384*1024) #define MAX_PORT 100 #define TIME_SUB_MS(tv1, tv2) ((tv1.tv_sec - tv2.tv_sec) * 1000 + (tv1.tv_usec - tv2.tv_usec) / 1000) int isContinue = 0; static int ntySetNonblock(int fd) { int flags; flags = fcntl(fd, F_GETFL, 0); if (flags < 0) return flags; flags |= O_NONBLOCK; if (fcntl(fd, F_SETFL, flags) < 0) return -1; return 0; } static int ntySetReUseAddr(int fd) { int reuse = 1; return setsockopt(fd, SOL_SOCKET, SO_REUSEADDR, (char *)&reuse, sizeof(reuse)); } int main(int argc, char **argv) { if (argc <= 2) { printf("Usage: %s ip port\n", argv[0]); exit(0); } const char *ip = argv[1]; int port = atoi(argv[2]); int connections = 0; char buffer[128] = {0}; int i = 0, index = 0; struct epoll_event events[MAX_EPOLLSIZE]; int epoll_fd = epoll_create(MAX_EPOLLSIZE); strcpy(buffer, " Data From MulClient\n"); struct sockaddr_in addr; memset(&addr, 0, sizeof(struct sockaddr_in)); addr.sin_family = AF_INET; addr.sin_addr.s_addr = inet_addr(ip); struct timeval tv_begin; gettimeofday(&tv_begin, NULL); while (1) { if (++index >= MAX_PORT) index = 0; struct epoll_event ev; int sockfd = 0; if (connections < 340000 && !isContinue) { sockfd = socket(AF_INET, SOCK_STREAM, 0); if (sockfd == -1) { perror("socket"); goto err; } //ntySetReUseAddr(sockfd); addr.sin_port = htons(port+index); if (connect(sockfd, (struct sockaddr*)&addr, sizeof(struct sockaddr_in)) < 0) { perror("connect"); goto err; } ntySetNonblock(sockfd); ntySetReUseAddr(sockfd); sprintf(buffer, "Hello Server: client --> %d\n", connections); send(sockfd, buffer, strlen(buffer), 0); ev.data.fd = sockfd; ev.events = EPOLLIN | EPOLLOUT; epoll_ctl(epoll_fd, EPOLL_CTL_ADD, sockfd, &ev); connections ++; } //connections ++; if (connections % 1000 == 999 || connections >= 340000) { struct timeval tv_cur; memcpy(&tv_cur, &tv_begin, sizeof(struct timeval)); gettimeofday(&tv_begin, NULL); int time_used = TIME_SUB_MS(tv_begin, tv_cur); printf("connections: %d, sockfd:%d, time_used:%d\n", connections, sockfd, time_used); int nfds = epoll_wait(epoll_fd, events, connections, 100); for (i = 0;i < nfds;i ++) { int clientfd = events[i].data.fd; if (events[i].events & EPOLLOUT) { sprintf(buffer, "data from %d\n", clientfd); send(sockfd, buffer, strlen(buffer), 0); } else if (events[i].events & EPOLLIN) { char rBuffer[MAX_BUFFER] = {0}; ssize_t length = recv(sockfd, rBuffer, MAX_BUFFER, 0); if (length > 0) { printf(" RecvBuffer:%s\n", rBuffer); if (!strcmp(rBuffer, "quit")) { isContinue = 0; } } else if (length == 0) { printf(" Disconnect clientfd:%d\n", clientfd); connections --; close(clientfd); } else { if (errno == EINTR) continue; printf(" Error clientfd:%d, errno:%d\n", clientfd, errno); close(clientfd); } } else { printf(" clientfd:%d, errno:%d\n", clientfd, errno); close(clientfd); } } } usleep(1 * 1000); } return 0; err: printf("error : %s\n", strerror(errno)); return 0; }
error : Too many open files
程序执行到一半,创建了1023个连接后,报错Too many open files
//服务端 new connect [], pos[1019] new connect [], pos[1020] new connect [], pos[1021] new connect [], pos[1022] new connect [], pos[1023] accept: Too many open files accept: Too many open files //客户端 connect: Connection refused error : Connection refused
怀疑是文件系统默认允许打开文件描述符数量个数(默认1024)的限制,使用ulimit -a
查看open files的数量
- open files:一个进程能够打开文件描述符的数量
[root@master temp]# ulimit -a core file size (blocks, -c) 0 data seg size (kbytes, -d) unlimited scheduling priority (-e) 0 file size (blocks, -f) unlimited pending signals (-i) 47748 max locked memory (kbytes, -l) 64 max memory size (kbytes, -m) unlimited open files (-n) 1024 pipe size (512 bytes, -p) 8 POSIX message queues (bytes, -q) 819200 real-time priority (-r) 0 stack size (kbytes, -s) 8192 cpu time (seconds, -t) unlimited max user processes (-u) 47748 virtual memory (kbytes, -v) unlimited file locks (-x) unlimited
那么我们把open files
调大一点点,看是否会停在2047,如果是,则说明问题就是open files
[root@master temp]# ulimit -n 2048 [root@master temp]# ulimit -a core file size (blocks, -c) 0 data seg size (kbytes, -d) unlimited scheduling priority (-e) 0 file size (blocks, -f) unlimited pending signals (-i) 47748 max locked memory (kbytes, -l) 64 max memory size (kbytes, -m) unlimited open files (-n) 2048 pipe size (512 bytes, -p) 8 POSIX message queues (bytes, -q) 819200 real-time priority (-r) 0 stack size (kbytes, -s) 8192 cpu time (seconds, -t) unlimited max user processes (-u) 47748 virtual memory (kbytes, -v) unlimited file locks (-x) unlimited new connect [], pos[2046] new connect [], pos[2047] accept: Too many open files
- 临时修改,只在当前这个会话有效:ulimit -n 1048576
- 永久修改,对所有会话有效:添加下面两行代码
[root@master temp]# vim /etc/security/limits.conf # 修改 [root@master temp]# reboot # 重启生效
* soft nofile 1048576 * hard nofile 1048576
- 软限制:超出软限制会发出警告
- 硬限制:绝对限制,在任何情况下都不允许用户超过这个限制
: 系统一共可以打开的最大文件数(所有进程加起来)
[root@master temp]# cat /proc/sys/fs/file-max 1202172
# 编辑内核参数配置文件 vim /etc/sysctl.conf # 修改fs.file-max参数 fs.file-max = 1048576 # 重新加载配置文件 sysctl -p
另外这里建议ulimit -n 和limits.conf里nofile 设定最好不要超过/proc/sys/fs/file-max的值(虽然我测试了超过也没关系),这个小问题仁者见仁智者见智了,网上找到比较好的文章是这篇linux最大文件句柄数量之(file-max ulimit -n limit.conf)
error : Cannot assign requested address
现在的环境背景:服务器只开放一个端口,客户端不断的去请求去连接。然后客户端error : Cannot assign requested address
Cannot assign requested address这代表着客户端端口耗尽,我们先来看看如何确定一个fd,反过来说一个fd代表着什么
socket fd --- < 源IP地址 , 源端口 , 目的IP地址 , 目的端口 , 协议 >
一个fd就是一个五元组,在现在的环境中,五元组里面确定了四个,所以最多创建 1 * 源端口 * 1 * 1 * 1个fd
# 服务端 new connect [], pos[28234] new connect [], pos[28235] send[fd=21003] error Connection reset by peer send[fd=22003] error Connection reset by peer # 客户端 connections: 26999, sockfd:27002, time_used:2399 connections: 27999, sockfd:28002, time_used:2404 connect: Cannot assign requested address error : Cannot assign requested address
我们看到大概创建了2.8w的fd , 可是我们知道端口一个有6w多个,也就是说有6w个端口,为什么我们只使用了2.8w个?
Linux中有限定端口的使用范围:60999 - 32768 = 2.8w ,与我们上面实验结果相符。
The /proc/sys/net/ipv4/ip_local_port_range defines the local port range that is used by TCP and UDP traffic to choose the local port. You will see in the parameters of this file two numbers: The first number is the first local port allowed for TCP and UDP traffic on the server, the second is the last local port number. For high-usage systems you may change its default parameters to 32768-61000 -first-last.
[root@master temp]# sysctl net.ipv4.ip_local_port_range net.ipv4.ip_local_port_range = 32768 60999
- 修改net.ipv4.ip_local_port_range的范围,一般不这样做,我们这里研究的是服务器,怎么会去对客户端进行修改呢
- 之前已经说了这个问题的背景,就是只开放了一个端口,并且socket fd --- < 源IP地址 , 源端口, 目的IP地址 , 目的端口 , 运输层协议 >,在这个背景下才产生的这个问题,所以我们可以开放更多的端口,比如说100个,那么一个客户端就能连到280w了
error : Connection timed out
我们将服务器端口开100个,按理说客户端可以连280w,但是现在只连接到13w就error : Connection timed out,与我们的预期不符
//服务端 new connect [], pos[131165] new connect [], pos[131166] new connect [], pos[131167] new connect [], pos[131168] send[fd=20102] error Connection reset by peer send[fd=21102] error Connection reset by peer send[fd=22102] error Connection reset by peer //客户端 connections: 127999, sockfd:128002, time_used:7576 connections: 128999, sockfd:129002, time_used:2683 connections: 129999, sockfd:130002, time_used:2669 connections: 130999, sockfd:131002, time_used:4610 connect: Connection timed out error : Connection timed out
Connection timed out译为连接超时,也就是说,client发送的请求超时了,那么这个超时有两种情况,第一种:三次握手第一次的SYN没发出去,第二种:三次握手第二次ACK没收到。
[root@node1 temp]# cat /proc/sys/net/netfilter/nf_conntrack_max 131072
# 查看允许对外最大连接数量 [root@node1 temp]# cat /proc/sys/net/netfilter/nf_conntrack_max 131072 # 进行配置 vim /etc/sysctl.conf # 在配置文件中把net.nf_conntrack_max参数修改为1048576(如果配置就自己添加一行) net.nf_conntrack_max = 1048576 # 重新加载配置文件 sysctl -p # 再次查看,发现生效了 [root@node1 temp]# cat /proc/sys/net/netfilter/nf_conntrack_max 1048576
connections: 239999, sockfd:240002, time_used:9837 connections: 240999, sockfd:241002, time_used:10608 connections: 241999, sockfd:242002, time_used:13109 connections: 242999, sockfd:243002, time_used:15112 connections: 243999, sockfd:244002, time_used:12606 已杀死
[root@node1 ~]# dmesg | egrep -i -B100 'killed process' [ 2310.265218] Out of memory: Kill process 7266 (C1000Kclient) score 1 or sacrifice child [ 2310.265962] Killed process 7266 (C1000Kclient) total-vm:8708kB, anon-rss:2960kB, file-rss:0kB, shmem-rss:0kB
# 编辑内核参数配置文件 vim /etc/sysctl.conf # 添加以下内容 # 最小值 默认值 最大值 net.ipv4.tcp_mem = 252144 524288 786432 # tcp协议栈的大小,单位为内存页(4K),分别是 1G 2G 3G,如果大于2G,tcp协议栈会进行一定的优化 net.ipv4.tcp_wmem = 1024 1024 2048 # tcp接收缓存区(用于tcp接受滑动窗口)的最小值,默认值和最大值(单位byte)1k 1k 2k,每一个连接fd都有一个接收缓存区 net.ipv4.tcp_rmem = 1024 1024 2048 # tcp发送缓存区(用于tcp发送滑动窗口)的最小值,默认值和最大值(单位byte)1k 1k 2k,每一个连接fd都有一个发送缓存区 # 总缓存 = (每个fd发送缓存区 + 每个fd接收缓存区) * fd数量 # (1024byte + 1024byte ) * 100w 约等于 2G
如果服务器是用来接收大文件,传输量很大的时候,就要把send buffer和read buffer调大。
- 一个进程能够打开文件描述符的数量open files 和 file-max 改成100w以上
- 在不同的环境下要看开放的端口够不够socket fd --- < 源IP地址 , 源端口 , 目的IP地址 , 目的端口 , 协议 >
- 设置netfilter允许对外最大连接数量100w以上
- 根据内存和场景,适当调整net.ipv4.tcp_mem,net.ipv4.tcp_wmem,net.ipv4.tcp_rmem