nginx 限流模块和fail2ban搭配使用

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: ngnix的限流模块主要有三个:limit_conn 限制某个ip的tcp连接数目或者限制某个server(网站)整体的连接数目limit_rate 现在每个请求的数据大小limit_req 限制某个ip的请求次数其中效果最明显的是第三个limit_req,但是宝塔面板中的流量限制只有前面两项的配置,所以之前一直流量限制没什么用。

5666666.png

ngnix的限流模块主要有三个:

  • limit_conn 限制某个ip的tcp连接数目或者限制某个server(网站)整体的连接数目
  • limit_rate 现在每个请求的数据大小
  • limit_req 限制某个ip的请求次数

其中效果最明显的是第三个limit_req,但是宝塔面板中的流量限制只有前面两项的配置,所以之前一直流量限制没什么用。

tcp连接数目和请求数目的区别

tcp连接建立是需要三次握手的,是有一定的耗时的。就像打电话一样,得先拨通电话,两方才能讲话交流(请求资源),自然是tcp链接越少越好。

那访问一个网站,到底会进行几个tcp连接?

如果你的站点是http1.1,连接数目 = 请求数目/ <浏览器允许并发的数目>

如果你的站点是http2.0 连接数目 =1

http1.1 默认开启keep-alive 特性,支持tcp持久连接,但是由于浏览器限制了并发数目,所以连接太多,仍然会进行再次的tcp连接。

而http2引入了多路复用和二进制帧分层特性,允许所有的请求来自同一个tcp。后续有时间可以在详细的写写http2的优势。

需要注意的是http2.0只适用于https的站点,2并且需要在服务器端进行配置3

http站点仍然使用http1.1协议。

下面是nginx配置配置文件中配置http2的一个例子:

server
{
    listen 80;
    listen 443 ssl http2;
}

在chrome控制面板中可以看到当前网站建立的tcp连接的id,使用http2后,除了外部资源,本站资源的请求只建立一个tcp链接。

网络异常,图片无法展示
|

在你自己的服务器上,同样可以使用下面的命令查看tcp连接的连接情况:

netstat -anlp|grep tcp|awk '{print $5}'|awk -F: '{print $1}'|sort|uniq -c|sort -nr|head -n20 ;

netstat -anlp是linux查看网络情况的一个命令,过滤只显示与tcp相关的,但这里显示的是整个服务器的tcp连接,而不只是其中的某一个网站。


请求数目就是你在chrome面板中看到的request num。当然如果不是你自己站点的资源的请求数目不会占用你的服务器的带宽资源。


总结:如果你是https站点并且配置了http2,那个一个tcp连接 约等于 一个真实的人

而一个真实的人会产生很多个请求数目。

limit_req 模块

limit_req 模块用来限制一个ip的请求数目。

在nginx的http字段下配置:

limit_req_zone $binary_remote_addr zone=www_sym:10m rate=20r/s;

在某个网站下的server字段下配置,或者在下面的location字段配置:

limit_req zone=www_sym burst=20 nodelay;

这里面有几个变量需要说明一下:

  • zone: 后面的www_sym是域名称,可以随便取一个,下面对应就可以了,冒号后面的10m 表示了这个域的大小,即该模块需要开辟一个内存空间是缓存nginx的请求记录中的$binary_remote_addr,以便匹配出请求速率是否超过了指定的rate
  • rate: 这个是1秒中允许的请求数目,这个地方很容易被误解导致配置错误。比如rate设置为20r/s,即在0~50ms只允许有一个请求,因为nginx是毫秒级的速率控制,这个地方的rate实际上是毫秒级的匀速控制。但实际上我们的站点的请求都是突发流量,即在短时间内很多个请求并发的。所以需要使用到burst来承接突发流量。
  • burst: 可以理解为一个缓冲队列,假设值为20,假设0~50ms中有21个请求,那么其中20个请求就会进入该队列。
  • nodelay这个参数同样是非常容易错误理解的。nodelay即无延迟。以上面的例子为例,20个请求进入缓存队列后,会马上转发给nginx请求数据,获取到数据后返回。需要注意的是一个请求出队列后,该位置(插槽)并非立即释放的。 而是同样按照50ms的间隔(rate设置为20r/s)释放。也就是说,如果在51~100ms的期间又发送了21个请求,那只有2个请求可以成功返回(因为只有一个插槽被释放了),剩余的19个请求会立即返回503错误码。

也就是说,如果按照上面的配置(rate+burst+nodelay同时配置了),在0~1000ms中的任意时刻,有21个突发的并发请求都能够正常的处理,如果大于21个请求,就会直接返回503错误码,告诉客户端当前nginx无法处理该请求。

强烈推荐设置nodelay参数,也可以不设置,则20个请求进入缓冲队列后并不会马上全部转发,而是按照50ms的间隔进行请求和响应(此时该缓冲队列的位置也是按照这个间隔释放)**,那么客户端收到所有21个请求的响应至少是1s后了,这个延迟就大大增加了,是非常不可取的。

如果不设置burst参数,对我们这种突发性请求的应用是非常不适合的。21个请求其中20个请求就会直接返回503,导致站点的资源无法加载的问题。

在http字段下配置下面的设置,会将超流的内容记录到error.log 下。

limit_req_log_level error;

某个超流的日志如下:

2020/08/25 18:09:49 [error] 10215#0: *2445032 limiting requests, excess: 10.700 by zone "www_sym", client: 120.*.3*.29, server: ***.com, request: "GET /RelatedObjectLookups.js HTTP/2.0", host: "***.com", referrer: "https://***/admin"

如果该网站是反向代理,当上游网站无法访问,此时的日志如下:

2022/04/24 20:44:50 [error] 12985#0: *9662214 upstream timed out (110: Connection timed out) while connecting to upstream, client: 111.27.24.183, server: auth.ihewro.com, request: "GET /notice/version HTTP/2.0", upstream: "http://*****:8000/notice/version", host: "auth.ihewro.com", referrer: ""

如果大规模的ip访问会导致php无法建立socket,因此错误日志如下:

2022/04/24 21:49:21 [error] 12985#0: *9953796 connect() to unix:/tmp/php-cgi-74.sock failed (11: Resource temporarily unavailable) while connecting to upstream, client: 23.12.64.219, server: www.ihewro.com, request: "GET / HTTP/1.1", upstream: "fastcgi://unix:/tmp/php-cgi-74.sock:", host: "www.ihewro.com", referrer: "https://www.ihewro.com"

limit_conn 模块

limit_conn 用来限制一个ip或者整个站点的tcp连接数目。

注意,在http/2 中,每个并发的请求被认为是一个连接!!!这点非常重要

在http字段配置:

limit_conn_zone $binary_remote_addr zone=perip:10m;
limit_conn_zone $server_name zone=perserver:10m;

在server字段下配置:

limit_conn perserver 200;
limit_conn perip 20;

上面中200表示一个server站点最多连接数。20表示一个ip的最多连接数目。

如果你的站点配置了http2,正常情况下一个用户的tcp连接数目不会超过5个。可以根据具体请求进行配置。

在http字段下配置下面的设置,会将超流的内容记录到error.log 下。

limit_conn_log_level error;

某个超流的日志如下:

2020/08/25 18:09:49 [error] 10216#0: *2445033 limiting connections by zone "www_sym", client: 120.2.33.29, server: ***.com, request: "GET /RelatedObjectLookups.js HTTP/2.0", host: "***.com", referrer: "https://***/admin"

limit_rate 模块

在server字段下配置:

limit_rate 512k;

上面的512k表示限制一个请求的大小不超过512kB。

fail2ban的使用

fail2ban 软件如其名,就是根据错误日志的匹配次数来进行ban的操作。不仅仅可以用来扫描nginx的日志,可以扫描任何日志,可以自定义filter正则表达式匹配上就可以。ban的操作也不仅仅是iptabels 来禁止,可以自定义action来进行处理。

安装

# CentOS
yum install -y fail2ban
# ubuntu使用apt的系统
sudo apt-get install -y fail2ban

配置

安装完成后,进入/etc/fail2ban,可以看到下面的目录,分别介绍他们的作用如下4

  • action.d: 符合ban的条件后的操作
  • filter.d: 过滤器,即告诉fail2ban 如何匹配上日志中的某一行
  • jail.local: jail即监狱,在该文件里面配置一个或监狱,定义该监狱的名称,监视的log文件列表,filer,以及符合条件后的action
  • jail.conf: 这个是官方提供的一份多个监狱例子,你可以直接复制你需要的部分到jail.local中即可。

使用

编辑文件,nano /etc/fail2ban/jail.local,增加一个新的监狱:

[nginxcc]
enabled  = true
filter   = nginx-limit-req
logpath  = /www/wwwlogs/***1.com.error.log
        /www/wwwlogs/***2.com.error.log
maxretry = 120
findtime = 60
bantime  = 120000
action   = iptables-allports[name=nginxcc]
           sendmail-whois-lines[name=nginxcc, dest=ihewro@163.com]
  • 最开头的nginxcc是监狱的名称
  • filter 使用的是fail2ban自带的一个过滤器,文件路径为/etc/fail2ban/filter.d/nginx-limit-req.conf
  • logpath 即监视的日志列表,这里我是监视errorlog,而不是access.log的,原因是当流量很大的时候,access.log日志刷新的很快,会导致fail2ban跟不上(之前发现明明已经ban掉了,但是日志上还是显示在匹配已经ban掉的ip的访问的日志,就很奇怪,理论上匹配的速度应该很快,但不知道为什么会出现这种情况)(所以我们需要设置好limit_req_log_levellimit_conn_log_level为error)
  • findtime=60 maxretry=120 指在60s的时间段内如果有某个ip120次超流的记录,就会封禁
  • bantime的单位是s
  • action 封禁的操作是使用iptables工具,这个action,fail2ban 已经为我们写好了,路径在/etc/fail2ban/action.d/iptables-allports.conf

还需要注意的是,/etc/fail2ban/filter.d/nginx-limit-req.conf只匹配了limit_req模块限流的日志,并没有匹配limit_conn模块限流的日志,所以我们编辑该文件,增加一个新的正则匹配,一个匹配规则一行,如果是多个匹配规则,则为多行

。将failregex的值改为:

failregex = ^\s*\[[a-z]+\] \d+#\d+: \*\d+ .*, client: <HOST>,

此时可以通过下面的命令,测试你的regex能否正常的匹配到你的日志内容:

fail2ban-regex /etc/fail2ban/filter.d/test.log /etc/fail2ban/filter.d/nginx-limit-req.conf --print-all-matched

--print-all-matched参数用来显示所有匹配上的行,去掉该参数可以显示总体的匹配情况。


除此之外,你也许注意到了action中还有一个sendmail的配置。配置了该项后,当该监狱启用、停止或者ban某个ip的时候,都会给你的dest邮箱地址发送一个邮件。前提是你的服务器配置好了sendemail模块。

网络异常,图片无法展示
|

默认的邮件地址是fail2ban@,邮件的格式在/etc/fail2ban/action.d/sendmail-whois-lines.conf 文件中。

还有一个需要注意的问题是,iptables 重启会失效,重启后的你的封禁的ip都会丢失,可以修改/etc/fail2ban/action.d/iptables-allports.conf,修改后的代码如下:

[INCLUDES]
before = iptables-common.conf
[Definition]
actionstart = <iptables> -N f2b-<name>
              <iptables> -A f2b-<name> -j <returntype>
              <iptables> -I <chain> -p <protocol> -j f2b-<name>
actionstop = <iptables> -D <chain> -p <protocol> -j f2b-<name>
             <actionflush>
             <iptables> -X f2b-<name>
actioncheck = <iptables> -n -L <chain> | grep -q 'f2b-<name>[ \t]'
actionban = <iptables> -I f2b-<name> 1 -s <ip> -j <blocktype> && service iptables save
actionunban = <iptables> -D f2b-<name> -s <ip> -j <blocktype> && service iptables save
[Init]

即在iptables 操作后面增加service iptables save 保存记录。

查看

# 查看监狱工作时候的filter和ban的日志
tail -f /var/log/fail2ban.log
#启动
systemctl start fail2ban
#停止
systemctl stop fail2ban
# 重新启动
systemctl restart fail2ban
#开机启动
systemctl enable fail2ban
# 查看fail2ban模块的工作状况(一般排查错误原因的时候使用)
journalctl -r -u fail2ban.service
# 查看监狱列表
fail2ban-client status
# 查看某个监狱下的封禁情况
fail2ban-client status nginxcc
#删除某个监狱下的某个ip
fail2ban-client set nginxcc unbanip 192.168.1.115
#手动封禁某个ip
fail2ban-client set nginxcc banip 192.168.1.115

最后记得定时清理你的error.log以及fail2ban.log的日志,可以写一个定时任务,每隔半小时清理一次。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
3月前
|
负载均衡 应用服务中间件 API
Nginx:location配置模块的用法(一)
Nginx:location配置模块的用法(一)
467 2
|
1月前
|
应用服务中间件 nginx C++
nginx的cgi模块
nginx的cgi模块
32 0
|
3月前
|
缓存 应用服务中间件 nginx
安装nginx-http-flv-module模块
本文介绍如何为Nginx安装`nginx-http-flv-module`模块。此模块基于`nginx-rtmp-module`二次开发,不仅具备原模块的所有功能,还支持HTTP-FLV播放、GOP缓存、虚拟主机等功能。安装步骤包括:确认Nginx版本、下载相应版本的Nginx与模块源码、重新编译Nginx并加入新模块、验证模块安装成功。特别注意,此模块已包含`nginx-rtmp-module`功能,无需重复编译安装。
170 1
|
3月前
|
负载均衡 应用服务中间件 Linux
在Linux中,常用的 Nginx 模块有哪些,常来做什么?
在Linux中,常用的 Nginx 模块有哪些,常来做什么?
|
3月前
|
应用服务中间件 Linux nginx
高并发下Nginx配置限流
【8月更文挑战第16天】
75 1
|
3月前
|
缓存 前端开发 应用服务中间件
Nginx:location配置模块的用法(二)
Nginx:location配置模块的用法(二)
124 2
|
4月前
|
应用服务中间件 Linux nginx
FFmpeg开发笔记(四十)Nginx集成rtmp模块实现RTMP推拉流
《FFmpeg开发实战》书中介绍了如何使用FFmpeg向网络推流,简单流媒体服务器MediaMTX不适用于复杂业务。nginx-rtmp是Nginx的RTMP模块,提供基本流媒体服务。要在Linux上集成rtmp,需从官方下载nginx和nginx-rtmp-module源码,解压后在nginx目录配置并添加rtmp模块,编译安装。配置nginx.conf启用RTMP服务,监听1935端口。使用ffmpeg推流测试,如能通过VLC播放,表明nginx-rtmp运行正常。更多详情见书本。
118 0
FFmpeg开发笔记(四十)Nginx集成rtmp模块实现RTMP推拉流
|
3月前
|
Ubuntu 前端开发 JavaScript
如何在 Ubuntu 14.04 上为 Nginx 添加 gzip 模块
如何在 Ubuntu 14.04 上为 Nginx 添加 gzip 模块
29 0
|
4月前
|
监控 应用服务中间件 nginx
高并发架构设计三大利器:缓存、限流和降级问题之Nginx的并发连接数计数的问题如何解决
高并发架构设计三大利器:缓存、限流和降级问题之Nginx的并发连接数计数的问题如何解决
|
4月前
|
应用服务中间件 nginx 缓存
高并发架构设计三大利器:缓存、限流和降级问题之Nginx作为前置网关进行限流问题如何解决
高并发架构设计三大利器:缓存、限流和降级问题之Nginx作为前置网关进行限流问题如何解决