基于云原生网关的流量防护实践

本文涉及的产品
云原生网关 MSE Higress,422元/月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
简介: 基于云原生网关的流量防护实践

作者:涂鸦


背景


在分布式系统架构中,每个请求都会经过很多层处理,比如从入口网关再到 Web Server 再到服务之间的调用,再到服务访问缓存或 DB 等存储。在下图流量防护体系中,我们通常遵循流量漏斗原则进行流量防护。在流量链路的每一层,我们都需要进行针对性的流量防护与容错手段,来保障服务的稳定性;同时,我们要尽可能地将流量防护进行前置,比如将一部分 HTTP 请求的流量控制前置到网关层,提前将一部分流量进行控制,这样可以避免多余的流量打到后端,对后端造成压力同时也造成资源的浪费,为此,在网关侧做流量防护是十分有必要的。



在传统的流量网关场景下,对流量进行访问控制是一个很常见的需求。比如在 nginx 中,limit_req 就是一个最为常见的限流配置,而在 Envoy 中,也支持本地以及全局两种模式的限流,但是二者均有其局限性。在功能的丰富度上,二者不及常见的限流组件开源项目,如 Sentinel 、Hystrix 等,在实际的使用场景中,实用性也很弱,比如不支持无性能损耗的集群限流等等。


云原生网关的流量防护功能,底层使用了 Sentinel 内核,并做了一定的强化和改造。Sentinel 是以流量与容错为切入点,从流量控制、不稳定调用隔离、熔断降级、热点流量防护、系统自适应保护、集群流控等多个维度来帮助保障服务和网关的稳定性,同时提供秒级的流量监控分析功能。其商业化产品不仅在阿里内部淘宝、天猫等电商领域有着广泛的应用,在互联网金融、在线教育、游戏、直播行业和其他大型政央企行业也有着大量的实践。


云原生网关作为集安全、流量、微服务三位于一体的下一代云上网关,在诞生之初,就被赋予了全场景使用的一个定位,为此流量防护也是其必备的一个能力,在流量防护能力上,具备以下优势:


  • 具备与流行的流量防护项目如 Sentinel、Hystrix 等同等丰富的流量防护功能,并且还在不断迭代更新中。
  • 天然支持均摊式的集群流控,使得用户无需关心网关以及 Upstream 服务的节点数。
  • 提供配套的秒级监控,并支持 QPS、拒绝 QPS 、异常 QPS 、RT 以及并发数等丰富的流量指标,同时支持历史数据的查看,便捷地实现先观测,再配防护规则的使用路径。
  • 流量防护规则秒级生效,配置防护规则后,无需等待,秒级生效。


Sentinel 流量模型介绍


如下图所示,流量防护是指,针对不同的流量,设置一道适合的屏障策略,在该屏障的观测下,一旦判定该流量不能被通过,应该及时拦截,从而达到保护网关、以及后端 Upstream 服务的作用。



云原生网关目前支持 QPS 限流、并发控制、熔断三种不同的流量防护能力,本文将从这三个功能分别去阐述其具体的效果,以及适用的场景。


  • QPS 限流

这是流量防护最通用的一个场景,顾名思义,就是限制某个路由的流量,使其只能在一定的速率内访问网关,防止某个路由流量激增,造成后端服务的崩溃。云原生网关不仅支持路由级别的限流,而且天然支持均摊式的集群流控,用户无需关心网关节点的数量或者后端服务节点的数量,只需要配置一个总体的阈值,就可以轻松实现对某个路由的总体阈值限流。


  • 并发控制

并发控制的具体实现,是通过实时维护一个并发值(这个值指的是一秒内,该路由流量的最大并行值,即未完成的请求数量),一旦下一个请求超过了设定的阈值,就拦截该请求。该功能不同于 QPS 限流,即使是在 QPS 较低的场景下,也能保证关键的资源,不被持续累积的慢调用所占用,而导致服务不可用,比如后端 Upstream 服务的线程池以及数据库资源等等,假设长期被占用,就会导致该 Upstream 服务出现异常。和 QPS 限流类似,云原生网关天然支持均摊式集群并发限流,只需配置一个总体的并发阈值,就可以实现对某个路由的总体并发控制。


  • 熔断

在 Sentinel 、Hystrix 等限流项目中,都能见到该功能,就如字面上的意义,熔断是指,在路由的流量出现了某个异常状态,需要及时熔断该流量,从而保证与该路由相关 Upstream 服务能够高效稳定的运行,而不受某个异常路由流量的影响。


熔断机制背后对应熔断器模型 (Circuit Breaker)。当调用处于某种不稳态(通常是出现异常或慢调用)达到一定程度(通常关注比例而不是绝对量),熔断开启 (OPEN),所有的请求都会 fallback 掉;过一段时间后进入探测恢复阶段 (HALF-OPEN),放过一定数量的请求,以这些请求的情况来 indicate 下游服务的恢复情况,若这些请求达到稳态,则恢复对应调用 (CLOSED);否则重回熔断状态,具体原理如下图所示:



另外,云原生网关的流量防护能力底层是基于 Sentinel 的毫秒级滑动窗口精确统计,为此,云原生网关的流量防护功能界面也配套了一个秒级监控系统,可以通过观测=>发现问题=>创建防护规则这个使用路径去更好地在云原生网关上创建流量防护规则。


如何在云原生网关上进行流量防护


QPS 限流


下面,我们将动手去实践,在云原生网关上去使用上述的三大流量防护功能。


首先,进入到云原生网关实例中的路由配置界面,选择“策略配置”里的“限流”选项,手动给这个路由注入一个 QPS 10000 左右的流量,在配套的秒级监控可以看到 5 分钟内该路由的 QPS 情况。



在秒级监控的下方,可以看到流控规则、并发规则,熔断规则三个配置项,首先先配置一条限流规则,具体参数如下图所示:



打开开启开关并点击保存按钮,就顺利加入了一个 QPS 限流策略,这个策略的含义是,当路由流量的总 QPS 达到 5000 的时候,统计窗口内下一个到来的流量会被拒绝,拒绝的行为是,返回一个HTTP包,返回码是 429 ,内容是一个 JSON 格式的文本,内容是:


{
  "context": "just for test"
}


此时再返回查看秒级监控,就可以看到如下的曲线图:




并发控制


并发规则也是类似,只不过,控制值由 QPS 变成并发数,具体的参考配置参数如下:



返回查看秒级监控,既可以看到以下的结果:



熔断


熔断规则的配置较为复杂,具体的含义可以查看配置界面的说明,具体的参考配置如下:



这个规则的具体含义是,在 20 秒的统计窗口内,从第 5 个请求之后,开始统计慢调用的比例,一旦比例超过 20% ,立马熔断该路由的流量,其中慢调用的定义为 RT 超过 1 ms 的请求。配置完成之后,监控的表现如下图的所示:



上述的例子只是为了演示效果,在实际生产环境中,需要更为谨慎的去定义慢调用比例以及熔断时长等参数,否则可能会导致后端服务整体不可用,是一个风险较高的流量防护功能。除了慢调用比例之外,还支持异常比例的熔断条件判断,异常的定义是指 HTTP 调用发生 5XX 的情况。


总结

本文详尽地介绍了如何在云原生网关上做流量防护,包括在不同的场景下该配置何种防护规则,并给出了详细的使用路径,可以从中体验出云原生网关的流量防护功能相对于其它网关产品限流功能的优势。作为云上网关的核心功能之一,后续我们也会持续强化流量防护功能,也欢迎大家持续关注阿里云官网的 MSE 微服务引擎产品动态。


点击此处申请微服务治理、注册配置中心,云原生网关免费试用

相关实践学习
SLB负载均衡实践
本场景通过使用阿里云负载均衡 SLB 以及对负载均衡 SLB 后端服务器 ECS 的权重进行修改,快速解决服务器响应速度慢的问题
负载均衡入门与产品使用指南
负载均衡(Server Load Balancer)是对多台云服务器进行流量分发的负载均衡服务,可以通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性。 本课程主要介绍负载均衡的相关技术以及阿里云负载均衡产品的使用方法。
相关文章
|
3天前
|
负载均衡 容灾 Cloud Native
云原生应用网关进阶:阿里云网络ALB Ingress 全能增强
在过去半年,ALB Ingress Controller推出了多项高级特性,包括支持AScript自定义脚本、慢启动、连接优雅中断等功能,增强了产品的灵活性和用户体验。此外,还推出了ingress2Albconfig工具,方便用户从Nginx Ingress迁移到ALB Ingress,以及通过Webhook服务实现更智能的配置校验,减少错误配置带来的影响。在容灾部署方面,支持了多集群网关,提高了系统的高可用性和容灾能力。这些改进旨在为用户提供更强大、更安全的云原生网关解决方案。
34 4
|
7月前
|
云安全 安全 网络安全
云上安全基础防护知识
网络安全涉及核心概念如机密性、完整性、可用性、认证、授权、不可否认性、保密性、可靠性、可控性和隐私保护。这些属性是安全策略的基础。网络风险模型描绘了攻击过程,如洛克希德·马丁的网络杀伤链,包括侦察、武器化、交付、利用、安装、命令与控制及行动阶段。攻防双方的状态图表展示了防御者和攻击者的动态。在中国,互联网安全态势和云安全威胁日益严峻,云安全遵循责任共担原则,阿里云提供了多层安全架构来保障云上安全。
111 0
|
JSON 缓存 监控
基于云原生网关的流量防护实践
本文详尽地介绍了如何在云原生网关上做流量防护,包括在不同的场景下该配置何种防护规则,并给出了详细的使用路径,可以从中体验出云原生网关的流量防护功能相对于其它网关产品限流功能的优势。作为云上网关的核心功能之一,后续我们也会持续强化流量防护功能,也欢迎大家持续关注阿里云官网的 MSE 微服务引擎产品动态。
|
运维 安全 Cloud Native
云原生网关如何实现安全防护能力
采用 Higress 三合一的架构,可以显著降低成本,并提高系统整体可用性。
云原生网关如何实现安全防护能力
|
运维 Cloud Native Java
云原生网关的对比测评
云原生网关的对比测评
332 2
|
SQL 监控 Cloud Native
基于云原生网关插件实现WAF防护能力
一起体验云原生网关开箱即用,支持热插拔的WAF防护能力,同时您将掌握云原生网关上的插件使用方式
|
消息中间件 Cloud Native 前端开发
基于云原生网关的全链路灰度实践
本文完整介绍了基于物理环境隔离和基于逻辑环境隔离两种方案,其中对基于逻辑环境隔离方案进行详细分析对涉及到的各个技术点做了相关介绍,并基于 EDAS 及 MSE 云原生网关的落地方案,并给出相关产品配置用例。
|
弹性计算 负载均衡 Cloud Native
Soul 云原生网关最佳实践
Soul 是基于兴趣图谱和游戏化玩法的产品设计,属于新一代年轻人的虚拟社交网络。成立于2016年,Soul 致力于打造一个“年轻人的社交元宇宙”,最终愿景是“让天下没有孤独的人”。
Soul 云原生网关最佳实践
|
缓存 监控 Cloud Native
快速玩转 CNStack 2.0 流量防护
快速玩转 CNStack 2.0 流量防护
快速玩转 CNStack 2.0 流量防护
|
消息中间件 网络协议 安全
基于网关服务治理的研究与实践(五)从开源网关到自研网关
在上一篇API网关介绍中,由于开源网关方案的不足,且目前没有能够同时兼容Http、Socket、WebSocket协议的开源网关,无法实现对业务请求的统一管控,对于服务治理整体方案略有不足;在当前背景下,产生了自研网关的想法,本篇文章详细记录了自研网关所做的技术研究内容。
1900 0
基于网关服务治理的研究与实践(五)从开源网关到自研网关