从 Nginx Ingress 窥探云原生网关选型

本文涉及的产品
Serverless 应用引擎 SAE,800核*时 1600GiB*时
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
应用实时监控服务ARMS - 应用监控,每月50GB免费额度
简介: 现今有越来越多的企业开始采纳云原生理念进行应用架构转型。而 K8s 和微服务是云原生的两大支柱,随着云原生浪潮而被广泛应用。

作者:魁予


现今有越来越多的企业开始采纳云原生理念进行应用架构转型。而 K8s 和微服务是云原生的两大支柱,随着云原生浪潮而被广泛应用。


对多数应用而言,提供对外服务的使命并不会改变,相比于原来的单体应用,微服务架构下的应
用的服务出口更多,管理更繁琐,微服务网关也应运而生;而 K8s 也提供了多种方式来暴露应用的服务,各种 Ingress 实现百花齐放。面对众多技术方案,我们如何做出合理的选择,规避潜在风险,本文将给出一些选型建议,供大家参考。


云原生网关基本概述

K8s 中服务对外访问的方式


对于部署在云服务器上的应用,通常使用负载均衡软件或服务(如 SLB)来提供高可用的服务。K8s 提供了基于 Service 的服务发现机制,用户通过将一批相同特性的 Pod 绑定到一个 Service,可以提供稳定的 VIP(虚拟IP)或域名供集群内访问,并由 kube-proxy 组件基于 ipvs 或 iptables 实现 Pod 访问的负载均衡。当需要提供服务对外访问时,需要使用 NodePort 或 LoadBalancer 类型的 Service。

1.jpeg


默认情况下,NodePort 会为服务在每个 K8s 集群的节点上分配一个节点端口,使用节点的 IP 地址和指定的节点端口可以从集群外部访问到服务后端的 Pod。用 NodePort 的方式暴露服务时,由于客户端配置的是节点的 IP 地址和端口,即使 Service 提供了负载均衡的能力,其稳定性也会受对应节点的影响。在客户端访问服务时,设置多个 K8s 集群节点的 IP 和服务 nodePort 端口,并配置合适的负载均衡和重试策略,才能够避免单点故障。


K8s 同时提供了 LoadBalancer 的 Service,客户端使用 LoadBalancer 的服务端点,可以有效规避掉节点单点故障风险。LoadBalancer 类型 Service 基于 NodePort 实现,云厂商 CCM 组件将根据 Service 创建负载均衡监听端口,并将 K8s 集群中各节点和 nodePort 端口添加到负载均衡器后端,由云上负载均衡器实现服务负载均衡能力。


对于需要 TCP 或 UDP 协议的四层转发时,使用 LoadBalancer 是一个简单有效的方式。但是当 K8s 集群中有大量 HTTP 或 HTTPS 类型的 web 服务需要进行七层转发时,如果仅使用 LoadBalancer 方式来暴露服务,当存在多个服务需要使用相同的端口时,需要为每个服务创建一个负载均衡器,分配不同的 IP 地址,会造成大量的资源成本和维护成本。


应用网关的要求


如前文所述,K8s Service 解决的是服务发现和负载均衡的问题,但并没有服务治理能力,无法被当成网关使用,而对于一个典型的应用网关,基本都包含以下能力:

2.jpeg


  • 为了避免为各个微服务做重复冗余的认证鉴权配置,网关能够支持提供安全认证、访问限制、支持 SSL 卸载等。
  • 出于网关稳定性考虑,我们希望网关能够提供一定的限流能力。
  • 需要有可观测能力查看网关后端各服务响应时间趋势、请求状态码统计等。
  • 为了保证能够快速定位排查问题,网关也需要记录各请求的详细访问日志。


K8s 提出了 Ingress 以支持从集群外部到集群内服务的 HTTP 和 HTTPS 服务路由,并提供了对外访问的统一端点,Nginx Ingress 是社区提供的基于 Nginx 实现的默认 Ingress 控制器。


Nginx Ingress 概述

网关云原生化是一个普遍的趋势,使用不同底层网关实现的 Ingress Provider,其提供的网关特性能力各不相同。Nginx 作为被普遍使用的反向代理工具,基于 Nginx 实现的 Nginx Ingress 也成为了 K8s 集群中最广泛使用的Ingress网关。


工作原理


3.jpeg


通常 Nginx Ingress 以 Deployment 结合 LoadBalancer Service 的方式部署在 K8s 集群中,Nginx Ingress Controller 由 manager 和 Nginx 进程组成,manager 负责监听 Ingress 资源变更并基于 Nginx 配置模版将 Ingress 资源的 Spec 定义和注解转换为Nginx可识别参数,生成新的 nginx.conf 配置文件,并由 manager 发起 Nginx 进程 reload,新的路由配置就通过 Ingress 在网关生效了。外部流量经过 LoadBalancer 转发到 Nginx,由 Nginx 根据路由配置转发到后端服务中。


Nginx Ingress Controller 还监听了 Service 的后端的变化,并将变更后的后端列表发送到 Nginx 中进行缓存,在应用 Pod 变更或扩缩容时,无需考虑 Pod IP 变化即可实现 Nginx 服务后端的动态变更。此外,Nginx Ingress 官方提供了 prometheus 监控对接方案,并提供了基础指标的监控大盘,便于观察网关后端服务响应状态。


Ingress 资源定义了主机名和路径来设置服务在 Nginx 上的七层转发规则,同时 Nginx Ingress 还支持配置扩展,扩展机制包括:



  • 通用注解:对于一些通用的 Nginx 能力,比如重写、重定向、连接数设置、超时时间等,Nginx Ingress 定义了通用的注解以便于 Controller 识别解析为 nginx.conf 配置文件内容。
  • 配置片段:面对需要定制化 Nginx 配置的场景,Nginx Ingress 也提供了注解 main-snippet、server-snippet、configuration-snippet 来插入定制化的 nginx.conf 配置片段。
  • lua 插件:Nginx Ingress 还支持插件化挂载自定义 lua 脚本便于从自建 Nginx 迁移到K8s Nginx Ingress 中。


一个使用 Ingress 的注解来自定义 location 片段,实现根据请求头重定向的例子如下:


apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  annotations:
    nginx.ingress.kubernetes.io/configuration-snippet: |
      if ($http_user = "gray") {
        rewrite ^/(.*)$ /traffic;
      }
  ...
spec:            
  rules:                                 
  - host: test.domain.com                
    http:                                
      paths:                             
      - backend:                         
          service:                       
            name: test-svc               
            port:                        
              number: 80                 
        path: /test
  ...


查看 Nginx Ingress Controller 中的配置,可以看到插入的配置片段:


server {
  server_name test.domain.com
  ...
  location /test {
    ...
    if ($http_user = "gray") {
        rewrite ^/(.*)$ /traffic;
    }
  }
}

Nginx Ingress 网关不足


不难看出,Nginx 反向代理网关仍然是部署在 K8s 集群中的,网关的性能直接受 Pod 资源分配和宿主机性能影响。且如果 Nginx Ingress Controller Pod 所在的节点仍然存在其他业务 Pod,还会出现资源抢占问题。由于 Nginx Ingress 承担了集群的大量入口流量,稳定性要求很高,通常情况下,我们会将其 Pod 独立调度来保证稳定性,比如在节点上设置污点,并在 Ingress Controller 的 Pod 中设置污点容忍让其独占节点资源;为增强 Ingress 网关可靠性,需要结合业务实际压力设置 Ingress 的副本数和资源分配;出于网关高峰期弹性考虑,还需要结合 HPA 以支持网关 Pod 水平扩容;此外,Nginx Ingress 实际是由负载均衡器提供的对外访问能力,还需要结合业务考虑负载均衡带宽是否满足高峰期需求。


K8s 为 Pod 提供了 livenessProbe 和 readinessProbe 的存活检查和健康检查机制,官方 Nginx Ingress Controller 的 Deployment 部署模版中也使用了该机制进行网关健康检查,相关配置如下:


livenessProbe:               
  failureThreshold: 5        
  httpGet:                   
    path: /healthz           
    port: 10254              
    scheme: HTTP             
  initialDelaySeconds: 10    
  periodSeconds: 10          
  successThreshold: 1        
  timeoutSeconds: 1          
readinessProbe:              
  failureThreshold: 3        
  httpGet:                   
    path: /healthz           
    port: 10254              
    scheme: HTTP             
  initialDelaySeconds: 10    
  periodSeconds: 10          
  successThreshold: 1        
  timeoutSeconds: 1


其健康检查和存活检查使用的是由控制面 manager 监听的 10254 端口提供的 /healthz 健康检查入口,而 Nginx Ingress 数据面和控制面在同一个容器中,在业务高峰期网关负载较高时很有可能导致控制面的健康检查接口响应超时。根据 livenessProbe 机制,很有可能出现 Nginx Ingress 网关不断重启导致网关不稳定,流量有损。此外,控制面 manager 还负责采集prometheus监控指标,在业务高峰期控制面还可能抢占不到足够的 CPU,出现 OOM,导致容器被 Kill 的情况。


另外需要注意的是,通过 Nginx Ingress 更新 Nginx 网关路由规则直接将域名和路径订正到 nginx.conf 配置文件,需要更新 Nginx 配置并重新加载才能生效。当应用存在长连接,如 websocket 的情况下,reload 操作会导致业务连接在一段时间后出现明显掉线。


4.jpeg


在操作 Ingress 资源时,如新建 Ingress、删除 Ingress、更新 Ingress 后端、更新 Ingress 证书配置等操作,都会触发 Nginx 进程的 reload。虽然 Nginx 的 reload 过程存在优雅停止机制,在接收到 reload 信号后会创建新的 workerq 子进程并保持旧 worker 进程处理已有请求,如下图所示:


5.png

但是当客户端存在 TCP 长连接超过了 worker_shutdown_timeout 时间没有断开时,会强制终止原有的 worker 进程,断开 worker 上的连接,nginx reload 原理示意图如下:

6.jpeg


除此之外,由于 Nginx Ingress Controller 是通过 List 和 Watch 机制监听 K8s 中的资源,多个节点的控制器行为一致,reload 操作的时间虽然存时间差异,但大致可以看作是同时进行,同时 reload 无疑会让风险最大化。为降低 reload 的影响,我们可以考虑优化 Nginx Ingress,比如通过将 Nginx Ingress Controller 的配置文件变更与自动reload 行为分开,保留动态修改配置逻辑,增加 reload 触发逻辑,reload 操作只有满足了特定条件才能进行。比如,为 Pod 新增 reload 信号注解,控制器识别到节点存在该注解再触发 reload,降低 reload 操作的影响面。


但是 Nginx Ingress 通过配置文件来更新 Nginx 路由配置的操作,无法避免 reload。面对该问题,业界也提出了使用 Nginx 结合 Lua 插件动态读取网关上游配置的方案,路由规则存储在数据库中,由 Lua 配置读取到 Nginx 的共享内存中,示意图如下。

7.jpeg


自建网关容易忽略的细节


综上可见,Nginx Ingress 网关在 K8s 集群中存在进程 reload 长连接有损、数据面和控制面未分离、运维难度高等短板。当我们需要自建 Nginx Controller 时,设想一下,在 K8s 中还需要考虑哪些细节:


  • 不稳定的后端 IP:Pod 的 IP 地址会随应用的重启、迁移、新版本发布频繁的变更。不稳定的后端 IP 让配置难以下手。
  • 频繁更新的配置文件:每次后端应用的变更都需要人工维护 Nginx 配置,当构建多节点的高可用 Nginx 服务时,需要人工保证多节点配置的准确性一致性。
  • 配置持久化:由于 Pod 的不稳定性,当以 Pod 形式部署 Nginx 服务时,每次 Pod 的销毁和新建,在 Pod 中的变更都会丢失,需要持久化保存配置并挂载到多个 Nginx Pod 中。
  • 监控面板对接:需要运维人员自行安装 Nginx 监控模块,并对接到外部监控系统。
  • 访问日志持久化:需要为 Nginx 服务额外挂载持久化数据盘以保存访问日志。


庆幸的是,随着云原生化趋势,越来越多的网关兼容了 Ingress 实现成为了 Ingress Provider,不少网关已经实现了配置热加载,数据面和控制面分离的能力,并且根据网关特性能力的不同存在各自的优缺点。在 EDAS 中,除了接入了 Nginx Ingress 路由外,还接入了 ALB Ingress、MSE Ingress。下面以这两种 Ingress Provider 为例介绍多种Ingress Provider 的通用实现及其优缺点。


其他 Ingress 网关实现

Ingress 支持设置 “kubernetes.io/ingress.class” 注解或者配置 ingressClassName 属性来为 Ingress 关联不同的 Ingress Controller。并由 Ingress Controller 来作为 Ingress 资源的监听组件,将 Ingress 的配置解析为后端网关的配置中,如 Nginx 网关的 nginx.conf 配置,ALB 网关的监听后端转发规则,云原生网关的路由规则。Ingress、Ingress Class、Ingress Controller 关联关系如下图所示:


8.jpeg


ALB Ingress

9.jpeg


由上图可见,ALB Ingress 工作时业务面与数据面分离,支持热加载,底层的网关实现为托管在阿里云上的 ALB 实例。基于 ALB 的高弹性、高并发数特性,能够得到完全免运维、自动弹性伸缩的高性能网关,阿里云的 ALB Ingress 解决了 Nginx Ingress 维护的难点。ALB Ingress 兼容了部分 Nginx Ingress 的通用注解,但对于配置片段和插件机制,由于底层实现的不同,并不能做到完全兼容。


MSE Ingress(云原生网关)


10.jpeg

MSE Ingress 是基于 MSE 云原生网关实现的,业务面与数据面分离、支持热加载,云原生网关不仅能够作为 Ingress Provider 为 K8s 集群中的 Service 提供对外南北向流量管理,还能够作为微服务网关对接 EDAS 注册中心、MSE 注册中心、自建 Nacos、Eureka 注册中心提供东西向流量管理能力。同时支持完备的微服务网关功能,如限流、流量防护、熔断等,能够节省部署和维护应用型微服务网关的成本,如 springCloud gateway、zuul。此外,在扩展性上,MSE Ingress 支持了 Wasm 插件,对于 Lua 插件的支持也在进行中。


场景总结

网关云原生化是一个普遍的趋势,使用不同底层网关实现的 Ingress Provider,其提供的网关特性能力各不相同。除本文介绍 EDAS 支持的配置的三种 Ingress Provider 外,还有其他多种热门 Provider,如 APISIX Ingress、Haproxy Ingress、Istio Ingress,他们在 K8s 集群中的工作模型均可参考上述的 Ingress-IngressClass-Ingress Controller 模式。


面对多样化的应用路由网关,我们需要了解网关特性能力并结合实际业务场景来做选择,对于本文提到的三种 Ingress Provider,可以总结其分别适用的场景:


  • Nginx Ingress:官方提供的开源 Nginx Ingress 解决方案,与平台无关最易接入,适用于对网关有定制化需求场景,适用于从自建 Nginx 网关迁移到 K8s Ingress 网关的场景。但需要额外对网关进行运维,存在稳定性风险。


  • ALB Ingress:基于 ALB,全托管于阿里云上,免运维。适用于业务高峰期超大 QPS、超高并发连接的场景。如果应用运行在阿里云上,且没有复杂的扩展需求,ALB 是省时省力的选择。

  • MSE Ingress:基于云原生网关,作为流量网关和微服务 API 网关,适用于对 K8s Ingress 网关和微服务网关同时需求的场景,支持多语言编写 Wasm 插件扩展网关能力。此外,该网关实现已开源,详细可见:https://github.com/alibaba/higress


此外,Ingress API 仅支持根据域名和路径配置转发规则,网关供应商需要通过自定义注解来实现更丰富的路由转发和流量治理能力,致使网关路由资源配置越来越复杂。K8s 社区推出了开源项目 Gateway API,用以提供规范化、可扩展、更丰富的网关路由模型,已有多种 Ingress 网关供应商在其控制器中实现了 Gateway API 标准,保证了其路由配置向 Gateway API 标准平滑迁移。


EDAS 应用路由管理


K8s Ingress为应用网关提供了很多灵活的选择,但每种网关能力各有差异,而且大多通过注解方式来提供扩展能力,对很多用户来说复杂度是比较高的。为此,EDAS 提供了应用路由管理功能,用户只需要编写路由规则并选择网关类型,就能将应用的服务暴露到外部,方便快捷。同时 EDAS 也提供了应用路由的监控大盘,日志检索等必备的运维功能,可以帮助用户快速发现和定位问题,保证业务稳定性。参见下图:


  • Nginx Ingress


11.png


  • MSE Ingress


12.png


  • ALB Ingress


13.png


  • 概览大盘


14.png


  • 访问日志查询


15.png


  • 调用链路追踪


16.png


相关实践学习
使用CloudLens观测ALB下的网站访问情况
通过本实验,您可搭建网站,并使用ALB进行负载均衡,同时使用CloudLens for ALB一键采集ALB日志,进行ALB 7层日志分析、秒级监控指标分析、基于AIOps的自动异常巡检等操作。
负载均衡入门与产品使用指南
负载均衡(Server Load Balancer)是对多台云服务器进行流量分发的负载均衡服务,可以通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性。 本课程主要介绍负载均衡的相关技术以及阿里云负载均衡产品的使用方法。
相关文章
|
2月前
|
负载均衡 应用服务中间件 API
Nginx、Kong、Apisix、Gateway网关比较
Nginx、Kong、Apisix、Gateway网关比较
301 1
Nginx、Kong、Apisix、Gateway网关比较
|
2月前
|
前端开发 Java 应用服务中间件
解决跨域问题的8种方法,含网关、Nginx和SpringBoot~
解决跨域问题的8种方法,含网关、Nginx和SpringBoot~
475 0
解决跨域问题的8种方法,含网关、Nginx和SpringBoot~
|
2月前
|
Kubernetes 负载均衡 应用服务中间件
深入理解 Kubernetes Ingress:路由流量、负载均衡和安全性配置
深入理解 Kubernetes Ingress:路由流量、负载均衡和安全性配置
176 1
|
1月前
|
Kubernetes 测试技术 应用服务中间件
基于 Nginx Ingress + 云效 AppStack 实现灰度发布
本文将演示结合云效 AppStack,来看下如何在阿里云 ACK 集群上进行应用的 Ingress 灰度发布。
64696 19
|
2月前
|
Cloud Native 关系型数据库 分布式数据库
【PolarDB开源】PolarDB与云原生数据库比较:特点、优势与选型建议
【5月更文挑战第26天】PolarDB是阿里云的云原生数据库,以其计算存储分离、一写多读架构和数据一致性保障脱颖而出。与Amazon Aurora和Google Cloud Spanner相比,PolarDB在中国市场更具优势,适合读多写少的场景和需要严格数据一致性的应用。企业在选型时应考虑业务需求、地域、读写比例和兼容性。PolarDB作为优秀解决方案,将在云原生数据库领域持续发挥关键作用。
187 1
|
2月前
|
负载均衡 Kubernetes Cloud Native
云原生最佳实践系列2:基于 MSE 云原生网关同城多活
通过使用阿里云的云原生微服务引擎 MSE,可以实现注册中心的同城容灾多活微服务应用。MSE 提供了云原生网关和注册中心,支持机房级故障的秒级自动转移、非对等部署下的全局流量负载均衡以及流量精细化管控。
707 39
|
2月前
|
关系型数据库 分布式数据库 数据库
【阿里云云原生专栏】云原生时代的数据库选型:阿里云RDS与PolarDB对比分析
【5月更文挑战第24天】阿里云提供RDS和PolarDB两种数据库服务。RDS是高性能的在线关系型数据库,支持MySQL等引擎,适合中小规模需求;而PolarDB是分布式数据库,具备高扩展性和性能,适用于大规模数据和高并发场景。RDS与PolarDB在架构、性能、弹性伸缩、成本等方面存在差异,开发者应根据具体需求选择。示例代码展示了如何通过CLI创建RDS和PolarDB实例。
678 0
|
2月前
|
负载均衡 Cloud Native 安全
云原生最佳实践系列 6:MSE 云原生网关使用 JWT 进行认证鉴权
本文档介绍了如何在 MSE(Microservices Engine)云原生网关中集成JWT进行全局认证鉴权。
911 10
|
2月前
|
前端开发 Java 应用服务中间件
Springboot解决跨域问题方案总结(包括Nginx,Gateway网关等)
Springboot解决跨域问题方案总结(包括Nginx,Gateway网关等)
|
2月前
|
容器
在容器服务ACK中,如果你想更改ALB Ingress的域名和端口
【2月更文挑战第15天】在容器服务ACK中,如果你想更改ALB Ingress的域名和端口
29 3

热门文章

最新文章

  • 1
    在会议系统工程中,Python可以用于多种任务,如网络请求(用于视频会议的连接和会议数据的传输)、数据分析(用于分析会议参与者的行为或会议效果)等。
    7
  • 2
    在可视会议系统工程中,系统工程方法可以帮助我们系统地规划、设计和实现一个高效、可靠的可视会议系统。
    7
  • 3
    我们可以从系统工程的角度来讨论如何优化组织架构,并给出一些可能涉及的Python应用领域的示例。
    7
  • 4
    在环境治理领域,污染治理系统工程旨在通过系统的方法来解决环境污染问题。这通常包括污染源的识别、污染物的监测、治理技术的选择、治理效果的评估等多个环节。
    7
  • 5
    我将提供一个简化的Python代码示例和详解,以展示如何使用Python和Django框架来构建智能化小区综合物业管理系统的一部分功能。
    7
  • 6
    在系统工程中,软件测试是一个至关重要的环节,它确保软件的质量、可靠性和性能。软件测试通常包括多个阶段,如单元测试、集成测试、系统测试和验收测试等。
    10
  • 7
    在软件部署阶段,系统工程的目标是确保软件能够顺利、稳定地部署到目标环境中,并满足用户的需求。
    7
  • 8
    航空航天领域,系统工程被用于设计复杂的飞行器和系统。这包括飞行器的结构、推进系统、控制系统等。
    10
  • 9
    在通讯系统工程中,这通常包括硬件、软件、网络协议、数据传输等多个方面的设计和实现。
    6
  • 10
    以下是一个简化的环境监测系统工程概述,并附带有Python代码示例或详解。
    9