使用ASM管理Knative服务（6）：基于流量请求数实现服务自动扩缩容

2023-03-19 8075

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Knative on ASM中提供了开箱即用、基于流量请求的自动扩缩容KPA（Knative Pod Autoscaler）功能。本文介绍如何基于流量请求数实现服务自动扩缩容。

Knative on ASM中提供了开箱即用、基于流量请求的自动扩缩容KPA（Knative Pod Autoscaler）功能。本文介绍如何基于流量请求数实现服务自动扩缩容。

本系列文章包括以下部分：

使用ASM管理Knative服务（1）：Knative on ASM概述

使用ASM管理Knative服务（2）：使用Knative on ASM部署Serverless应用

使用ASM管理Knative服务（3）：在Knative on ASM中使用自定义域名

使用ASM管理Knative服务（4）：使用ASM网关实现HTTPS访问Knative服务

使用ASM管理Knative服务（5）：在Knative on ASM中基于流量灰度发布服务

使用ASM管理Knative服务（6）：基于流量请求数实现服务自动扩缩容

前提条件

已使用Knative on ASM创建Knative服务。具体操作，请参见使用Knative on ASM快速部署Serverless应用
使用自定义域名aliyun.com, 参见在Knative on ASM中使用自定义域名

背景介绍

Knative Serving为每个Pod注入QUEUE代理容器（queue-proxy），该容器负责向Autoscaler报告业务容器的并发指标。Autoscaler接收到这些指标之后，会根据并发请求数及相应的算法，调整Deployment的Pod数量，从而实现自动扩缩容。

并发数和QPS

并发数是同一时刻Pod的接收的请求数。
QPS指的是Pod每秒响应的请求数，也就是最大吞吐能力。

并发数的增加并不一定会导致QPS增加。应用在访问压力较大的情况下，如果并发数增加，系统的QPS反而会下降。因为系统超负荷工作，CPU、内存等其他消耗导致系统性能下降，从而导致响应延迟。

具体算法参见： https://help.aliyun.com/document_detail/186137.html

如果需要在Knative中使用HPA, 参见：https://help.aliyun.com/document_detail/188160.html

KPA配置介绍

配置KPA

配置KPA，需要配置config-autoscaler，该参数默认已配置，以下为重点参数介绍。

执行以下命令，查看config-autoscaler。

kubectl -n knative-serving get cm config-autoscaler

预期输出：

apiVersion: v1
kind: ConfigMap
metadata:
 name: config-autoscaler
 namespace: knative-serving
data:
 container-concurrency-target-default: "100"
 container-concurrency-target-percentage: "0.7"
 enable-scale-to-zero: "true"
 max-scale-up-rate: "1000"
 max-scale-down-rate: "2"
 panic-window-percentage: "10"
 panic-threshold-percentage: "200"
 scale-to-zero-grace-period: "30s"
 scale-to-zero-pod-retention-period: "0s"
 stable-window: "60s"
 target-burst-capacity: "200"
 requests-per-second-target-default: "200"

为KPA配置缩容至0

字段	描述	设置值
scale-to-zero-grace-period	表示在缩为0之前，inactive revison保留的运行时间（最小是30s）	30s
stable-window	当在Stable模式运行中，Autoscaler在稳定窗口期下平均并发数下的操作。此外, stable-window也可以在Revision注释中配置。autoscaling.knative.dev/window: 60s	60s
enable-scale-to-zero	设置enable-scale-to-zero参数为true	true

配置Autoscaler的并发数

字段	描述	设置值
container-concurrency-target-default	定义在给定时间（软限制）需要多少并发请求，是Knative中Autoscaler的推荐配置。在ConfigMap中默认配置的并发target为100。此外, 这个值也可以通过Revision中的autoscaling.knative.dev/target注释进行修改。autoscaling.knative.dev/target: 50	100
containerConcurrency	当在Stable模式运行中，Autoscaler在稳定窗口期下平均并发数下的操作。此外, stable-window也可以在Revision注释中配置。autoscaling.knative.dev/window: 60s	60s
container-concurrency-target-percentage	这个参数为并发百分比或称为并发因子，并且会直接参与扩缩容并发数计算。例如，如果并发数target或者containerConcurrency设置值为100，并发因子container-concurrency-target-percentage为0.7。那么实际担当并发数达到70（1000.7）时就会触发扩容操作。因此，实际扩缩容并发数=target（或者containerConcurrency）container-concurrency-target-percentage	0.7

配置扩缩容边界

通过minScale和maxScale可以配置应用程序提供服务的最小和最大Pod数量。通过这两个参数配置可以控制服务冷启动或者控制计算成本。

说明：

如果未设置minScale注释，Pods将缩放为零。如果设置config-autoscaler的enable-scale-to-zero为false，则缩放为1。
如果未设置maxScale注释，则创建的Pod数量将没有上限。

minScale和maxScale可以在Revision模板中按照以下方式进行配置：

spec:
  template:
    metadata:
      autoscaling.knative.dev/minScale: "2"
      autoscaling.knative.dev/maxScale: "10"

场景一：设置并发请求数实现自动扩缩容

本场景示例将通过设置并发请求数，通过KPA实现自动扩缩容。
请按照以下步骤在集群中部署autoscale-go应用。关于快速部署Serverless应用的操作细节，可以参考使用Knative on ASM快速部署Serverless应用

1）创建autoscale-go.yaml。设置并发目标数为10。

apiVersion: serving.knative.dev/v1
kind: Service
metadata:
  name: autoscale-go
  namespace: default
spec:
  template:
    metadata:
      labels:
        app: autoscale-go
      annotations:
        autoscaling.knative.dev/target: "10"
    spec:
      containers:
        - image: registry.cn-hangzhou.aliyuncs.com/knative-sample/autoscale-go:0.1

2）使用kubectl连接到集群，在命令行执行以下命令部署autoscale-go

kubectl apply -f autoscale-go.yaml

3）登录ASM服务网格控制台查看ASM网关。
4）使用Hey压测工具，执行30s内保持50个并发请求（请将xxx.xx.xx.xxx替换为您的网关ip）。

说明 Hey压测工具的详细介绍，请参见 Hey

hey -z 30s -c 50   -host "autoscale-go.default.example.com"   "http://xxx.xx.xx.xxx?sleep=100&prime=10000&bloat=5"

预期输出：

从结果可以看出，整个过程中扩容了7个Pod。这是由于当容器并发量大于目标并发量的一定百分比后（默认为70%），knative会提前创建出更多的Pod备用以免并发量进一步增的情况下，目标值被突破。

场景二：设置扩缩容边界实现自动扩缩容

扩缩容边界指应用程序提供服务的最小和最大Pod数量。通过设置应用程序提供服务的最小和最大Pod数量实现自动扩缩容。
请按照以下步骤在集群中部署autoscale-go应用。关于快速部署Serverless应用的操作细节，可以参考使用Knative on ASM快速部署Serverless应用

1）创建autoscale-go.yaml。设置最大并发请求数为10，minScale最小保留实例数为1，maxScale最大扩容实例数为3。

apiVersion: serving.knative.dev/v1
kind: Service
metadata:
  name: autoscale-go
  namespace: default
spec:
  template:
    metadata:
      labels:
        app: autoscale-go
      annotations:
        autoscaling.knative.dev/target: "10"
        autoscaling.knative.dev/minScale: "1"
        autoscaling.knative.dev/maxScale: "3"   
    spec:
      containers:
        - image: registry.cn-hangzhou.aliyuncs.com/knative-sample/autoscale-go:0.1

2）使用kubectl连接到集群，在命令行执行以下命令部署autoscale-go

kubectl apply -f autoscale-go.yaml

3）登录ASM服务网格控制台查看ASM网关。
4）使用Hey压测工具，执行30s内保持50个并发请求（请将xxx.xx.xx.xxx替换为您的网关ip）。

说明 Hey压测工具的详细介绍，请参见 Hey

hey -z 30s -c 50   -host "autoscale-go.default.example.com"   "http://xxx.xx.xx.xxx?sleep=100&prime=10000&bloat=5"

预期输出：

结果和我们配置的一致，最多扩容出来了3个Pod，并且即使在无访问请求流量的情况下，保持了1个运行的Pod。

使用ASM管理Knative服务（6）：基于流量请求数实现服务自动扩缩容

前提条件

背景介绍

并发数和QPS

KPA配置介绍

配置KPA

为KPA配置缩容至0

配置Autoscaler的并发数

配置扩缩容边界

场景一：设置并发请求数实现自动扩缩容

场景二：设置扩缩容边界实现自动扩缩容

容器服务

热门文章

最新文章

相关课程

相关电子书