前言
近期,阿里云容器服务kubernetes发布了cluster-autoscaler
的支持,开发者可以通过页面简单快捷的配置节点的弹性伸缩,支持普通实例、GPU实例以及竞价实例帮助开发者实现架构弹性和运营成本之间的博弈。阿里云容器服务kubernetes的cluster-autoscaler
的能力还有很多会陆续通过控制台开放出来,对于cluster-autoscaler
高级功能有强需求的开发者,也提供手动配置的方式进行实现,那么接下来我们一起来看一下cluster-autoscaler
支持的高级功能。
高级功能解析
在解析高级特性之前,我们首先要了解的是弹性伸缩的主要原理,在阿里云容器服务kubernetes中,通过页面配置的伸缩规则会转换为ESS(弹性伸缩服务)中的伸缩组,主动下发组件cluster-autoscaler
,并将组ID作为参数传递给cluster-autoscaler
,然后cluster-autoscaler
会根据相应的配置实现伸缩组的选择以及具体弹出的实例规格。下发的cluster-autoscaler
在命名空间kube-system
下面,模板内容如下:
可以看到在cluster-autoscaler
的启动参数中包含了--node
的参数,里面配置了伸缩组的ID,cluster-autoscaler
就是通过这个组ID来识别伸缩组信息并实现伸缩的。在了解了这些原理后,我们来看下怎么使用阿里云容器服务kubernetes提供的高级特性。阿里云容器服务kubernetes的cluster-autoscaler
支持如下高级特性:
功能特性 | 是否支持 |
---|---|
单可用区、多可用区支持 | 支持 |
普通实例(CPU)、异构计算实例(GPU)、竞价实例、神龙服务器 | 支持 |
多实例规格弹性伸缩配置 | 支持 |
定时伸缩、报警伸缩 | 支持 |
指定伸缩组调度 | 支持 |
自定义安装脚本支持 | 支持 |
接下来我们针对上述的高级特性进行一一解析:
单可用区、多可用区支持
阿里云容器服务kubernetes集群支持单可用区与多可用区两种形式,多可用区的kubernetes集群可以具备更好的集群鲁棒性,不会因为单一可用区机房的宕机造成整个集群的不可用。那么多可用区的cluster-autoscaler
有什么好处呢?多可用区的cluster-autoscaler
可以提高实例弹性伸缩的成功率。因为云资源是动态调整的,每个地域每个可用区的库存都会根据不同的时间不同的资源状态进行调整,同样规格的实例可能在可用区A中可以生产,但是在可用区B中无法生产。如果配置多个可用区,那么就拥有了在多个可用区中弹出实例的可能,提高了弹性伸缩的成功率。
目前在控制台上只支持单可用区的伸缩组配置,那么怎么创建一个具有多可用区的弹性伸缩组并使用呢,从上文我们了解到cluster-autoscaler
只需要识别伸缩组ID即可,那么只需要创建一个新的伸缩组,并配置给cluster-autoscaler
即可。
伸缩组中的其他配置,建议拷贝一个已有的伸缩做来设置,降低配置的难度。最后将这个伸缩组的ID配置到yaml中即可
多实例规格的支持
多实例规格可以获得更好的伸缩成功率,而且结合竞价实例可以获得更优的运营成本节约,对于竞价实例不了解的开发者,可以先参考下这篇文档。多实例规格的支持方式非常简单,我们可以无需新建伸缩组,只需修改已有的配置即可。通过容器服务弹性伸缩的页面点击进入ESS的伸缩组配置。
点击左侧菜单的伸缩配置
以及右侧配置的修改
按钮,并添加希望加入的其他配置,此处需要特别注意的是容器的配置一定要保证规格一致,比如CPU和内存的大小必须保持一致
配置完成点击确认配置
即可生效。
定时伸缩与报警伸缩
定时伸缩是一个非常常见的伸缩场景,但是定时伸缩与cluster-autoscaler
的伸缩策略是不完全相同的,那么如何实现呢。此处我们只需要依赖ESS(弹性伸缩服务)即可,首先参考多可用的配置,先创建一个伸缩组。然后在这个伸缩组中设置弹出的伸缩规则。
在定时任务中设置任务配置,选择伸缩组与伸缩规则,并设置执行时间
此时,就设置完成了一个定时的伸缩,如果需要周期性设置,那么可以勾选下放的重复周期设置。同理,可以设置缩容的规则,以及缩容的时间。对于报警伸缩而言,和定时伸缩配置方法是一致的,他们都无需依赖cluster-autoscaler
来实现。
自定义安装脚本
在讲解如何定义安装脚本之前,需要额外讲解下一个ECS的机器是如何加入到集群中的,在伸缩配置的高级选项中有一个base64的自定义数据,我们通过base64的解码工具进行解析,可以看到里面内容如下:
#!/bin/sh
curl http://aliacs-k8s-cn-shenzhen.oss-cn-shenzhen.aliyuncs.com/public/pkg/run/attach/1.10.4/attach_node.sh | bash -s -- --openapi-token [secret_token] --ess true --labels workload_type=spot
上述的脚本的作用就是将一个ECS的节点加入到集群中的,我们自定义的安装脚本可以添加到上述脚本后面,然后通过base64工具进行加密,并贴回原来的自定义数据框内即可。
最后
在本文中,给大家讲解了如何使用cluster-autoscaler
的高级特性来支持不同维度和场景的弹性伸缩,cluster-autoscaler
也会在近期开源并提交给社区,有需求或者问题可以提交issues到github(https://github.com/AliyunContainerService/autoscaler)