《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.2 游戏容器化部署最佳实践(4) https://developer.aliyun.com/article/1231998?groupCode=supportservice
4. 设置合理的资源请求和限制
理想情况下,业务应该根据实际情况,设置合理的Resource1Request和
Limit。Request用于对资源的占位,表示容器至少可以获得的资源; Limit用于对资源的限制,表示容器至多可以获得的资源。这样的设置有利于容器的健康运行,资源的充分使用,并且能够评估出资源的总量。
如果容器的Resource Request和Limit设置得很高,但是实际业务用不到,那么就会造成资源的不合理分配和浪费。建议使用资源配额(Resource1Quota)划分资源,使用Limit Range限制资源,以及智能Request推荐功能。
•动态调度提升资源利用率
节点亲和性
若某个计算密集型任务,被调度到内存密集型的节点上,导致内存密集型的
CPU被占满,但内存几乎没怎么用,会造成较大的资源浪费,同样,如果是一个内存占用型的任务,被调度到小内存的节点上,可能会频繁触发OOM。可以通过节点池设置一个Label标记,标记该类节点池是CPU密集型或者内存占用型,随后在创建业务负载时也设置一个标记,标明这个负载需要在对应的节点类型上运行。
Kubernetes的调度器会将这个负载调度到合适的节点上,这种寻找最合适的节
点的方式,可以有效提升资源利用率,十分方便和高效。
负载感知调度
原生的Kubernetes调度策略倾向于调度Pod到节点剩余资源较多的节点上,比
如默认的LeastRequestedPriority策略。但是原生调度策略的资源分配是静态的,而且初始设置的Request不能代表任务真实资源的使用情况,因此当业务负载降低时,Kubernetes调度器的可用资源与集群的实际闲置资源会有较大偏差。如果调度器可以基于节点的实际资源利用率进行调度,将一定程度上解决资源浪费的问题。
负载感知调度是ACK基于Scheduling1Framework实现感知节点实际资源负载的调度策略。调度过程中,通过参考节点负载的历史统计,将Pod优先调度到负载较低的节点,实现节点负载均衡的目标,避免出现因单个节点负载过高而导致的应用程序或节点故障。阿里云提供了ack-slo-manager组件来实现。
安装ack-slo-manager组件后,可以通过添加Annotations来标识启动。
imagePullSecrets: {} annotations: {}
5. 容器服务集群可观测性
可观测性指如何从外部输出推断及衡量系统内部状态。容器服务可观测性体系包含监控和日志两部分,监控可以帮助DevOps查看系统的运行状态,而日志可以协助问题的排查和诊断。
可观测性包括基础设施层、容器性能层、应用性能层、用户业务层。
•基础设施层可观测性
容器服务ACK所依赖的底层资源的可观测场景:定位Pod与节点组成的资源的
调用链路,可视化拓扑关系,以及基础设施监控,例如宿主机节点、网络基础组件的性能监控等。
相关实践-基础资源监控
•容器性能层可观测性
基于容器服务ACK构建系统的容器抽象层的可观测场景,包括集群的性能、事
件等监控,容器的性能,以及容器组件等监控。相关实践-Prometheus的监控方案
•应用性能层可观测性
基于容器服务ACK构建系统的具体应用场景,包括应用指标性能(Metric)、系统调用链(Tracing)、日志监控(Logging)等,例如基于容器服务构建一个Java应用,JAVA应用的线程数指标等。
相关实践-无侵入应用监控APM监控方案
•用户业务层可观测性
基于容器服务ACK构建的业务系统的具体业务场景,例如基于容器服务构建一
套高可用可扩展的网站,网站的业务运营数据PV、UV等,例如应用的成本审计场景等。
推荐使用阿里云日志服务SLS(Log Service)作为自定义指标的观测方案。可通过自定义应用系统的内容、格式,并通过日志服务收集,并在日志服务中配置业务大盘,观测自己的业务情况,或做系统审计。
相关实践-通过日志服务采集Kubernetes容器日志
6. 容器服务镜像仓库
阿里云容器镜像服务ACR(Alibaba1Cloud1Container1Registry)是面向容器镜
像、Helm Chart等符合OCI标准的云原生制品安全托管及高效分发平台。其中ACR企业版支持全球同步加速、大规模和大镜像分发加速、多代码源构建加速等全链路加速能力,与容器服务ACK无缝集成,帮助企业降低交付复杂度,打造云原生应用一站式解决方案。
针对游戏跨地域,都能实现快速的分发拉取发布。