《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.2 游戏容器化部署最佳实践(2)

简介: 《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.2 游戏容器化部署最佳实践(2)

《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.2 游戏容器化部署最佳实践(1) https://developer.aliyun.com/article/1232003?groupCode=supportservice



2. 应用部署


•节点实例选型


部署容器服务的worker节点时,需要选择对应的ECS实例类型,在阿里云控制

台的购买页面上可以看到,实例规格族的选择上分成三大模块:架构、分类、具体信息。实例规格架构的类型,有三种架构类型,分别是通用的X86的架构、异构计算(像GPU或者是FPGA、NPU等)、阿里云自研的神龙裸金属架构。


image.png


下面主要来介绍X86的实例规格的,分成了5种:


第一种实例规格是通用型,顾名思义基本可以适配任何场景,所以这种型号的代称是g系列,它的vCPU和内存的一个配比是1:4。


第二种实例规格是计算型,顾名思义就是在某些场景下对CPU算力的要求会更高一点,所以它的vCPU和内存的配比是1:2,简称为c系列。


第三种类型是内存型,提供更多的内存能力,所以它的CPU和内存的配比是1:8

,也简称为r系列。


第四种和第五种分别是大数据型和本地SSD型,这两种的CPU和内存的配比都是1:4,只是它们配的本地盘的类型是不一样的,导致它们的技能和适合的场景也是不一样的。


在以上5个基础的实例规格上面,阿里云也会去做一些额外的能力提升,比如说在通用型、计算型和内存型这三种类型下,增加了一些高主频的能力,正常的CPU的主频应该是2.5GHZ,但是有一些可以是做到3.1GHZ甚至更高,这种加上高主频的能力就变成了高主频型,会在前面去加上一个hf这样的一个标识。针对有高计算性能的业务场景可以优选选择。


另外,随着技术的演进,阿里云神龙架构的神龙卡也是在不断地迭代和改善,搭载的神龙卡可以整体提升通用型、计算型和内存型这三种实例规格的性能,所以就会出现一个平衡增强型。对于大数据型的话,做了计算和存储的分离,形成了大数据存储型,简称为d2,而d2s是在大数据的基础上,做了一些网络能力的增强,就变成了一个网络增强型。


除了特定的架构和分类,还有代系的差别,当前代表示的是最新的代系,其数字越大代表它是更新的一个代系,它底层的物理硬件也会越新,它的性价比相对而言也会更越高。


在选择实例规格上面,需要对自己的业务特征做一些分析,包括对性能的要求,对网络的要求,形成一个基本的判断,或者可以提前做下压测对比,进而针对业务特征来选择对应的实例规格以及付费方式,只有选择最合适的规格和对应的付费方式,才能够实现云上的成本最优。


•网络模型选型

容器化应用会在同一个节点上部署多个业务,而每个业务都需要自己的网络空间。为避免与其他业务网络冲突,Pod需要有自己独立的网络空间,而Pod中应用需要和其他网络进行通信,就需要Pod能够跟不同的网络互相访问。进而产生了多种网络模型来实现上述容器网络的能力,阿里云容器服务平台主要包括Flannel和Terway网络模式。如下是两种模型的对比。


image.png


在Terway网络插件中,每个Pod都拥有自己网络栈和IP地址。同一台ECS内的

Pod之间通信,直接通过机器内部的转发,跨ECS的Pod通信、报文通过VPC的弹性网卡直接转发。由于不需要使用VxLAN等的隧道技术封装报文,因此Terway模式网络具有较高的通信性能。


一旦集群创建完成后,不支持Flannel与Terway之间的变更切换,在实践过程

中,推荐Terway网络模式。


Terway网络模式采用的是云原生的网络方案,直接基于阿里云的虚拟化网络中

的弹性网卡资源来构建的容器网络。Pod会通过弹性网卡资源直接分配VPC中的IP地址,而不需要额外指定虚拟Pod网段。


Terway网络模式的特点是:

容器和虚拟机在同一层网络,便于业务云原生化迁移。

不依赖封包或者路由表,分配给容器的网络设备本身可以用来通信。

集群节点规模不受路由表或者封包的FDB转发表等配额限制。

不需要额外为容器规划Overlay的网段,多个集群容器之间只要设置安全组开放端口就可以互相通信。

可以直接把容器挂到SLB后端,无需在节点上使用NodePort进行转发。

NAT网关可以对容器做SNAT,无需节点上对容器网段做SNAT:容器访问VPC

内资源,所带的源IP都是容器IP,便于审计;容器访问外部网络不依赖conntrack SNAT,降低失败率。


Terway网络模式支持通过网络策略(NetworkPolicy)配置Pod间网络访问的规

则。网络策略(NetworkPolicy)是一种关于Pod间及Pod与其他网络端点间所允许的通信规则的规范。NetworkPolicy资源使用标签选择Pod,并定义选定Pod所允许的通信规则。

在使用Alibaba Cloud Linux 2系统作为节点的操作系统时,Terway网络模式支持使用更高效的IPvlan+eBPF链路,加速容器网络性能。




《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.2 游戏容器化部署最佳实践(3) https://developer.aliyun.com/article/1231999?groupCode=supportservice

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
11月前
|
Cloud Native 中间件 调度
云原生信息提取系统:容器化流程与CI/CD集成实践
本文介绍如何通过工程化手段解决数据提取任务中的稳定性与部署难题。结合 Scrapy、Docker、代理中间件与 CI/CD 工具,构建可自动运行、持续迭代的云原生信息提取系统,实现结构化数据采集与标准化交付。
1125 1
云原生信息提取系统:容器化流程与CI/CD集成实践
|
存储 负载均衡 测试技术
ACK Gateway with Inference Extension:优化多机分布式大模型推理服务实践
本文介绍了如何利用阿里云容器服务ACK推出的ACK Gateway with Inference Extension组件,在Kubernetes环境中为多机分布式部署的LLM推理服务提供智能路由和负载均衡能力。文章以部署和优化QwQ-32B模型为例,详细展示了从环境准备到性能测试的完整实践过程。
|
Ubuntu 关系型数据库 MySQL
容器技术实践:在Ubuntu上使用Docker安装MySQL的步骤。
通过以上的操作,你已经步入了Docker和MySQL的世界,享受了容器技术给你带来的便利。这个旅程中你可能会遇到各种挑战,但是只要你沿着我们划定的路线行进,你就一定可以达到目的地。这就是Ubuntu、Docker和MySQL的灵魂所在,它们为你开辟了一条通往新探索的道路,带你亲身感受到了技术的力量。欢迎在Ubuntu的广阔大海中探索,用Docker技术引领你的航行,随时准备感受新技术带来的震撼和乐趣。
533 16
|
Prometheus Kubernetes 监控
OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性
聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。
|
存储 人工智能 Kubernetes
ACK Gateway with AI Extension:面向Kubernetes大模型推理的智能路由实践
本文介绍了如何利用阿里云容器服务ACK推出的ACK Gateway with AI Extension组件,在Kubernetes环境中为大语言模型(LLM)推理服务提供智能路由和负载均衡能力。文章以部署和优化QwQ-32B模型为例,详细展示了从环境准备到性能测试的完整实践过程。
|
存储 人工智能 物联网
ACK Gateway with AI Extension:大模型推理的模型灰度实践
本文介绍了如何使用 ACK Gateway with AI Extension 组件在云原生环境中实现大语言模型(LLM)推理服务的灰度发布和流量分发。该组件专为 LLM 推理场景设计,支持四层/七层流量路由,并提供基于模型服务器负载感知的智能负载均衡能力。通过自定义资源(CRD),如 InferencePool 和 InferenceModel,可以灵活配置推理服务的流量策略,包括模型灰度发布和流量镜像。
|
人工智能 安全 API
容器化AI模型的安全防护实战:代码示例与最佳实践
本文基于前文探讨的容器化AI模型安全威胁,通过代码示例展示如何在实际项目中实现多层次的安全防护措施。以一个基于TensorFlow的图像分类模型为例,介绍了输入验证、模型加密、API认证和日志记录的具体实现方法,并结合最佳实践,如使用安全容器镜像、限制权限、网络隔离等,帮助构建更安全的AI服务。
|
Kubernetes 监控 Serverless
基于阿里云Serverless Kubernetes(ASK)的无服务器架构设计与实践
无服务器架构(Serverless Architecture)在云原生技术中备受关注,开发者只需专注于业务逻辑,无需管理服务器。阿里云Serverless Kubernetes(ASK)是基于Kubernetes的托管服务,提供极致弹性和按需付费能力。本文深入探讨如何使用ASK设计和实现无服务器架构,涵盖事件驱动、自动扩展、无状态设计、监控与日志及成本优化等方面,并通过图片处理服务案例展示具体实践,帮助构建高效可靠的无服务器应用。
|
监控 Kubernetes Cloud Native
基于阿里云容器服务Kubernetes版(ACK)的微服务架构设计与实践
本文介绍了如何基于阿里云容器服务Kubernetes版(ACK)设计和实现微服务架构。首先概述了微服务架构的优势与挑战,如模块化、可扩展性及技术多样性。接着详细描述了ACK的核心功能,包括集群管理、应用管理、网络与安全、监控与日志等。在设计基于ACK的微服务架构时,需考虑服务拆分、通信、发现与负载均衡、配置管理、监控与日志以及CI/CD等方面。通过一个电商应用案例,展示了用户服务、商品服务、订单服务和支付服务的具体部署步骤。最后总结了ACK为微服务架构提供的强大支持,帮助应对各种挑战,构建高效可靠的云原生应用。
|
存储 人工智能 调度
容器服务:智算时代云原生操作系统及月之暗面Kimi、深势科技实践分享
容器技术已经发展成为云计算操作系统的关键组成部分,向下高效调度多样化异构算力,向上提供统一编程接口,支持多样化工作负载。阿里云容器服务在2024年巴黎奥运会中提供了稳定高效的云上支持,实现了子弹时间特效等创新应用。此外,容器技术还带来了弹性、普惠的计算能力升级,如每分钟创建1万Pod和秒级CPU资源热变配,以及针对大数据与AI应用的弹性临时盘和跨可用区云盘等高性能存储解决方案。智能运维方面,推出了即时弹性节点池、智能应用弹性策略和可信赖集群托管运维等功能,进一步简化了集群管理和优化了资源利用率。

推荐镜像

更多