《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.2 游戏容器化部署最佳实践(2)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.2 游戏容器化部署最佳实践(2)

《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.2 游戏容器化部署最佳实践(1) https://developer.aliyun.com/article/1232003?groupCode=supportservice



2. 应用部署


•节点实例选型


部署容器服务的worker节点时,需要选择对应的ECS实例类型,在阿里云控制

台的购买页面上可以看到,实例规格族的选择上分成三大模块:架构、分类、具体信息。实例规格架构的类型,有三种架构类型,分别是通用的X86的架构、异构计算(像GPU或者是FPGA、NPU等)、阿里云自研的神龙裸金属架构。


image.png


下面主要来介绍X86的实例规格的,分成了5种:


第一种实例规格是通用型,顾名思义基本可以适配任何场景,所以这种型号的代称是g系列,它的vCPU和内存的一个配比是1:4。


第二种实例规格是计算型,顾名思义就是在某些场景下对CPU算力的要求会更高一点,所以它的vCPU和内存的配比是1:2,简称为c系列。


第三种类型是内存型,提供更多的内存能力,所以它的CPU和内存的配比是1:8

,也简称为r系列。


第四种和第五种分别是大数据型和本地SSD型,这两种的CPU和内存的配比都是1:4,只是它们配的本地盘的类型是不一样的,导致它们的技能和适合的场景也是不一样的。


在以上5个基础的实例规格上面,阿里云也会去做一些额外的能力提升,比如说在通用型、计算型和内存型这三种类型下,增加了一些高主频的能力,正常的CPU的主频应该是2.5GHZ,但是有一些可以是做到3.1GHZ甚至更高,这种加上高主频的能力就变成了高主频型,会在前面去加上一个hf这样的一个标识。针对有高计算性能的业务场景可以优选选择。


另外,随着技术的演进,阿里云神龙架构的神龙卡也是在不断地迭代和改善,搭载的神龙卡可以整体提升通用型、计算型和内存型这三种实例规格的性能,所以就会出现一个平衡增强型。对于大数据型的话,做了计算和存储的分离,形成了大数据存储型,简称为d2,而d2s是在大数据的基础上,做了一些网络能力的增强,就变成了一个网络增强型。


除了特定的架构和分类,还有代系的差别,当前代表示的是最新的代系,其数字越大代表它是更新的一个代系,它底层的物理硬件也会越新,它的性价比相对而言也会更越高。


在选择实例规格上面,需要对自己的业务特征做一些分析,包括对性能的要求,对网络的要求,形成一个基本的判断,或者可以提前做下压测对比,进而针对业务特征来选择对应的实例规格以及付费方式,只有选择最合适的规格和对应的付费方式,才能够实现云上的成本最优。


•网络模型选型

容器化应用会在同一个节点上部署多个业务,而每个业务都需要自己的网络空间。为避免与其他业务网络冲突,Pod需要有自己独立的网络空间,而Pod中应用需要和其他网络进行通信,就需要Pod能够跟不同的网络互相访问。进而产生了多种网络模型来实现上述容器网络的能力,阿里云容器服务平台主要包括Flannel和Terway网络模式。如下是两种模型的对比。


image.png


在Terway网络插件中,每个Pod都拥有自己网络栈和IP地址。同一台ECS内的

Pod之间通信,直接通过机器内部的转发,跨ECS的Pod通信、报文通过VPC的弹性网卡直接转发。由于不需要使用VxLAN等的隧道技术封装报文,因此Terway模式网络具有较高的通信性能。


一旦集群创建完成后,不支持Flannel与Terway之间的变更切换,在实践过程

中,推荐Terway网络模式。


Terway网络模式采用的是云原生的网络方案,直接基于阿里云的虚拟化网络中

的弹性网卡资源来构建的容器网络。Pod会通过弹性网卡资源直接分配VPC中的IP地址,而不需要额外指定虚拟Pod网段。


Terway网络模式的特点是:

容器和虚拟机在同一层网络,便于业务云原生化迁移。

不依赖封包或者路由表,分配给容器的网络设备本身可以用来通信。

集群节点规模不受路由表或者封包的FDB转发表等配额限制。

不需要额外为容器规划Overlay的网段,多个集群容器之间只要设置安全组开放端口就可以互相通信。

可以直接把容器挂到SLB后端,无需在节点上使用NodePort进行转发。

NAT网关可以对容器做SNAT,无需节点上对容器网段做SNAT:容器访问VPC

内资源,所带的源IP都是容器IP,便于审计;容器访问外部网络不依赖conntrack SNAT,降低失败率。


Terway网络模式支持通过网络策略(NetworkPolicy)配置Pod间网络访问的规

则。网络策略(NetworkPolicy)是一种关于Pod间及Pod与其他网络端点间所允许的通信规则的规范。NetworkPolicy资源使用标签选择Pod,并定义选定Pod所允许的通信规则。

在使用Alibaba Cloud Linux 2系统作为节点的操作系统时,Terway网络模式支持使用更高效的IPvlan+eBPF链路,加速容器网络性能。




《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.2 游戏容器化部署最佳实践(3) https://developer.aliyun.com/article/1231999?groupCode=supportservice

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
14天前
|
人工智能 运维 监控
阿里云ACK容器服务生产级可观测体系建设实践
本文整理自2024云栖大会冯诗淳(花名:行疾)的演讲,介绍了阿里云容器服务团队在生产级可观测体系建设方面的实践。冯诗淳详细阐述了容器化架构带来的挑战及解决方案,强调了可观测性对于构建稳健运维体系的重要性。文中提到,阿里云作为亚洲唯一蝉联全球领导者的容器管理平台,其可观测能力在多项关键评测中表现优异,支持AI、容器网络、存储等多个场景的高级容器可观测能力。此外,还介绍了阿里云容器服务在多云管理、成本优化等方面的最新进展,以及即将推出的ACK AI助手2.0,旨在通过智能引擎和专家诊断经验,简化异常数据查找,缩短故障响应时间。
阿里云ACK容器服务生产级可观测体系建设实践
|
14天前
|
人工智能 Cloud Native 调度
阿里云容器服务在AI智算场景的创新与实践
本文源自张凯在2024云栖大会的演讲,介绍了阿里云容器服务在AI智算领域的创新与实践。从2018年推出首个开源GPU容器共享调度方案至今,阿里云容器服务不断推进云原生AI的发展,包括增强GPU可观测性、实现多集群跨地域统一调度、优化大模型推理引擎部署、提供灵活的弹性伸缩策略等,旨在为客户提供高效、低成本的云原生AI解决方案。
|
14天前
|
运维 Kubernetes 调度
阿里云容器服务 ACK One 分布式云容器企业落地实践
阿里云容器服务ACK提供强大的产品能力,支持弹性、调度、可观测、成本治理和安全合规。针对拥有IDC或三方资源的企业,ACK One分布式云容器平台能够有效解决资源管理、多云多集群管理及边缘计算等挑战,实现云上云下统一管理,提升业务效率与稳定性。
|
14天前
|
Kubernetes 算法 调度
阿里云 ACK FinOps成本优化最佳实践
本文源自2024云栖大会梁成昊演讲,讨论了成本优化策略的选择与实施。文章首先介绍了成本优化的基本思路,包括优化购买方式、调整资源配置等基础策略,以及使用弹性、资源混部等高级策略。接着,文章详细探讨了集群优化和应用优化的具体方法,如使用抢占式实例降低成本、通过资源画像识别并优化资源配置,以及利用智能应用弹性策略提高资源利用效率。
|
14天前
|
Kubernetes 容灾 调度
阿里云 ACK 高可用稳定性最佳实践
本文整理自2024云栖大会刘佳旭的演讲,主题为《ACK高可用稳定性最佳实践》。文章探讨了云原生高可用架构的重要性,通过Kubernetes的高可用案例分析,介绍了ACK在单集群高可用架构设计、产品能力和最佳实践方面的方法,包括控制面和数据面的高可用策略、工作负载高可用配置、企业版容器镜像服务高可用配置等内容,旨在帮助企业构建更加可靠和高效的应用运行环境。
|
24天前
|
存储 缓存 监控
Docker容器性能调优的关键技巧,涵盖CPU、内存、网络及磁盘I/O的优化策略,结合实战案例,旨在帮助读者有效提升Docker容器的性能与稳定性。
本文介绍了Docker容器性能调优的关键技巧,涵盖CPU、内存、网络及磁盘I/O的优化策略,结合实战案例,旨在帮助读者有效提升Docker容器的性能与稳定性。
63 7
|
28天前
|
Kubernetes Cloud Native 微服务
云原生入门与实践:Kubernetes的简易部署
云原生技术正改变着现代应用的开发和部署方式。本文将引导你了解云原生的基础概念,并重点介绍如何使用Kubernetes进行容器编排。我们将通过一个简易的示例来展示如何快速启动一个Kubernetes集群,并在其上运行一个简单的应用。无论你是云原生新手还是希望扩展现有知识,本文都将为你提供实用的信息和启发性的见解。
|
27天前
|
安全 持续交付 Docker
深入理解并实践容器化技术——Docker 深度解析
深入理解并实践容器化技术——Docker 深度解析
50 2
|
1月前
|
Kubernetes 监控 API
深入解析Kubernetes及其在生产环境中的最佳实践
深入解析Kubernetes及其在生产环境中的最佳实践
49 1
|
1月前
|
Kubernetes 持续交付 开发者
探索并实践Kubernetes集群管理与自动化部署
探索并实践Kubernetes集群管理与自动化部署
50 1