作者 | 志敏 佳旭
第一次延期、第一次限制观赛……注定将在奥运史上留下特殊的一笔。然而,在诸多“第一次”之下,中国科技力量正在一条关键赛道上创造着这个全球体育盛会的历史性突破。
今年奥运会首次采用阿里云支撑全球转播,这是奥运迈入数字时代的重要一步。对于这届特殊的奥运会来说,技术至关重要。我们相信,这次创造历史的实践,将为未来支撑更多体育爱好者把“云观赛”转变为参与国际体育赛事的主要方式,起到里程碑的作用。
数字化国际体育赛事背后的云原生力量
这是一次真正意义上的“云上体育盛会”。在这次赛事的多个核心项目中,阿里云不仅提供了存储、计算、网络等丰富的云计算资源支持,容器技术也发挥了重要的作用。与此同时,也在验证着“容器正在成为使用云的新界面,以及全球化应用交付的首选方式”这一关键趋势。例如容器服务 ACK 作为阿里云上最优的容器执行环境、容器镜像服务 ACR 作为最优的容器应用分发基础设施,都在通过高效稳定、极致弹性、安全智能等能力的输出 ,推动国际赛事以云原生的方式加速向数字化演进发展。
正如“更快,更高,更强,更团结”的奥林匹克精神体现出的进步与超越一样,阿里云容器服务也在不断向极致的能力发起挑战。在这次吸引全球目光的体育盛会服务保障工作中,阿里云增强版容器服务 ACK Pro、容器镜像服务企业版 ACR EE,都凭借出色的发挥,为更多上层的项目应用构建和运行提供强大的能力基座,更向世界证明了来自中国的“云原生力量”。
1、稳如磐石,为赛事官网保驾护航
举办条件的特殊性、艰难性及其面临的巨大挑战,都让本届赛事相关的一举一动备受世界瞩目。官网是赛事信息最权威、最实时的发布平台,基于阿里云容器服务 ACK Pro 在法兰克福、香港等地区构建的异地双活的高可用架构,官网在赛事期间持续面向全球观众提供了稳定、可靠、安全、高性能的访问服务。凭借稳如磐石的性能表现,阿里云容器技术为官方赛程安排、赛事信息、运动员状态及奥运故事向全世界的及时传递,提供了关键保障。
2、高效安全,为赛事信息提供实时数据源
在如此规模盛大的赛事下,产生的数据以“海量”来形容绝不为过。要使这些信息得到高效处理,庞大的数据仓库成为必然的选择。它负责接收来自赛场结果应用程序的信息,例如收集比赛开始时间、运动员比赛成绩之类的信息,然后将其进行集中处理,来为其他应用提供数据源。
为了保证数据的安全性、业务的连续性,为应用提供完整的数据保护,赛事数据仓库基于 ACK Pro 构建了异地灾备的高可用架构,地域包括东京和法兰克福。另外,由于需要实时收集数据、处理并输出数据,所以系统对于实时性要求很高,ACK Pro 及 ACR EE 的优秀性能充分满足高实时性的要求。即便业务量快速增长,ACR EE 的容器镜像大规模分发能力、ACK Pro 的极致弹性能力也可以快速扩容节点和 Pod 应对突发的流量峰值。
另外,容器技术的 DevOps 快速部署能力也在自动媒体标注场景中被应用,来整合各种来源的数据,例如运动员入场时间、进球时间等,建立数据库,并通过人工智能来丰富 OBS 的视频图片相关的元数据。该项目同样基于 ACK Pro 进行部署和构建,提高媒体标注自动化程度。
3、极致弹性,助力大众「掌上探索奥运村」
虽然现场观赛受到严格限制,但在科技助力下,大众可以通过各种新奇、有趣的线上方式,增强与赛事的交互体感。比如 PinQuest 公司推出的一款奥运主题冒险类手游,可以让用户在手机上开启属于自己的“奥运村探险”之旅。该游戏基于 ASK(阿里云容器服务 Serverless 版)提供的极致弹性能力实现关键模块,在赛事开始前 10 余天启动并快速完成上线,充分体现了容器快速部署和极致弹性的能力。
滴水石穿,非一日之功。在本届赛事中容器服务的广泛应用及令人满意的表现背后,是阿里巴巴向云原生进化过程中历时 10 余年的核心技术和能力沉淀。
阿里云容器服务核心技术能力
阿里云容器服务提供了业界最具竞争力的容器产品,连续多年保持国内容器市场份额第一。除了对奥运会等大型赛事的支持,也成为了双十一、618、春晚等大型活动的中坚力量,支撑了集团核心电商、零售云的聚石塔、物流云的菜鸟 CPAAS、中间件的 MSE、边缘云的 CDN 和 ENS,也支持了 AI 和数据库的云原生化和钉钉音视频云原生化,沉淀了丰富的核心技术竞争力。
图1:阿里云容器服务产品线的整体架构
2.1 全球化架构
阿里云容器服务在全球 24 个地域开通服务,覆盖中国、亚太、北美和欧洲,真正做到了全球化部署、内置最佳高可用实践和容灾备份解决方案,非常适合全球性业务架构的场景,可以帮助客户显著提升系统可用性和稳定性。针对奥运会这种对于可靠性和 SLA 要求极高的场景,客户基于 ACK Pro 和 ACR EE部署了多组跨大洲级别的容器集群,覆盖法兰克福、香港、东京,做到了全程 0 故障,稳定性表现令人满意。
2.2 企业级支撑
阿里云容器服务 ACK(Alibaba Cloud Container Service for Kubernetes)是全球首批通过 Kubernetes 一致性认证的服务平台,提供高性能的容器应用管理服务,支持企业级 Kubernetes 容器化应用的生命周期管理。作为国内云计算容器平台的领军者,从2015 年上线后,一路伴随并支撑各行业的客户发展。
在过去的一年,ACK 进行了积极的技术升级,包括:高性能云原生容器网络 Terway 相比于社区提升30%,高性能存储 CSI 支持数据库大规模神龙主机的高效卷管理,ASK 升级极致弹性。规模化调度方面,ACK 高效稳定的管理了国内最大规模的数万个容器集群,是国内首个完成信通院大规模认证(1 万节点、1 百万 Pod)的厂商。
ACK 的 Pro 托管版集群是在原标准 ACK 托管版集群的基础上发展而来的集群类型,继承了原托管版集群的所有优势,例如 Master 节点托管、Master 节点高可用等。同时,相比原托管版进一步增强了集群的可靠性、安全性和调度性,并且支持赔付标准的 SLA,适合生产环境下有着大规模业务,对稳定性和安全性有高要求的企业客户。
- 更可靠的托管 Master 节点:稳定支撑大规模集群的管控;etcd 容灾和备份恢复,冷热备机制最大程度保障集群数据库的可用性;管控组件的关键指标可观测,助力您更好地预知风险。
- 更安全的容器集群:管控面 etcd 默认采用加密盘存储;数据面通过选择安装 kms-plugin 组件实现 Secrets 数据落盘加密。开放安全管理,并提供针对运行中容器更强检测和自动修复能力的安全管理高级版。
- 更智能的容器调度:集成更强调度性能的 kube-scheduler,支持多种智能调度算法,支持 NPU 调度,优化在大规模数据计算、高性能数据处理等业务场景下的容器调度能力。
- SLA 保障:提供赔付标准的 SLA 保障,集群 API Server 的可用性达到99.95%。
阿里云容器镜像服务 ACR(Alibaba Cloud Container Registry)是面向容器镜像、Helm Chart 等符合 OCI 标准的云原生制品安全托管及高效分发平台。ACR EE支持全球同步加速、大规模和大镜像分发加速、多代码源构建加速等全链路加速能力,与容器服务 ACK 无缝集成,帮助企业降低交付复杂度,打造云原生应用一站式解决方案。
1、多样 OCI 制品托管支持多架构容器镜像(如Linux、Windows、ARM等架构的容器镜像)、支持 Helm Chart v2/v3,符合 OCI 规范的制品管理。
2、多维度安全保障云原生制品加密存储,支持镜像安全扫描及多维度漏洞报告,保障存储及内容安全;分别提供容器镜像和 Helm Chart 的网络访问控制管理,细粒度的操作审计,保障制品访问安全。
3、加速应用分发支持全球多地域间同步,提高容器镜像分发效率;提供 P2P 分发加速方式,保障业务的极速部署和快速扩展。
4、提效云原生应用交付提供云原生应用交付链功能,全链路可观测、可追踪、可自主配置;支持基于策略的自动阻断,实现一次应用变更,全球化多场景自动交付,提升云原生应用交付效率及安全性。
2.3 稳定性保障体系
容器服务 ACK 支撑了数万国内最多的 Kubernetes 集群,高效稳定的海量集群管理至关重要。ACK 使用了如下手段建设稳定性保障体系。
- 一体化运维
ACK 的统一运维平台集成了全网集群的监控、告警、日志、巡检、元数据管理、资产管理等功能,可以实时观测、管理全网24个地域的任何集群。例如,如果用户 Kubernetes 集群 的 master 组件异常、系统组件异常、异常事件,都可以在运维平台上观察到并自动触发告警。高效的运维管理平台,支撑 ACK 管理了全网数万集群,提升了全网的稳定性。
- 全场景诊断
ACK 提供了容器自治服务 CIS,可以让用户对集群进行覆盖网络、节点、组件、业务等进行集群运行的核心点,进行深入检查和诊断,为用户提供专业的检查诊断能力和友好的使用体验,显著提升了用户管理集群的能力。实践中,用户可以警示对自己的集群和业务做巡检并生成检查报告,ACK 让用户不只是部署并使用 Kubernetes,更重要的是通过产品专业能力赋能用户、提升用户对 Kubernetes 的使用深度和体验。
- 完善的保障预案体系
针对奥运会活动,容器服务基于已有的保障流程,针对性的制定了全程保障方案,包括提前预案、应急预案、故障演练、值班排期等等。容器服务有丰富的保障经验,每年例行的保障活动包括每年的双十一、618、春节等,这些大型保障活动复杂而全面,容器服务每年在这些活动的过程中取得了近乎0故障的佳绩。
除了上述重大保障活动,容器服务内部有常态化的基于混沌的故障演练和突袭,混沌系统随机注入故障,容器团队值班人员会收到告警并根据预案系统中的预案,立即进行处理;经过常态化的训练,团队的应急处理能力锤炼得成熟默契,可以很好的实现1-5-10(1分钟内发出警报、5分钟内定位故障、10分钟内修复故障)的目标和方法论。这些经过实战反复打磨的保障体系,运用到了奥运会保障专项中,有力保障和支持了奥运会的稳定顺利运行。
容器与全球化应用交付的未来
在本次备受全球关注的体育盛会中,阿里云容器服务深度参与到赛事项目和活动中,稳如磐石地承担了赛事官网、赛事数据处理等核心项目,为全球带来了业界领先的云原生技术、产品和服务,与阿里云各个产品线通力协作成功完成“云上体育盛会”。
未来,容器服务也会在即将举办的残奥会和冬季奥运会中提供服务保障,阿里云一直在构建高效、安全、智能、无界的容器技术能力和稳如磐石的服务品质,促进科技之光与五环之光交相辉映,帮助全球更多行业、企业加快数字化转型进程。