神龙案例解读:与阿里云并肩作战,百家云三天扩容数十倍

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 2亿学生在线上课。疫情的肆虐,原本该回归各大校园的师生们涌入线上,突如其来的流量洪峰给在线教育行业带来了极大挑战。

image.png


2亿学生在线上课。

疫情的肆虐,原本该回归各大校园的师生们涌入线上,突如其来的流量洪峰给在线教育行业带来了极大挑战。

长期服务教育企业的百家云也不例外。作为一家致力于为教育机构提供一站式云课堂解决方案的企业,疫情期间,百家云接到来自多家教育机构搭建在线云课堂的需求。同时,原来以线下为主的教育机构,流量瞬间转到了线上。

为了响应教育部门停课不停学的号召,帮助学生老师们开学,百家云全体员工缩短了假期,从大年初二开始在家办公,初七开始全员办公。

短时间内爆发式的需求,对于每一家教育企业而都是始料未及的。据百家云CEO李钢江透露,百家云的业务量短时间内增长了数十倍。如此迅速的扩容需要,还要在客户无感知的情况下完成,比交付一个新系统难度更大。

不幸中的万幸是,百家云团队对敏捷架构的探索让他们在如此高并发场景上早有准备。这场战役之前,百家云已在阿里云团队的帮助下,优化自身容器集群架构与规划,通过以阿里云容器服务ACK、弹性裸金属(神龙)实例的核心方案,从容实现动态扩容与高效管控。

01 探索容器化改造,具备应对洪峰敏捷能力

百家云非常幸运,在这轮爆发之前完成了容器化改造。其他没有使用容器的在线教育企业,面对暴涨的用户,只能成倍堆积机器,导致部署时间拉长,业务成本剧烈升高。

故事要从百家云的业务发展开始说起。

百家云从2017年诞生之初就是在做直播大班课产品,是行业内拥有最纯正的教育基因的云视频公司。在2018年已经实现了过亿营收,服务了超过1000多家教育企业。

业务高速增长也在促使百家云技术团队探索自身技术架构的优化。到了2019年,百家云逐步推出小班课产品,该产品的处理方式与大班课不同,需要通过音视频抓屏的方式,将课程录制下来回放。

此过程中,还需要将音频与视频进行隔离。用虚拟机级别的隔离成本太高;若跑在统一虚拟机里,各个进程则会互相干扰。百家云团队于是关注到了容器这种更为轻量级的虚拟化技术。

在2019年上半年,百家云内部就开始尝试小规模对业务进行容器化改造,完成了基本流程的跑通。

然而,随着百家云容器规模的扩大,调度与管理成为了新的问题。阿里云的容器管理平台(ACK, Alibaba Cloud Container Service for Kubernetes),大大减少百家云的工作。百家的技术团队表示,容器减少了运维和测试的工作量;方便了对应用运行环境实现版本控制;且相比虚拟机有着更小计算开销,降低了IT成本。

彼时基于容器的云原生大潮已然席卷,基于容器技术的云原生架构,为百家云可能出现的业务峰值做了敏捷弹性的技术储备。

只是,这还是第一步。

瞬间来临的洪峰,还是给百家云带来了考验。

借助阿里云“容器+神龙”,三天内实现数十倍扩容

潮水袭来,百家云的问题很直接:扩容。

疫情是全国共同的敌人。业务持续稳定增长的百家云,未曾料想到新禧之年将面临这样一场“战役”,原来容器集群的许多配置没有按大规模集群去规划,导致单个集群可容纳的节点受限,原来使用的小规格实例也限制了单个节点的容量。

针对百家云的扩容问题,阿里云团队建议客户选用大规格的弹性裸金属服务器(神龙)。根据百家云的应用负载特点,结合容器服务管控合适规格的弹性裸金属实例来优化成本、避免浪费,提升弹性供给保障。

首先,阿里云弹性裸金属服务器(神龙)服务器的规格较高,可以帮助百家云显著提升了单个节点的容量。

更重要的是,百家云的K8s集群对性能要求极高。神龙服务器的性能优势明显, “容器+弹性裸金属(神龙)”的解决方案非常契合百家云大流量、高并发的场景。

基于容器化构建方式,可以满足业务快速发放和弹性的要求。神龙服务器完全消除了虚拟化损耗,提升了8%的计算性能,其类物理机特性,可进行二次虚拟化。

第二,神龙的性能,加上容器的弹性,形成了天作之合。数据显示,容器运行在云上神龙反而比非云物理机的性能要好10%-15%。主要是因为虚拟化开销已经offload到MOC卡上,神龙的CPU/Mem是无虚拟化开销的,而上云后运行在神龙上的每个容器都独享ENI弹性网卡,能提升13%的网络吞吐量。

第三,神龙服务器的存储带宽和计算带宽分离,能满足百家云业务场景的大量读写需求。使用神龙服务器之后,计算能力大增,但是同时也遇到了存储I/O性能瓶颈的问题。百家云通过使用阿里云的高性能NAS服务,并通过水平扩展为4个集群,解决了I/O的瓶颈。

基于以上方案,借助自身的大规模集群管理能力,在短短几天之内,阿里云团队帮助百家云团队有效升级了原有的架构方案,实现了数十倍的扩容,大幅提升了其性能与稳定性,并拥有了应对爆发性规模的能力。

03优化架构与集群规划,显著降低运维成本

面对突增流量压力,如何迅速动态弹性扩容以及高效管控运维成为迫切问题。

改变了原来虚拟化嵌套的形式,百家云利用神龙实现了容器的高密度部署。配合容器的敏捷管理能力,起码节省了25%的成本,降低了80%的运维工作量。同时,合理规划K8s集群,优化整体架构如网络、存储方案、扩容原则,确保后续运维的稳定性并降低使用成本。

此外,百家云还使用了阿里云高效运维管理的工具,显著降低了运维工作量。

由于百家云业务上容器的时间非常紧迫,根本没有多少时间可以花在运维监控上。通过使用ARMS Prometheus,仅仅半小时百家云就实现了容器节点环境的监控。相比开源 Prometheus 监控,ARMS Prometheus的数据量无上限且与阿里云容器服务ACK无缝对接,让百家云在容器里高效快速定位问题,了解如何改善自己的产品。

阿里云容器平台的日志服务(SLS)里中小应用事件中心,详细展示了集群的状态变更和组件异常等事件,帮助百家云把节点里面日志的异常信息汇总到控制面板,及时告警。

百家云CEO李钢江总结,阿里云带给百家云的价值主要是以下三点:

第一,提供了弹性计算的空间与敏捷安全的扩容能力

阿里云对应用镜像进行了镜像预热等手段,在扩容时可第一时间拉起容器。基于容器镜像服务ACR 安全托管大规模容器镜像资产,通过细粒度的镜像授权管控,安全快速地对应用镜像进行全生命周期管理。

第二,提供了相对稳定的服务与优异性能

基于阿里云自研的神龙软硬一体架构,弹性裸金属服务器(神龙)有着物理机的性能和虚拟机的使用体验。通过利用神龙,百家云实现更好地调度K8s集群,加上高性能NAS服务,解决了I/O瓶颈问题。

第三,技术支持团队响应及时,帮助百家云优化架构

百家云之所以后来面临扩容问题,部分源于其原来业务架构规划未做好管理大规模集群的准备,阿里云帮助了百家云在短时间内优化了业务架构,优化集群的管理能力。

阿里云作为全国第一、世界顶尖的云服务商,在IaaS和PaaS层能力强大;百家云在教育SaaS层的积累,可以与阿里云互补,一同以完整的在线教育方案去覆盖市场。

双方正在逐步深化合作,百家云将很快上线阿里云云市场——阿里云SaaS加速器的商业平台,即“软件天猫”,后续用户可直接在云市场选购百家云的服务。

欢迎收看“神龙+容器”助力在线教育闯关高并发的方案解读回看
image.png

相关实践学习
容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
通过本实验,您将了解到容器服务Serverless版ACK Serverless 的基本产品能力,即可以实现快速部署一个在线魔方应用,并借助阿里云容器服务成熟的产品生态,实现在线应用的企业级监控,提升应用稳定性。
云原生实践公开课
课程大纲 开篇:如何学习并实践云原生技术 基础篇: 5 步上手 Kubernetes 进阶篇:生产环境下的 K8s 实践 相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
11天前
|
存储 开发工具 对象存储
Javaweb之SpringBootWeb案例之阿里云OSS服务入门的详细解析
Javaweb之SpringBootWeb案例之阿里云OSS服务入门的详细解析
16 0
|
2月前
|
存储 DataWorks Kubernetes
阿里云cam授权案例
以下是内容摘要: 1. 阿里云OSS自定义策略允许全权访问`dc-odsopr`及其所有内容。 2. Dataworks授权文档详情见[此处](https://help.aliyun.com/document_detail/74302.html)。 3. 日志权限策略涵盖多种日志操作,如获取和管理项目、作业、日志存储等,限定于`cn-shenzhen`区域的`k8s`项目。 4. AliKafka权限包括实例、主题的管理,消息操作及部署、ACL、用户管理等。 5. OSS策略允许上传对象至`sz-creative-system-test-public`存储空间。
38 5
|
2月前
使用阿里云智能翻译接口案例—
使用阿里云智能翻译接口案例—
14 0
|
2月前
|
JSON 数据格式
使用阿里云火车票查询接口案例—
使用阿里云火车票查询接口案例—
12 0
|
2月前
使用阿里云身份证扫描识别接口案例—
使用阿里云身份证扫描识别接口案例—
48 0
|
4天前
|
域名解析 弹性计算 Linux
阿里云购买云服务器、注册域名、备案及绑定图文教程参考
本文为大家介绍了2024年购买阿里云服务器和注册域名,绑定以及备案的教程,适合需要在阿里云购买云服务器、注册域名并备案的用户参考,新手用户可通过此文您了解在从购买云服务器到完成备案的流程。
阿里云购买云服务器、注册域名、备案及绑定图文教程参考
|
2天前
|
存储 弹性计算 固态存储
阿里云服务器CPU内存配置详细指南,如何选择合适云服务器配置?
阿里云服务器配置选择涉及CPU、内存、公网带宽和磁盘。个人开发者或中小企业推荐使用轻量应用服务器或ECS经济型e实例,如2核2G3M配置,适合低流量网站。企业用户则应选择企业级独享型ECS,如通用算力型u1、计算型c7或通用型g7,至少2核4G配置,公网带宽建议5M,系统盘可选SSD或ESSD云盘。选择时考虑实际应用需求和性能稳定性。
|
6天前
|
网络协议 Serverless 应用服务中间件
Serverless 应用引擎操作报错合集之在阿里云函数计算中,服务器调用FC函数时出现 "[Errno -3] Temporary failure in name resolution)" 错误如何解决
Serverless 应用引擎(SAE)是阿里云提供的Serverless PaaS平台,支持Spring Cloud、Dubbo、HSF等主流微服务框架,简化应用的部署、运维和弹性伸缩。在使用SAE过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
26 4
|
7天前
|
存储 编解码 安全
阿里云服务器计算型c7与c8y、通用型g7与g8y、内存型r7与r8y区别及选择参考
在阿里云目前的活动中,除了轻量应用服务器和经济型e、通用算力型u1实例的云服务器之外,性能更高的云服务器实例规格有计算型c7与c8y、通用型g7与g8y、内存型r7与r8y,这些实例规格更适合企业级用户的上云需求,有的用户并不是很清楚他们之间的区别,从而不知道应该如何选择,本文就为大家介绍一下他们之间的区别,以供选择参考。
阿里云服务器计算型c7与c8y、通用型g7与g8y、内存型r7与r8y区别及选择参考
|
8天前
|
存储 小程序 数据库
阿里云学生云服务器申请,阿里云送每个大学生一台云服务器
2024年,阿里云为学生提供免费7个月的学生服务器,包括2核2G配置、1M带宽和独立IP。学生需通过学信网认证,完成任务可额外获得6个月免费时长。申请流程包括注册阿里云账号、实名认证和学生认证。此外,学生可免费领取300元无门槛优惠券,在阿里云高校计划中使用。学生服务器可用于建站、部署等多种场景。详细信息和申请入口见官方链接。
73 0