在云之上的猿辅导,撑住了500万中小学生的挑战

本文涉及的产品
云原生数据库 PolarDB MySQL 版,通用型 2核8GB 50GB
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
简介: 2020年1月,猿辅导正式对外宣布全球累计用户数量突破4亿,这家国内K-12在线教育领域首个独角兽公司,从猿题库、小猿搜题APP一路走来,如今已经成为拥有猿辅导(网课)、猿题库、小猿搜题、小猿口算、斑马AI课等多元化产品的在线教育企业,教学内容覆盖从学龄前、小学、初中到高中的完整K12阶段,用户涉及儿童、中小学生、家长和老师等各类人群。

2020年1月,猿辅导正式对外宣布全球累计用户数量突破4亿,这家国内K-12在线教育领域首个独角兽公司,从猿题库、小猿搜题APP一路走来,如今已经成为拥有猿辅导(网课)、猿题库、小猿搜题、小猿口算、斑马AI课等多元化产品的在线教育企业,教学内容覆盖从学龄前、小学、初中到高中的完整K12阶段,用户涉及儿童、中小学生、家长和老师等各类人群。

1月17日,猿辅导迎来了“破4亿”之后的第一个挑战:掌上高铁APP猿辅导专区当日正式上线,这一内容涵盖中小学全科的试听课、重难点知识讲解的贴心旅程服务,得到了春运中父母们普遍欢迎,也正是在这一天,2020年春节的农历小年,全国铁路大约发送旅客1200万人次,猿辅导的“高铁在线课”平稳度过了上线即峰值的第一天;

短短几天之后,毫无预兆的挑战扑面而来:新冠肺炎迅速取代春运成为这个冬天最受关注的话题。

疫情之下,为了避免大规模疫情爆发,教育部及各级教育主管单位宣布各高校及中小学延期开学,基于保障原计划开学日到实际开学日之间的教学不中断、减缓开学后的教学压力的考虑,教育部提出“停课不停学”的应急措施,鼓励各地尽可能利用互联网和信息化教育资源为居家学生提供学习支持。

猿辅导立即响应“停课不停学”的号召,宣布在寒假延长期内向全国中小学生提供免费直播课,其中包括巩固预习课、大师人文课等70余门综合素质提升课程,不仅覆盖从小学到高中全年级全科目,更邀请到了纪连海、康震、张召忠等众多学者大师。

猿辅导免费直播课一经公布,预约人数就连创新高:在2月3日开课首日,创下全国500万中小学生同日在线听课的在线教育行业记录,而到2月6日,猿辅导免费直播课的报名人数更是超过1000万。

撑住了500万中小学生同日在线听课的猿辅导,并没有停下给自己“立flag”的脚步:2月6日起,猿辅导陆续与“学习强国”、人民日报新媒体、“央视频”平台等官方合作伙伴联合推出免费直播课,通过多个用户量级上亿的平台为全国中小学生提供学习支持,一些著名中学和地市教育局也陆续加入到推荐名单中,在连续不断到来的高峰压力下,猿辅导还是撑住了。

从用户量破4亿、春运期间登录掌上高铁APP,再到500万中小学生同日在线免费直播课,又接连撑住三大亿级体量平台的流量引入,在这个特殊寒假,猿辅导撑住了一轮又一轮的流量高峰,在这背后,这家被猿辅导联合创始人李鑫称之为“对在线学习方向有执念”的公司,是如何一路“升级,打怪”并在今时今日一轮又一轮流量高峰汹涌而来之时撑住的?

猿辅导的选择:把信任交给队友,把峰值交给云

为了在免费直播课带来的业务高峰中给中小学生连续、可靠的提供优质课程内容,全面保证疫情期间在线课程的内容质量和运行流畅,猿辅导内部启动线上办公的快速响应机制,对教学、服务、技术、平台、服务等多个业务端口进行重点工作部署,并动员了 356位主讲老师、412位助教老师、151位技术人员以及更多相关工作人员持续“作战”。

与此同时,猿辅导的技术团队全力投入到业务保障中来,从全链路监控,容量评估,在线容灾,故障演练等方面全面保障系统运行,并制定了四条业务高峰期的应对措施:

第一、建立全链路监控大盘,全面监控学生用户使用情况以及系统支撑情况,一旦报警,出发相关策略,动态扩容以及通过技术手段提升学生上课体验;

第二,构建容量评估模型,结合业务数据和系统压测结果,建立模型,充分评估资源,智能进行扩容;


第三,全力确保在线容灾保证高可用。一旦发生服务大面积不可用,我们可以实现秒级切换,让问题用户无感知的快速切换到灾备服务;


第四,依靠在线课堂长期固定下来的故障模拟演练,模拟生产上业务高峰各种突发业务场景,保证系统高并发以及高可用。

但相比平时约10倍的业务流量峰值,仍然让猿辅导感受到了深深压力。因此,针对疫情高并发的流量,猿辅导技术团队决定,“把信任交给队友,把峰值交给云”,与已经合作了多年的阿里云支持团队沟通,针对业务系统以及在线课堂进行快速、大规模扩容,并通过云上全方位技术手段保障系统可用性、可靠性、安全以及稳定性。

一场与时间的赛跑就此展开。第一次云资源扩容发生在凌晨12点,猿辅导技术团队在向阿里云支持团队提出“盘点云资源库存”需求并快速得到计算、存储、网络资源存量盘点报告之后,立即决定对云服务器、存储、数据库和带宽进行紧急扩容。凌晨五点左右,阿里云的云资源紧急扩容完成,与猿辅导团队一起,迎接了当天全国百万中小学生在线听课的挑战。

截止到2月10日,猿辅导在阿里云上的资源已经进行了3次扩容,总体云资源的扩容规模和效率史无前例。与此同时,在阿里云支持团队的协助下,猿辅导技术团队梳理了包括直播课、小猿口算等业务全链路上存在的资源和性能瓶颈,并对系统架构进行了一定优化和调整,特别是针对与“学习强国”、人民日报新媒体、“央视频”平台等合作的对外公开课平台,构建了支持峰值流量的新架构体系。

猿辅导为什么敢“把信任交给队友,把峰值交给云”?

猿辅导之所以在业务关键期能够放心的“把信任交给队友,把峰值交给云”,与两个关键因素密切相关:

首先,阿里云在支撑猿辅导的业务峰值,缓解业务压力,保证在线教育服务质量上,早已历经考验。

2015年,猿辅导部分IDC向公共云迁移,使用云IT基础设施、云上增值服务和大数据和人工智能平台,逐步在云上建立起一套完整的业务支撑和运营分析系统。

随着线下辅导班的收紧和教师在线授课的概念获得家长认同,猿辅导的中小学在线互动辅导直播课业务迎来发展黄金期,特别是2018-2019年,猿辅导APP上一线主讲老师直播授课需求井喷,成为猿辅导的核心业务,但实时直播对猿辅导的基础设施支撑能力也提出了严峻的挑战:

1、承载实时直播的网络要做到高并发、低延迟、高带宽、高稳定性,确保上课期间不延迟不卡顿不断线;

2、由于授课教师和学生在地域上在全国广泛分布,存在大量跨市、跨地区甚至跨省的连接场景,这就意味着实时直播必须满足与高清视频会议类似的网络质量,避免因为网络抖动发生的掉线;

3、猿辅导的在线直播课并非简单的“课程播放”,存在着包括提问回答、训练测验等在内多种交互互动,这意味着传统的内容分发技术不可能满足猿辅导的业务需求,需要有强大的基础设施和技术支持;

为此阿里云有针对性的为在线直播课业务设计了解决方案,整合全网IT资源,提供全域覆盖、全技术栈覆盖的用户服务端到端质量保障。不仅优化了业务支撑体系的技术架构,还极大简化了猿辅导搭建和使用的技术门槛,在优化业务质量和综合成本的同时,也提高了其IT建设和运维效率。

阿里云的解决方案既保证了猿辅导互动直播课的实时直播和交互互动的网络稳定和计算需求,又借助其全域覆盖、多层渗透的特点,支持猿辅导在全国各线城市(不仅包括2、3线城市,甚至是4线及更深度的市场)的课程服务。不仅如此,阿里云提供的云基础设施和服务所提供的网络质量、硬件质量、服务质量非常优质,通过阿里巴巴最佳实践的加持,最大限度保证了在线课堂连续的沉浸式体验。

技术是底座,服务是保障,在云产品可靠性之上,客户支持团队成为猿辅导与阿里云紧密联系的另一个关键因素:为了更好的服务猿辅导,确保在线教育教师、学生和家长的满意度,阿里云组成了一个涵盖技术、服务等多个领域的专属团队,这个小组提供了7 x 24小时的跟踪服务:

一方面,这个专属团队确保猿辅导得到最可靠的云资源支持以及全方位的安全体系,第一时间响应客户需求,及时在疫情期间免费直播课等大业务场景峰值到来前进行深度有效的沟通;

另一方面,持续测算猿辅导的云资源池的“水深(资源使用情况和储备情况)”,预测猿辅导业务爆发对云资源进行的消耗并进行有效保障,用科学的评估方法预估客户业务量以及需要资源的用量,在及时服务的同时,提供科学有效、有据可查的云资源、产品与技术服务;

云上所展现出来的技术优势及其对核心业务的高并发支撑,阿里云“F4团队”所体现出来的专业服务水平让猿辅导可以安心地将业务交付给云、将峰值交付给阿里云,不仅如此,猿辅导也将在线教育业务创新的“后背”,留给了阿里云。

把在线教育业务创新的“后背”留给阿里云

从2012年成立,到2015年开始商业化,从最初的拍照搜题工具,到答疑讲解视频,再到中小学在线辅导直播课,猿辅导在三年内完成了从“工具”到“内容”再到“产品”的发展进化,但猿辅导并未将自己仅仅局限于一家在线教育平台型或者APP公司,而是定位于一家科技公司,在2014年成立人工智能研究院,开始一方面在内部探索和孵化AI课程,另一方面将语音识别、手写识别等技术,应用到拍照搜题、英语作文智能批改、古诗文助手等产品功能当中。

随着猿辅导在技术上探索的逐渐深入,不仅成功孵化出小猿口算这一网红APP,更开创了在线教育大规模在线模考先河:

小猿口算是覆盖学龄前及小学各年龄段学生的数学口算练习及批改APP,使用人工智能图像识别技术,可以做到1秒检查数学作业,支持多种题型,目前横式识别准确率高达99.9%以上,每日批改题目数超过2.5亿。

小猿口算的成功让教师、家长感受到了AI价值,学生也可以在轻松环境中手写作答,并通过自动收集错题,更有针对性的练习,快速突破数学难点、易错点,但这对猿辅导AI基础设施提出了严峻挑战:学生的口述答题、手写答题(答题图像)能够准确判断对错,需要大量的训练和推理工作。

不仅如此,小猿口算的成功也带来了业务上的巨大峰值:小猿口算现在每日在线练习题目数超过2500万道,已服务3000多万小学生,无论是答题图像识别,还是进一步的训练和推理,AI算力的需求被进一步放大。

为了缓解猿辅导AI技术团队在人工智能算力、优化GPU资源利用率以及进一步提升研发团队AI技术能力等方面的诉求,阿里云提供了具备超高计算性能的GPU服务器,甚至从无到有的提供指定配置的GPU服务器,保障了小猿口算等AI算力需求的暴增。

除此以外,在GPU算力优化,以及利用AI辅助进行教学,提升教学质量,例如课堂质量监控等方面,阿里云的AI团队也与客户通过技术共创的方式,在互通有无中帮助了猿辅导AI团队的迅速发展。

大规模在线模考是猿辅导的杀手锏。早在2018年5月,猿辅导就组织了13万学生参加的“高三英语在线模拟考试”, 考试内容涵盖从听力到作文全部环节,两个小时的考试中,学生通过手机答题,考试结束后系统自动收卷并完成批改、评分:这次考试,不仅从听力到作文,一比一还原了英语全国I卷的题型和题目次序,系统批改用时不到5分钟,就已形成考生个人成绩报告和诊断报告,让考生更及时、更全面的获得成绩评价反馈。

在线模考这一极具特色的功能受到教师和家长的广泛认可,用户量每年飞速增长,其原有以MySQL为基础的自建数据库解决方案已经捉襟见肘,CPU利用率已经达到了70%以上。

在周末或者在线模考的时候,同时在线人数会瞬间激增,而数据库已经难以应对这样的访问峰值,因此会有大约三分之一的学生无法正常进入在线考试,答题的延时也比正常情况放大了数倍,使得学生用户的答题体验急剧下降。

为了让这一特色功能继续成为猿辅导的王牌,猿辅导急需一个能够满足业务高速发展需求、管理简单、避免人力成本激增的解决方案,但这并非易事:仅就斑马AI课(原斑马英语)来说,其课堂测验及试题解读,就面临着每秒几十万学生交卷、IOPS峰值高达百万的挑战。

猿辅导的选择是阿里云自主研发的云原生数据库:这一数据库解决方案不仅具有较高的性能,且能够MySQL实现100%兼容之外,更具有弹性伸缩能力和容量最高可达100T的能力,猿辅导借助其快速弹性的能力,在业务的高峰期临时增加数据库配置和集群规模,与之前的方案相比整体成本大大降低,并且解决在线交卷时出现的用户高并发访问所造成的读写争用和高峰值I/O的问题。

猿辅导将数据库迁移到阿里云之后,在业务平峰的时候,能够同时支撑大体量学生在线进行课程学习,并且业务根本不会感觉到压力。而当应对业务高峰的时候,只需要提前一小时进行准备,就能够将业务能力临时提升至足以应对100万学生并发访问的等级。

而且,由于云原生数据库资源可以按需弹性伸缩,因此在猿辅导从MySQL迁移之后节省了只读库的容量,节省了近70%的数据库费用支出。

阿里云云原生数据库在猿辅导的成功实施,也给了这家总是让人出乎意料的在线教育企业更大的信心:猿辅导在新冠肺炎疫情期间宣布,将于2月15日14点,开启一场“全国百万人同时在线的英语模拟考试”,即“百万人在线大模考”,以高性能弹性可扩展的PolarDB数据库为基础,结合猿辅导AI技术团队创新的全卷自动批改、智能诊断分析、全国排名预测等AI能力,猿辅导将创造一场全国百万学子同场PK的在线模考,创造同时在线人数最多在线模考的行业记录。

无论是网红APP小猿口算背后的阿里云AI算力与AI技术,还是“百万人在线大模考”背后的云原生数据库解决方案,抑或是新冠肺炎疫情期间的免费直播课,猿辅导将业务的峰值留给了阿里云,更将自己创新的“后背”留给了阿里云,并成为一家以创新科技为驱动,以云上资源和技术为基础的在线教育独角兽。

如今,猿辅导已经独有国内百亿级K12学习行为数据库,借助云计算、大数据、人工智能等数字科技,猿辅导将有机会在充分挖掘其74亿次学生答题行为数据、284亿次题目搜索数据的价值基础上,为用户提供网课、智能练习、难题解析等多元化的智能教育服务,围绕同一个学生建立个性化的学习诊断和成长档案、完成学习闭环,帮助广大学生系统性、高效率地完成学习,而更重要的是,在智能手机、4G网络已经普及,优质教育资源却存在稀缺和分配不均的今天,猿辅导将有可能在云之上,为教育公平化、普惠化做出极为重要贡献。

点击查看更多阿里云抗击疫情解决方案

f76e0e27fee54ac48d350a974bc200ae.png

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
弹性计算
Palworld幻兽帕鲁服务器推荐:2024年阿里云幻兽帕鲁服务器
Palworld幻兽帕鲁服务器推荐:2024年阿里云幻兽帕鲁服务器,阿里云幻兽帕鲁服务器26元/月起,配置为4核16G10M带宽,8核32G10M带宽价格是90元一个月
1132 4
|
机器学习/深度学习 人工智能 计算机视觉
带你读《深度学习与图像识别:原理与实践》之一:机器视觉在行业中的应用
这是一部从技术原理、算法和工程实践3个维度系统讲解图像识别的著作,由阿里巴巴达摩院算法专家、阿里巴巴技术发展专家、阿里巴巴数据架构师联合撰写。在知识点的选择上,本书广度和深度兼顾,既能让完全没有基础的读者迅速入门,又能让有基础的读者深入掌握图像识别的核心技术;在写作方式上,本书避开了复杂的数学公式及其推导,从问题的前因后果 、创造者的思考过程,利用简单的数学计算来做模型分析和讲解,通俗易懂。更重要的是,本书不仅仅是聚焦于技术,而是将重点放在了如何用技术解决实际的业务问题。
|
4月前
|
机器学习/深度学习 数据采集 数据可视化
Java 大视界 -- 基于 Java 的大数据可视化在城市空气质量监测与污染溯源中的应用(216)
本文探讨Java大数据可视化在城市空气质量监测与污染溯源中的创新应用,结合多源数据采集、实时分析与GIS技术,助力环保决策,提升城市空气质量管理水平。
Java 大视界 -- 基于 Java 的大数据可视化在城市空气质量监测与污染溯源中的应用(216)
|
8月前
|
缓存 前端开发 API
开发体育比分网站有哪些坑需要注意
开发体育比分网站需克服多方面挑战:数据来源上避免侵权,选用合法API;实时性上采用WebSocket等技术确保秒级更新;优化用户体验,极简设计配合实时动画;技术架构中使用缓存与微服务应对高并发;SEO方面通过SSR和服务端结构化数据提升搜索流量。示例代码展示了比赛数据的基本处理逻辑,包括设置比赛ID、状态、赢家信息及计划标记等功能。
260 62
开发体育比分网站有哪些坑需要注意
|
11月前
|
人工智能 搜索推荐
AI视频技术的发展是否会影响原创内容的价值
AI视频技术的发展显著降低了视频制作的门槛与成本,自动完成剪辑、特效添加等繁琐工作,大大缩短创作时间。它提供个性化创意建议,帮助创作者突破传统思维,拓展创意边界。此外,AI技术使更多非专业人士也能参与视频创作,注入新活力与多样性,丰富了原创内容。总体而言,AI视频技术不仅提升了创作效率,还促进了视频内容的创新与多样化。
|
11月前
|
存储 人工智能 数据管理
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
在生成式AI的浪潮中,数据的重要性日益凸显。大模型在实际业务场景的落地过程中,必须有海量数据的支撑:经过训练、推理和分析等一系列复杂的数据处理过程,才能最终产生业务价值。事实上,大模型本身就是数据处理后的产物,以数据驱动的决策与创新需要通过更智能的平台解决数据多模处理、实时分析等问题,这正是以阿里云为代表的企业推动 “Data+AI”融合战略的核心动因。
|
JavaScript 前端开发 API
Vue.js:现代前端开发的强大框架
【10月更文挑战第11天】Vue.js:现代前端开发的强大框架
379 41
|
JavaScript 数据安全/隐私保护
马蜂窝 cookie 加密(加速乐)
本文介绍了一次针对马蜂窝网站的逆向工程过程,旨在学习交流,不提供完整代码及敏感信息。文中详细描述了三次GET请求的过程,通过抓包工具分析了请求头和响应内容,并逐步解析了`cookie`参数的生成方法。最终通过携带特定`cookie`成功获取页面内容。严禁将本文内容用于非法或商业用途,违者自行承担一切后果。未经许可不得转载或修改后传播。
347 0
|
监控
DDN是什么,DDN专线的优势详解
数字数据网(DDN)是一种利用数字信道提供稳定、可靠的数据信号传输服务的网络。它支持点到点的数字传输,适用于大数据量、高实时性和强保密性的需求,如数据、图像和话音传输。DDN具有连接灵活、服务多样和技术成熟等优点,适合商业和金融等行业使用。与SDH和ISDN相比,DDN不具交换功能,但能提供更广泛的传输速率和更高的灵活性。
1000 8
|
存储 弹性计算 大数据
阿里云16核32G服务器价格多少?2024年阿里云16核32G云服务器配置价格及测评参考
阿里云16核32G服务器价格多少?给你提供阿里云16核32G云服务器的详细测评。关于2024年阿里云16核32G云服务器的价格:阿里云16核32G云服务器的价格因不同的实例类型和配置选项而有所不同。一般来说,这种高配置的服务器适用于需要处理大规模数据或运行高负载业务的企业级用户。
2021 1