扩容、重保、盯盘......在家“隔离”这1个月,阿里云视频云这些工程师都经历了什么?-阿里云开发者社区

开发者社区> 樰篱> 正文

扩容、重保、盯盘......在家“隔离”这1个月,阿里云视频云这些工程师都经历了什么?

简介: 危难面前,更能检验技术力量,这是一场前所未有的硬仗,也是一个身为技术人特有的高光时刻。在这场战“疫”中,有一些故事值得被记录。
+关注继续查看

战"疫”当前,没有谁会置身事外。从1月底开始,一场全民疫情阻击战拉开帷幕,企业停工、学校停课、商场停业,城市街道分外冷清,相反的是,无法出门的数亿网民却在互联网上掀起了一阵不小的流量热潮。距离2月10号的那次流量洪峰,已经过去整一个月了。此时的喻义正在组织内部视频会议,对这一个月以来的工作进行复盘。在他看来:危难面前,更能检验技术力量,这是一场前所未有的硬仗,也是一个身为技术人特有的高光时刻。在这场战“疫”中,有一些故事值得被记录。

疫情之下 时刻在线

春节假期期间,喻义所在的阿里云视频云团队刚刚完成了春晚直播的护航,如果是往年,到了大年初二,他们就可以放下紧张的情绪,将注意力回归到家庭了。但今年不同,受到疫情影响,1.8亿家庭蜂拥网上看贺岁片,4000万网友在线云监工火神山,2亿人集体在家复工,全国中小学生空中开课……海量视频数据汹涌而来,在互联网之上奔流涌动。

喻义从春晚护航开始就一直紧盯CDN资源大盘,眼看着数据节节攀升,作为CDN产品架构和边缘基础设施团队的负责人,他接到任务,将为这次互联网流量遭遇战挂帅出征。

对于任何互联网服务来说,用户的稳定、流畅、高效地使用都是体验的基础。而CDN的任务就是要确保这条“互联网信息高速公路”的顺畅通行,避免因为拥塞而导致出行效率的降低。

“说实话当时虽然业务有点紧迫,但是我们还没有对接下来的流量大爆发有充分的预感,所以前期基本是在复用之前的技术方案,加之每年双11期间和一场场大活动的经验积累,我们还是很快就把方案跑通了。”喻义说。

喻义工作照.JPG
(在家办公,喻义占用了女儿的小书桌)

然而在2月1日的时候,工程师们就觉得不对了,来势汹汹的新冠病毒给他们打了一个措手不及。大批线下流量转移到线上,用户和在线时长的爆发式增长,也带来了带宽需求的井喷。提出扩容需求的客户越来越多,系统预估在接下来几周的推流和带宽业务量将大大超出之前预期的数据。

整个钉钉群里充斥着这样的话语:“客户要加量,下周一要翻10倍,快做方案!”、“这波峰值平稳过了,预测下一波在2小时后”、“客户端质量数据拉出来了,半小时后拉会拍优化方案”、“这个流的视频码率要稳定控制在850Kbps,谁来配合我搞一下?”、“这延迟肯定不行,调不好不能给客户上线”、“节点水位已经接近安全阈值了”……喻义的心也跟着悬了起来。

被卷入这场战役的每个人都不容易。时间紧任务重,这群工程师要在短短几天时间内要完成资源储备和调度,调整直播技术方案,做足应急预案,同步还要确保对线上客户的问题响应和护航,跟他们一起扛住一波又一波的流量高峰。

千锤百炼 “疫”不容辞

为什么要扩容?当遭遇网络流量骤增、用户请求量增长时,平台面临着下行流量带宽水涨船高,服务器压力变大的问题,站点响应慢、连麦效果变差、音画不同步、互动不及时等一系列连锁反应都会出现,在线教育、视频会议、互动直播等视频类业务首当其冲。为了确保用户体验不受影响,不让带宽成为业务增长的阻力,提前“备粮”是不二之选。

比如兄弟团队钉钉,他们在阿里云上紧急扩容1万台云服务器,保障业务的连续稳定。同时也向阿里云CDN提出了扩容需求,确保钉钉视频会议、群直播的用户流畅体验。

钉钉在家办公.png
(图片摘自网络:这个开工季,钉钉视频会议是常态)

所有人都知道流量一定会增长,但是到底会涨多少,在什么时间点迎来爆发,谁也不敢下保证。这么频繁的扩容和庞大的体量也给了CDN系统带来了不小的挑战:

第一,特殊时期依旧要确保交付效率

疫情来的太过突然,流量的迅猛增长给系统带来的冲击不亚于每年双11,然而留给所有人准备的时间往往只有几天,保持带宽资源的充足、弹性,在较短时间内为众多客户应急扩容是一个很大的挑战,加之疫情期间封路、封城、施工人员隔离等各种不可控因素,扩容之路异常艰辛;

第二,平台流量越多,对调度系统的考验越大

当CDN平台上有越来越多的流量涌入,如何更高效地进行资源规划,实现全网负载均衡?如何实现精准的流量预测与控制?如何赋予业务必要的弹性?如何智能分析流量画像,准确判断和预估出每一路直播的CPU和带宽消耗,精细粒度的调度资源这些都是难点;

第三,极限场景下的业务稳定性保障

疫情期间存在各种客观因素制约,直播链路涉及到推流、转码、录制、截图、时移、分发等等环节非常长,怎样预先避免资源瓶颈这类极限场景?如果出现了,有哪些应急手段可解?怎样把对客户的影响降到最小?

第四,重保每一个客户

疫情期间每一个在线教育和远程办公平台背后都承载着一份希望,工程师们远离客户现场,很多都是隔离在家,却依旧要保持对临时需求变更的迅速响应和高质量交付。

“挑战再大,也不能把为客户服务的脚步给吓停了。从2014年阿里云CDN上线到现在,这种挑战无时无刻不存在,所以我们的武器(技术)才能被磨的更光更亮,我们还是有信心能打赢这场遭遇战的。”喻义说道。

首先,在资源部署上,阿里云分布CDN全球2800+边缘节点和130Tbps带宽储备,已经具备足够的弹性容量,团队也成立疫情支持专项小组,其中专门负责资源管理和建设的同学7*18小时盯盘跟进资源扩容,确保弹性。其次,在调度系统上,阿里云智能调度系统可以做到15%业务弹性自动化兼容,确保节点水位平稳跑在80%,基于全球LDNS进行画像和基于分钟级日志精准分析,以此完成偏差在5%以内的流量精准预测,同时保证调度策略秒级生效。第三,经过了11年双11和2018年俄罗斯世界杯的打磨之后,CDN对视频高并发这类业务场景已经比较熟悉,具备一套成熟的解决方案和完整的应急预案。在服务30多万客户的过程中,针对点播、直播、HTTPS、大文件、客户端、内容安全防护等不同业务类型,系统的技术储备也比较充足,可以为客户提供场景化、针对性的加速方案,使得收益最大化。

每次的商业变革都将催化新技术的创新和应用,这次极限拉练也给了阿里云视频云不少新技术大展身手的机会,帮助在线教育行业解决了低延时、高并发、大带宽等行业通用难题。其中,超低延时直播RTS(Real-time Streaming)服务在疫情期间支持了大量在线教育平台,在直播推流端、播放端通过SDK嵌入的方式集成阿里云私有协议,实现直播延迟降级到百毫秒级;多中心百万级并发推流解决方案,提供专门应对海量推流场景的全链路优化,可助平台更从容应对短时间的并发开课;自适应码率解决方案采用机器学习手段,通过分析历史编码信息和待编码帧的复杂度,在不影响人眼主观观看质量的情况下,减少低复杂度场景的码率消耗,确保每一帧都能以最合适的码率编码,从而针对在线教育场景降低50%以上码率,大幅节省带宽成本。

“过去几年的护航经验和专业的技术储备让团队底气很足,接下来的几波流量高峰也平稳度过了。看着客户的直播稳了,CDN大盘稳了,我们才能安稳得睡一觉。”喻义说道。

使命必达 上路即狂奔

过去的1个多月里,合作多年的在线教育平台不断加码、各地教育部门发起的空中课堂频繁上线、和兄弟团队的合作紧锣密鼓,阿里云视频云不曾停歇。

1月31日起,在线教育群雄四起,CDN和边缘节点服务开始为各大平台扩容重保,为猿辅导、好未来、VIPKID等数十家平台提供技术支持。

2月3日,特殊开工日,CDN护航了钉钉上1000万家企业的在线开工,为视频会议、群直播的顺畅访问提供有力保障。

2月3日,阿里云视频云与保利威联手搭建“空中课堂”,帮助黄冈中学高三班重回课堂,确保在整个线上直播系统在增长数倍的情况下,依旧能保持高清的画质和流畅的交互体验。

2月6日,阿里云视频云发布停课不停学在线教育专项扶持计划,用免费产品套件和千万补贴基金全方位驰援教育机构和SaaS合作伙伴,通过视频点播、视频直播、RTC等产品技术赋能教育客户更快速、更经济地搭建多端远程授课应用。

2月10日,阿里云同天喻教育、微吼科技共同建设的武汉教育云“空中课堂”上线。也是在这一天,全国60万教师在钉钉直播上课,CDN保障全国5000万学生“在家上课”低延迟、流量的体验。

13e8-iprtayz1894383.png
(国家中小学网络云平台上线)

2月17日,国家中小学网络云平台正式开通。在此之前的7天内,阿里云完成了全部CDN资源部署,确保平台网络带宽充足和视频传输链路的稳定。

2月19日,宁波教育局“甬上云校”累计浏览量突破2500万次,总流量达到1200T,相当于300万节课已经被浏览,阿里云视频云为其提供了多直播中心部署和就近的优质节点接入,为百万学生的上课体验保驾护航。

截至目前,停课不停学在线教育专项扶持计划发布1个月有余,已经累计为数千名中小企业提供专项技术扶持和免费产品服务。不止如此,阿里云视频云也为全民“云拜年、云聚餐、云蹦迪”筑起了一道坚实、极速的流量长城,此时此刻,故事还在继续。

屏幕快照 2020-02-06 上午9.17.52.png
(在线教育专项扶持活动部分免费产品)

暖春花开 未来已来

疫情给国民生命和经济带来了打击,也给大家日常工作和生活都带来了很多不便。但是客观环境的改变,却让在线教育、线上办公、互动直播等“在线”业务迎来了意外的发展机遇。未来,零售、金融、政务、医疗……越来越多的行业会将目光瞄准“在线”, 在线化、数字化转型将会使得作为IT基础设施的云计算技术提出更高的要求,而CDN则是在线业务坚守“流畅、稳定、可靠”的最佳防线。

为了做好数字经济的流量底座,阿里云视频云不仅在资源和产品服务上加大投入,也聚焦在智能中台、边缘安全等领域做了不少技术投入:“我们已经建成了从智能运维,实时数据监控、全网动态实施故障感知到智能自修复的全链路智能运营支撑平台,用于提升系统稳定性,确保业务724365可靠。而针对政府网站、金融、企业办公这类对安全有特殊需求的业务场景,我们也在CDN上纳入了边缘防护能力,支持边缘WAF、DDoS防护,防CC,防Web应用攻击、HTTPS传输加密,同时面向客户提供防爬、防篡改、防盗链、防劫持等防护手段。CDN也已经通过了等保2.0三级认证,希望能为客户带来安全与加速的一站式体验。”喻义介绍到。

5G 时代,更多在线、视频类创新应用将会被激活,CDN将从内容分发将演变为价值传递,作为承载流量的基础技术与边缘计算相结合,成为各行各业提升效率、优化经营、智能应用的强大驱动力。

不知不觉,窗外已经是暖春,城市正在复苏,喻义心想:“或许CDN的下一个春天也已经在路上。”

上云采购季 CDN&视频云优惠

点击直达上云采购季,获取CDN和视频云产品优惠
采购季2.png

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云Windows 自动扩容分区脚本
阿里云 Windows 分区管理批处理,磁盘信息查询,系统盘自动扩容,数据盘自动扩容,数据盘自动分区
3762 0
阿里云ECI如何6秒扩容3000容器实例?
2021年云栖大会现场,阿里云工程师演示了在6秒时间内成功启动3000个ECI,并全部进入到Running状态。本文将为你揭开阿里云ECI是如何做到极速扩容的。
238 0
扩容阿里云kubernetes集群,并升级节点内核
作为早期阿里云 kubernetes 的产品经理, 控制台方式实现节点上下线是我提出来的需求。
671 0
疫情期间云沃客使用阿里云k8s动态扩容实践
在春节前后的武汉新冠肺炎疫情的影响下,云沃客为了支持国家对疫情的控制,免费对所有企业开放公司研发6年的云工作平台。因此在节后众多企业复工的情况下,平台面对非常大的流量压力。如何做到动态扩容应对流量冲击压力,我们首先想到了k8s,因为云沃客基本上都是基于微服务的,但是短时间内自建k8s平台,还要面临巨大的运维压力,实在时间来不及,所以只能把目光聚焦到阿里云的容器云服务,经过压力测试我们发现阿里云的服务非常不错。因为有了这篇k8s的实践。目前来看也能很好支撑云沃客的流量。
1437 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
8920 0
视频 | 云运维工程师的第一节OSS必修课
OSS,即Object Storage Service(对象存储服务),是提供海量数据存储、安全、低成本、高可靠的云存储服务。阿里云OSS 具有与平台无关的 RESTful API 接口,可以在任何应用、任何时间、任何地点存储和访问任意类型的数据。掌握OSS为何重要?如何攻克OSS?本文献你锦囊妙计!
886 0
在线教育流量暴涨 阿里云PolarDB分钟级扩容保障教育平台不“卡顿”
疫情期间,停课不停学,在线课堂成为首选模式,由此带来流量洪峰。2月17日,开学第一天,包括学习通、慕课网等在内的多家在线教育平台出现“卡顿”和“死机”,而阿里云数据库通过分钟级扩容,保障了沪江教育、猿辅导、VIPKID、洋葱学院等多家教育平台的平稳。
123 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
10522 0
+关注
樰篱
阿里云产品运营,专注边缘计算和视频云产品与技术传播
526
文章
59
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《Nacos架构&原理》
立即下载
《看见新力量:二》电子书
立即下载
云上自动化运维(CloudOps)白皮书
立即下载