扩容、重保、盯盘......在家“隔离”这1个月,阿里云视频云这些工程师都经历了什么?

简介: 危难面前,更能检验技术力量,这是一场前所未有的硬仗,也是一个身为技术人特有的高光时刻。在这场战“疫”中,有一些故事值得被记录。

战"疫”当前,没有谁会置身事外。从1月底开始,一场全民疫情阻击战拉开帷幕,企业停工、学校停课、商场停业,城市街道分外冷清,相反的是,无法出门的数亿网民却在互联网上掀起了一阵不小的流量热潮。距离2月10号的那次流量洪峰,已经过去整一个月了。此时的喻义正在组织内部视频会议,对这一个月以来的工作进行复盘。在他看来:危难面前,更能检验技术力量,这是一场前所未有的硬仗,也是一个身为技术人特有的高光时刻。在这场战“疫”中,有一些故事值得被记录。

疫情之下 时刻在线

春节假期期间,喻义所在的阿里云视频云团队刚刚完成了春晚直播的护航,如果是往年,到了大年初二,他们就可以放下紧张的情绪,将注意力回归到家庭了。但今年不同,受到疫情影响,1.8亿家庭蜂拥网上看贺岁片,4000万网友在线云监工火神山,2亿人集体在家复工,全国中小学生空中开课……海量视频数据汹涌而来,在互联网之上奔流涌动。

喻义从春晚护航开始就一直紧盯CDN资源大盘,眼看着数据节节攀升,作为CDN产品架构和边缘基础设施团队的负责人,他接到任务,将为这次互联网流量遭遇战挂帅出征。

对于任何互联网服务来说,用户的稳定、流畅、高效地使用都是体验的基础。而CDN的任务就是要确保这条“互联网信息高速公路”的顺畅通行,避免因为拥塞而导致出行效率的降低。

“说实话当时虽然业务有点紧迫,但是我们还没有对接下来的流量大爆发有充分的预感,所以前期基本是在复用之前的技术方案,加之每年双11期间和一场场大活动的经验积累,我们还是很快就把方案跑通了。”喻义说。

喻义工作照.JPG
(在家办公,喻义占用了女儿的小书桌)

然而在2月1日的时候,工程师们就觉得不对了,来势汹汹的新冠病毒给他们打了一个措手不及。大批线下流量转移到线上,用户和在线时长的爆发式增长,也带来了带宽需求的井喷。提出扩容需求的客户越来越多,系统预估在接下来几周的推流和带宽业务量将大大超出之前预期的数据。

整个钉钉群里充斥着这样的话语:“客户要加量,下周一要翻10倍,快做方案!”、“这波峰值平稳过了,预测下一波在2小时后”、“客户端质量数据拉出来了,半小时后拉会拍优化方案”、“这个流的视频码率要稳定控制在850Kbps,谁来配合我搞一下?”、“这延迟肯定不行,调不好不能给客户上线”、“节点水位已经接近安全阈值了”……喻义的心也跟着悬了起来。

被卷入这场战役的每个人都不容易。时间紧任务重,这群工程师要在短短几天时间内要完成资源储备和调度,调整直播技术方案,做足应急预案,同步还要确保对线上客户的问题响应和护航,跟他们一起扛住一波又一波的流量高峰。

千锤百炼 “疫”不容辞

为什么要扩容?当遭遇网络流量骤增、用户请求量增长时,平台面临着下行流量带宽水涨船高,服务器压力变大的问题,站点响应慢、连麦效果变差、音画不同步、互动不及时等一系列连锁反应都会出现,在线教育、视频会议、互动直播等视频类业务首当其冲。为了确保用户体验不受影响,不让带宽成为业务增长的阻力,提前“备粮”是不二之选。

比如兄弟团队钉钉,他们在阿里云上紧急扩容1万台云服务器,保障业务的连续稳定。同时也向阿里云CDN提出了扩容需求,确保钉钉视频会议、群直播的用户流畅体验。

钉钉在家办公.png
(图片摘自网络:这个开工季,钉钉视频会议是常态)

所有人都知道流量一定会增长,但是到底会涨多少,在什么时间点迎来爆发,谁也不敢下保证。这么频繁的扩容和庞大的体量也给了CDN系统带来了不小的挑战:

第一,特殊时期依旧要确保交付效率

疫情来的太过突然,流量的迅猛增长给系统带来的冲击不亚于每年双11,然而留给所有人准备的时间往往只有几天,保持带宽资源的充足、弹性,在较短时间内为众多客户应急扩容是一个很大的挑战,加之疫情期间封路、封城、施工人员隔离等各种不可控因素,扩容之路异常艰辛;

第二,平台流量越多,对调度系统的考验越大

当CDN平台上有越来越多的流量涌入,如何更高效地进行资源规划,实现全网负载均衡?如何实现精准的流量预测与控制?如何赋予业务必要的弹性?如何智能分析流量画像,准确判断和预估出每一路直播的CPU和带宽消耗,精细粒度的调度资源这些都是难点;

第三,极限场景下的业务稳定性保障

疫情期间存在各种客观因素制约,直播链路涉及到推流、转码、录制、截图、时移、分发等等环节非常长,怎样预先避免资源瓶颈这类极限场景?如果出现了,有哪些应急手段可解?怎样把对客户的影响降到最小?

第四,重保每一个客户

疫情期间每一个在线教育和远程办公平台背后都承载着一份希望,工程师们远离客户现场,很多都是隔离在家,却依旧要保持对临时需求变更的迅速响应和高质量交付。

“挑战再大,也不能把为客户服务的脚步给吓停了。从2014年阿里云CDN上线到现在,这种挑战无时无刻不存在,所以我们的武器(技术)才能被磨的更光更亮,我们还是有信心能打赢这场遭遇战的。”喻义说道。

首先,在资源部署上,阿里云分布CDN全球2800+边缘节点和130Tbps带宽储备,已经具备足够的弹性容量,团队也成立疫情支持专项小组,其中专门负责资源管理和建设的同学7*18小时盯盘跟进资源扩容,确保弹性。其次,在调度系统上,阿里云智能调度系统可以做到15%业务弹性自动化兼容,确保节点水位平稳跑在80%,基于全球LDNS进行画像和基于分钟级日志精准分析,以此完成偏差在5%以内的流量精准预测,同时保证调度策略秒级生效。第三,经过了11年双11和2018年俄罗斯世界杯的打磨之后,CDN对视频高并发这类业务场景已经比较熟悉,具备一套成熟的解决方案和完整的应急预案。在服务30多万客户的过程中,针对点播、直播、HTTPS、大文件、客户端、内容安全防护等不同业务类型,系统的技术储备也比较充足,可以为客户提供场景化、针对性的加速方案,使得收益最大化。

每次的商业变革都将催化新技术的创新和应用,这次极限拉练也给了阿里云视频云不少新技术大展身手的机会,帮助在线教育行业解决了低延时、高并发、大带宽等行业通用难题。其中,超低延时直播RTS(Real-time Streaming)服务在疫情期间支持了大量在线教育平台,在直播推流端、播放端通过SDK嵌入的方式集成阿里云私有协议,实现直播延迟降级到百毫秒级;多中心百万级并发推流解决方案,提供专门应对海量推流场景的全链路优化,可助平台更从容应对短时间的并发开课;自适应码率解决方案采用机器学习手段,通过分析历史编码信息和待编码帧的复杂度,在不影响人眼主观观看质量的情况下,减少低复杂度场景的码率消耗,确保每一帧都能以最合适的码率编码,从而针对在线教育场景降低50%以上码率,大幅节省带宽成本。

“过去几年的护航经验和专业的技术储备让团队底气很足,接下来的几波流量高峰也平稳度过了。看着客户的直播稳了,CDN大盘稳了,我们才能安稳得睡一觉。”喻义说道。

使命必达 上路即狂奔

过去的1个多月里,合作多年的在线教育平台不断加码、各地教育部门发起的空中课堂频繁上线、和兄弟团队的合作紧锣密鼓,阿里云视频云不曾停歇。

1月31日起,在线教育群雄四起,CDN和边缘节点服务开始为各大平台扩容重保,为猿辅导、好未来、VIPKID等数十家平台提供技术支持。

2月3日,特殊开工日,CDN护航了钉钉上1000万家企业的在线开工,为视频会议、群直播的顺畅访问提供有力保障。

2月3日,阿里云视频云与保利威联手搭建“空中课堂”,帮助黄冈中学高三班重回课堂,确保在整个线上直播系统在增长数倍的情况下,依旧能保持高清的画质和流畅的交互体验。

2月6日,阿里云视频云发布停课不停学在线教育专项扶持计划,用免费产品套件和千万补贴基金全方位驰援教育机构和SaaS合作伙伴,通过视频点播、视频直播、RTC等产品技术赋能教育客户更快速、更经济地搭建多端远程授课应用。

2月10日,阿里云同天喻教育、微吼科技共同建设的武汉教育云“空中课堂”上线。也是在这一天,全国60万教师在钉钉直播上课,CDN保障全国5000万学生“在家上课”低延迟、流量的体验。

13e8-iprtayz1894383.png
(国家中小学网络云平台上线)

2月17日,国家中小学网络云平台正式开通。在此之前的7天内,阿里云完成了全部CDN资源部署,确保平台网络带宽充足和视频传输链路的稳定。

2月19日,宁波教育局“甬上云校”累计浏览量突破2500万次,总流量达到1200T,相当于300万节课已经被浏览,阿里云视频云为其提供了多直播中心部署和就近的优质节点接入,为百万学生的上课体验保驾护航。

截至目前,停课不停学在线教育专项扶持计划发布1个月有余,已经累计为数千名中小企业提供专项技术扶持和免费产品服务。不止如此,阿里云视频云也为全民“云拜年、云聚餐、云蹦迪”筑起了一道坚实、极速的流量长城,此时此刻,故事还在继续。

屏幕快照 2020-02-06 上午9.17.52.png
(在线教育专项扶持活动部分免费产品)

暖春花开 未来已来

疫情给国民生命和经济带来了打击,也给大家日常工作和生活都带来了很多不便。但是客观环境的改变,却让在线教育、线上办公、互动直播等“在线”业务迎来了意外的发展机遇。未来,零售、金融、政务、医疗……越来越多的行业会将目光瞄准“在线”, 在线化、数字化转型将会使得作为IT基础设施的云计算技术提出更高的要求,而CDN则是在线业务坚守“流畅、稳定、可靠”的最佳防线。

为了做好数字经济的流量底座,阿里云视频云不仅在资源和产品服务上加大投入,也聚焦在智能中台、边缘安全等领域做了不少技术投入:“我们已经建成了从智能运维,实时数据监控、全网动态实施故障感知到智能自修复的全链路智能运营支撑平台,用于提升系统稳定性,确保业务724365可靠。而针对政府网站、金融、企业办公这类对安全有特殊需求的业务场景,我们也在CDN上纳入了边缘防护能力,支持边缘WAF、DDoS防护,防CC,防Web应用攻击、HTTPS传输加密,同时面向客户提供防爬、防篡改、防盗链、防劫持等防护手段。CDN也已经通过了等保2.0三级认证,希望能为客户带来安全与加速的一站式体验。”喻义介绍到。

5G 时代,更多在线、视频类创新应用将会被激活,CDN将从内容分发将演变为价值传递,作为承载流量的基础技术与边缘计算相结合,成为各行各业提升效率、优化经营、智能应用的强大驱动力。

不知不觉,窗外已经是暖春,城市正在复苏,喻义心想:“或许CDN的下一个春天也已经在路上。”

上云采购季 CDN&视频云优惠

点击直达上云采购季,获取CDN和视频云产品优惠
采购季2.png

相关实践学习
Serverless极速搭建Hexo博客
本场景介绍如何使用阿里云函数计算服务命令行工具快速搭建一个Hexo博客。
目录
相关文章
|
8天前
|
存储 云安全 人工智能
带你读《阿里云安全白皮书》(二十四)——云上安全建设最佳实践(2)
本文介绍了阿里云在AI大模型云上安全方面的最佳实践,涵盖数据安全、模型安全、内容安全和合规性四大关键挑战。阿里云通过数据加密、私有链接传输、机密计算等技术手段,确保数据和模型的安全性;同时,提供内容安全检测、Prompt问答护栏等功能,保障生成内容的合法合规。此外,阿里云还帮助企业完成算法及模型备案,助力客户在AI大模型时代安全、合规地发展。
|
6月前
|
存储 物联网 BI
不停机迁移,TDengine 在黑格智能 3D 打印技术中的“焕新”之路
近期黑格智能刚好完成 TDengine 2.x 到 3.x 的数据迁移,借此机会将 TDengine 的使用/迁移经验与大家分享。
84 1
|
弹性计算 运维 自然语言处理
《2023云原生实战案例集》——04 互联网——心动网络 (TapTap)基于SAE实现简单运维、不停机发布和分钟级上线
《2023云原生实战案例集》——04 互联网——心动网络 (TapTap)基于SAE实现简单运维、不停机发布和分钟级上线
《总监课第五期第五节:质量保障 - 大规模原生云质量保障浅析》电子版地址
总监课第五期第五节:质量保障 - 大规模原生云质量保障浅析
68 0
《总监课第五期第五节:质量保障 - 大规模原生云质量保障浅析》电子版地址
|
网络安全 数据安全/隐私保护
云机房管理操作经验
欢迎你成为一个合格的云机房管理员 对于现在的高校机房现状,现在云机房已经大面积更换为云机房,这篇文章属于深信服云机房。在这里我发布一些自己在机房的管理经验
392 0
|
弹性计算 调度 双11
备战“双11”,阿里云为企业提供一站式资源保障服务
阿里云弹性计算将上线资源保障服务,通过智能化资源诊断、推荐、资源预定及授权候补为用户提供一站式自助化资源保障服务,兼顾灵活,经济的同时还能获得时刻的确定性保障,为业务顺畅前行保驾护航。
332 0
备战“双11”,阿里云为企业提供一站式资源保障服务
|
移动开发 监控 前端开发
开放下载!《大促背后的前端核心业务实践》
你关心玩法,我关心技术!作为淘系每年重要的大促活动 618 是如何保证平稳进行的?七大章节全方位展示 618 中的前端身影!另附 6000+ 字图文版前端学习秘籍和面试官直达简历投递地址,还不快来get?
20115 0
开放下载!《大促背后的前端核心业务实践》
|
弹性计算 运维 监控
运维真的被云革命掉了吗?
未来3-5年,运维人的机会在哪里?
运维真的被云革命掉了吗?
|
存储 缓存 中间件
阿里如何做好双11技术保障?大队长霜波分享4点经验
为什么说双11是阿里每年技术保障稳定性最困难的一次?50多个BU一起加入双11,怎么组织和运营?为了保障双11的顺利进行,又有哪些备战方案以及创新技术?在由阿里云CIO学院主办的【2020中国企业数字创新峰会】上,阿里巴巴双11技术大队长、技术安全生产负责人、CTO线技术风险部资深总监陈琴(霜波)从组织和运作、备战方案和技术、当天保障以及复盘总结四个方面分享了阿里巴巴在双11技术保障上的实践经验。
阿里如何做好双11技术保障?大队长霜波分享4点经验