当前,数字经济已逐渐成为推动中国经济快速变革发展的新动能,“数据”成为新的生产要素和核心驱动引擎,数据运行机制改变了基础设施的形态,并对全新基础设施即“数字基础设施”建设提出了新的要求。国务院印发的《“十四五”数字经济发展规划》当中,也明确提出加强数字基础设施建设,将创新作为引领发展的第一动力,不断做强做优做大我国数字经济。在此进程中,人们的衣食住行等社会服务,以及千行百业的业务运转,都在通过数字基础设施来承载:金融业的在线银行和理财服务,医疗行业的线上挂号和智慧医疗,交通行业的线上购票和路程服务,零售业的电子商务和增值服务,休闲娱乐业的直播和网游……当越来越多的生活服务转入线上,越来越多的业务运行要求“在线”,数字基础设施的稳定性就显得尤为重要。越是临近春节,这种稳定性还越为重要。
在不同的视频平台看直播,改变了只通过电视看春晚的选择;传统的登门拜年外,新增了视频拜年和线上红包;直播中学来的新鲜菜肴,为团圆的年夜饭添加了别样“年味”;年前去市场采购备货的习俗,也被电商和快递小哥改写;打麻将和扑克等聚会项目,延伸成了云上游戏;甚至连春节的鞭炮齐鸣,也变成了电子烟花秀和虚拟鞭炮……这种云上春节的味道,也让过去的家人、朋友之间的“小快乐”融入到了全社会的“大快乐”。而在快乐的同时,正有一群“可爱的人”,守护在数字基础设施背后,守护着云上春节的稳定。
01 云上春节,为什么稳定是第一要素
春节,是中国农历新年传统上的“年节”,春节假期,也是全国人民阖家团圆、休养生息,备战新年的一个固定周期。春节不仅是一个节日的符号,也是中国人4000年来,对追求幸福感的美好期待。尽管,随着时代的更迭,追求幸福的形态和内容发生了天翻地覆的变化,但幸福往往与稳定紧密相关。尤其是传统的春节习俗,以崭新的面孔出现在云上,过年变得越来越数字化、网络化。在新旧年俗的交互之中,年味并没有变淡,而是变得越来越丰富。而这种数字化的丰富性,背后更需要一种稳定性。云服务就像“水电”一样,影响到生活的方方面面,春节也逐渐成为一个“云上”节日。以春节拜年为例,古代是登门拜年,现代社会信息技术的发展,出现了电话拜年和短信拜年,而在数字化时代,网络拜年和抢红包成为了新的主流形态,这种拜年的形态往往集中在除夕夜的零点之后,这就形成了流量的洪峰,如果没有云上稳定的运维和应急预案,小则影响用户体验,大则可能造成一定程度的经济损失。而云上春节的变化,可不仅仅是拜年和抢红包,每一个细分行业,在春节都可能出现新的流量洪峰。如短视频和线上直播的流量高峰可能出现的时间点在除夕夜,社交媒体的流量高峰可能会从除夕持续到大年初二。交通行业,包括高速、出行这种行业,它可能是出在春节前几天,人们集中返家的时候,还有春节大家集中返回工作岗位,这个时候一般会出现业务的高峰。对云厂商来说,服务的行业如覆盖医疗、教育、数字交通、音视频等,行业覆盖领域比较广,就需要对业务进行预判,并提前做好预案,保证每一个行业的“云上春节”稳定。以华为云为例,华为云2022年春节需保障百余个重点场景,覆盖音视频、社交资讯、政企、高速收费、旅游买票、酒店、物流、汽车、教育等行业领域,从11月5日起开始筹备,整个保障工作就已经在有序的推进。承担春节期间稳定性重担的“可爱的人”,就是华为云SRE(站点可用性工程师)及云资源运营团队。
02 为千行百业带来稳定可靠的服务体验
云计算公司的SRE,就是维护云服务稳定的团队,是保障用户获得优质服务的真实守护者。
华为云工程师实时监测运维设备平稳运行
面对云上的几百万台服务器,遍布在几十个站点的几亿行代码,很难不会出现问题,比如硬件的故障,软件的bug,所以云厂商需要具备不中断、不延迟等服务能力。尤其针对春节这样特别的时间节点,要做到绝对的稳定性,华为云SRE团队,是如何实现的?首先,从整体策略的角度,针对云上春节做足准备和应急预案。通过流量预测及站点扩容,华为云总结了一套精准的评估算法,按站点、客户等不同维度预测春节的流量模型,并提前做好资源储备。
其次,从执行力的角度,将春节稳定视为保卫战。除夕当天晚上,分布于5个城市的华为云春节负责稳定保障的百人团队会全部就位,现场待命。同时,华为云会有一个例行的巡检队伍,每隔半个小时,会巡检流量情况,比较评估一旦流量和预期有较大出入时,会立刻告警。此外在凌晨的流量高峰结束以后,还会做复盘,并为元宵节的保障提前做准备。第三,从华为云SRE团队组成的角度,它可以说是一支王牌部队,集结了来自于各个研发领域优秀的工程师,整个团队对故障处理,故障优化的响应速度,以及解决效率是非常高效的,这是华为云在组织能力上的保障。第四,华为云SRE通过实践总结了一套“确定性”运维方法论,在IT行业快速发展,各种不确定挑战增大的情况下,保障业务高可用,让客户有确定性的感知。SRE用“确定性”这个词涵盖所有能力,作为对客户的承诺。
03 华为云为什么是客户的首选?
华为云从2021年11月5日开始筹备虎年春节保障,已经识别了百余个重点保障场景,覆盖音视频、社交、高速、文旅、酒店、物流、汽车、教育等各行业关乎国计民生的重点业务稳定。
华为河图机器人自动AI检测数据中心故障及环境信息
另外一角度,如此多的重大行业将春节期间的云上保障工作交予华为云,也凸显了对华为云SRE的一种信任。
华为云也的确在很多方面,做到了客户的首选。
首先,是不断的自我审视,在实战中积累经验。一年以来,华为云已经进行了2000多次实战演练,涉及2000多名技术工程师220多个云服务,覆盖容灾,冗余,过载,数据备份,误操作等多种演练场景,全面提升了华为云的可靠性。
据悉在某次演练中,总指挥临时决策,将演练时间从9点钟提前到凌晨5点钟,而华为云SRE工程师仍然能够做到立刻在线,在铁的纪律中体现了专业化的素质。
其次,华为云希望把稳定可靠做成一种竞争力,并站在客户视角看待业务。例如把经验沉淀到工具体系中,孵化出智能运维平台,并经过持续的打磨,实现了非常复杂的流量算法智能调度管理。华为云会站在客户的视角与客户共同去提升其应用层的稳定性,从应用层到底层,双方联合在成本、质量、效率上达到最优。
第三,这些能力的积累和客户的认可,都源于华为云自身实力的快速进步。2021年4月Gartner发布的《Market Share: IT Services, Worldwide 2020》研究报告,华为云全球IaaS市场排名上升至中国第二、全球前五。截至目前,华为云已上线220多个云服务、210多个解决方案,聚合全球超过3万家合作伙伴,发展260万开发者,云市场上架应用超过6100个。在中国,华为云服务了80%的TOP50互联网客户,以及政务、制造、金融、交通、电力、矿业等行业TOP客户,成为政企智能升级首选。
客观地说,云计算、AI、大数据、5G等数字技术的发展催生出许多新的应用场景,覆盖了我们生活的方方面面,如果没有数字基础设施全面维护了数字世界的稳定,就不会有物理世界的优质体验。换句话说,春节期间的春运抢票、云拜年、抢红包的平滑无感,稳定的体验,背后离不开云服务的运维保障。而华为云的团队,则通过服务于百行百业的行业客户,守护着云上春节独特的“年味”。