智能化网络运营系列(一):漫谈云计算网络运营-阿里云开发者社区

开发者社区> 阿里云基础设施> 正文

智能化网络运营系列(一):漫谈云计算网络运营

简介: 说故事,讲技术,从互联网的那些年到基础设施网络运营
+关注继续查看


文/ 子昊 瑾为

让我们先从中国互联网的发展开始说起~

一、从1987-2021,网络与你我的距离?

1987年9月:车道沟十号院,中国兵器工业计算机应用技术研究所所在地,中国第一封电子邮件从这里发出——“Across the Great Wall we can reach every corner in the world”(「越过长城,走向世界」)当时,人们并没有想到,互联网技术在多年后会如此深刻地影响着中国大地,融入到我们生活的方方面面。

1995年:电信运营商开始向社会提供互联网接入服务,从此互联网走进了大众生活。

1999年:某媒体主办了一场名为「72小时网络生存」的实验,选择12名志愿者参与网络生存实验。在仅有床和水的酒店封闭环境中,志愿者们需要通过互联网获取食物并改善生活环境,最后得出「依靠互联网不能生存」的结论。

时光荏苒,多年后的今天,当收付款二维码充斥街头巷尾,当年参与实验的志愿者们是否能料想到,那个72小时内曾困扰他们的问题,随着互联网基础设施和在线支付技术的成熟,仅在「外卖」领域,就促进了数百万人的就业。随之而来又产生了一个值得深思的问题:现在有多少人能适应「72小时无网络」的生活?

2020年,新冠疫情促使百年未有之大变局加速演进,数字经济成为世界各国争相布局的新高地。以5G、云计算、大数据、人工智能、物联网、产业互联网、区块链等为代表的新技术让我们加速步入数字经济时代,而网络作为底层连接这一切的基础设施之一,其重要性不言而喻。

1245.png

2021年7月30日,国务院总理李克强签署第745号国务院令,公布《关键信息基础设施安全保护条例》(以下简称《条例》),自2021年9月1日正式实施。该条例的发布意味着国家层面对关键信息基础设施安全稳定的重视上升到了一个前所未有的高度。而作为「关键信息基础设施」中的信息互联底座-基础网络的安全稳定,更是关键中的关键。从1987到2021,从“无网”到“网络重度依赖”,网络与你我之间的距离越来越近。

二、出行不能坐同一个航班的神秘团队

在《条例》中,提到了一个专有名词——运营者,在第三章中明确了基础设施运营者的责任与义务,并给出了基础设施运营者的岗位定义——负责本单位关键信息基础设施的安全保护工作。

无独有偶,在阿里云基础设施网络团队内部,也存在这样一个专业运营团队,其核心职责之一就是负责整个阿里云全球基础设施网络领域的安全生产,并对稳定性结果负责,这个团队也是整个阿里集团在安全生产领域影响力最高的部门之一,本文的主角团队——阿里云基础设施网络运营团队,负责规划、建设、运维遍布全球数百万级服务器规模的基础网络。

谈起网络运营团队,在公司内部早年有个不成文的「隐形军规」:团队出行不能坐同一个航班。原因就是:从机制上防止因各种意外故障而产生的「团灭风险」。运维领域需要7X24小时应急响应,一旦故障没被及时响应并止损,将会给业务带来巨大损失。正所谓「古有枕戈待旦,今有一直在线」,这也成为了团队不成文的「隐形军规」。

越过长城,走向世界。网络运营团队的核心愿景就是成为技术驱动下世界顶级的团队,通过技术+运营双轮驱动,打造极致高可用的可预期网络服务。同时规划好,建设好,管理和运营好整个阿里云底层这些数量极为庞大的网络基础设施。

三、网络运营团队面临的挑战

基础设施的稳定不是常态,稳定的基础设施是各行各业一代代「基础设施运营者」持续努力的结果。

在谈挑战之前,我们首先要在挑战前加一个定语:「规模效应」。同一个问题,规模场景不一样,挑战也不一样。

# 规模效应带来的挑战 #

网络基础设施规模越大,承载业务越多,任何一个不起眼的小变化,都有可能因规模效应被成千上万倍地放大,形成“蝴蝶效应”。

在网络领域,规模越大,「蝴蝶效应」愈发明显。今天,除阿里集团自身各种国民级APP的流量运行在这张网络基础设施之上,还有海量云计算客户也同样运行在这个基础环境之中,每天承载和连接全球数十亿的终端消费者与云计算客户。在错综复杂的基础环境下,如何运营好规模庞大的网络基础设施是一个非常复杂的课题,如何服务好这么大体量的客户与业务方,也面临着巨大的挑战。

# 规模加持下复杂的软硬件环境,复杂学科带来的技术挑战 #

网络运营本身是一门综合性复杂学科。那什么是复杂的基础环境?偏硬件的基础设施构建与纯软件开发的互联网项目相比有一定特殊性,偏软件性质的项目在大部分互联网公司内部通常是从头到尾可以在自身的体系闭环完成。但要完成云底座的基础网络完整性构建,对外提供统一标准的网络服务,向下兼容适配各种环境,整体复杂度很高,主要体现在以下方向:

- 基础建设交付态复杂:

基础环境建设交付,涉及到超大体量的硬件环境交付,往往需要一个复杂的上下游生态体共同合作完成,如上游的芯片供应商,设备供应商,上千家零部件供应商,全球范围内通信运营商(ISP),电力运营商等各种合作伙伴,中间任何一环出一点差错都有可能导致基础交付延期甚至整个项目打了水漂。

- 运行态复杂:

网络基础设施通常以硬件为载体,受客观条件限制,历史上每年大量的建设交付都会带来多种供应商的硬件并入现网,现网运行态会存在不同时期多种形态设备软硬件共存的情况。

统一管理难度大。网络的操作系统与服务器的OS(linux,windows)、手机的OS(苹果,安卓)有很大的不同,最大特色就是与设备商硬件深度耦合,软硬件绑定。长期运行下来,统一网络管理维护成本高,不仅在配置上存在各种各样的“方言转译工作”,给各种自动化运维工具适配提升难度,还存在一定兼容性问题;当前新建集群可使用阿里自研方案解决,但存量设备还存在一定规模,管理成本也有着相当大的挑战。

软硬件风险大。不同形态、不同时期软硬件设备同时运行,这些设备至少有上“亿行”代码在运行。在普通环境下很难触发的各种Bug,各种形态软硬件问题导致的静默丢包等各类小概率异常事件,在超大规模、复杂网络的环境下会经常碰到,这些不以人的意志为转移的混沌性和不确定性对现网的运营增加很大的挑战。

- 全球一体化的复杂性:

全球一体化的复杂性体现在全球各种环境的差异性带来的挑战。如各个国家法律法规、合规政策有较大的差异性;即使是同一国家不同地域的基建环境往往也存在较大差异。向上提供标准的网络服务,这些基建环境的差异性都为标准化运营增加了复杂度和运维挑战。

在规模加持、复杂软硬件基础环境、复杂学科三个共同前提因素影响下,如何用技术实现「业务敏捷」与「网络稳定」共舞,「可预期网络服务」与「绿色低碳降本增效」齐飞,是一件非常有技术挑战的事情。

四、如何运营好这张基础网络?运营之安全生产方法论?

如何运营好云计算底座-网络的基础设施?

借鉴业内与历史优秀思想,在网络安全生产领域,我们设计了四种兵器:"预防、演练、防守、应急",自顶向下,通过体系化的顶层设计并落地各种系统化工具来解决当下的挑战。

3.png

运维工具支撑系统

当我们把各种风险隐患在萌芽期提前将问题找出来并规避解决掉,主动预防是最经济有效的策略。这里面包括了三重主动防御体系。

第一重是运营稳定性顶层设计。这里面最核心的是组织结构的设计。

第二重是安全生产文化建设。运营工作最终还是落地于人,提高运营人的安全生产意识看似“虚”,但再好的技术,再完美的规章,在实际操作层面,也无法取代运营者自身的素质与责任心。

第三重是质量与风控体系。整体工作思路是优流程-定标准-建能力-推运作-成体系。比如每天全网设备的各种巡检、各种软硬件风险评估与升级优化、各类隐性风险的提前预测、各种变更操作的白屏化、变更雷达、变更风控能力建设等都是日常工作的重要组成部分。

此外,我们还设计了专门的故障演练体系,通过常态化、场景化的各种模拟生产故障演练,来验证是否符合预期。需要提一下的是网络团队除了自身演练之外,还开发沉淀了一系列断网能力供业务演练使用,从最早机房级的断网工具一直迭代演进到应用级断网工具,成为整个集团安全生产演练武器库最重要的工具组成。最终形成,从故障发现-故障定位-故障快恢-故障复盘4个角度全时刻全方位无死角覆盖。

最后是应急体系,我们成立了一支7x24小时的快速反应团队,用以组织、协同、处理各种与网络相关的应急事件,战斗在第一线。

五、尾言

数字经济发展活力不断增强——当前新一轮科技革命和产业变革突飞猛进,带动经济发展加速迈向数字经济新阶段。

云上“数字红利”正在加速释放,作为云计算基础设施网络运营者,未来,我们将继续砥砺前行,积极探索各种前沿技术,筑起云基础设施网络最牢固的运营屏障。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云ACE认证云计算架构师考试内容范围
阿里云ACE高级认证云计算架构师考试考什么?来说说阿里云ACE高级认证云计算架构师考试试卷范围,本考试范围出自阿里云ACE云计算架构师考试大纲
724 0
阿里云ACE认证云计算架构师考试内容范围有哪些?
阿里云ACE认证云计算架构师考试内容范围有哪些?
360 0
怎么设置阿里云服务器安全组?阿里云安全组规则详细解说
阿里云服务器安全组设置规则分享,阿里云服务器安全组如何放行端口设置教程
6875 0
阿里云张毅萍:从CDN到边缘计算网络全面加速的演进
2020年10月21-22日,以【逆向·生长】为主题的第八届亚太内容分发大会·北京站隆重拉开帷幕。历经2020年特大疫情之后,传统经济遭受到巨大的冲击,而以视频、游戏、电商、教育、金融为主的互联网经济却带来飞速发展机会。在10月21日上午的“领袖论坛”,阿里云高级技术专家张毅萍带来《从CDN到边缘计算网络全面加速的演进》为主题的精彩演讲,本文为演讲原文。
3598 0
一图胜千言,阿里云视觉大数据智能计算实践
在2016云栖大会杭州峰会人工智能专场上,阿里云研究员、资深总监华先胜为大家带来了阿里云眼视觉大数据智能计算的实践经验。所谓“一图胜千言”,图像所包含的数据量非常之大,如何充分利用人工智能和大数据以及云计算的平台从海量的视频与图像信息中挖掘数据的价值呢?本文就为大家分享。
5400 0
服务器转网络托管云计算有利Exchange
本文讲的是服务器转网络托管云计算有利Exchange,Jha说:“我认为转至服务会增加我们整体的市占率。”他特别指出,与过去只能选择自有Exchange服务器相比,现在微软有更好的中小企业产品选项。他说:“我们有很大的增长机会,我们完全没有处在一个防守的位置。”
1385 0
阿里云计算网络增强型sn1ne云服务器配置性能评测
阿里云计算网络增强型sn1ne云服务器是企业级高性能云服务器规格,sn1ne是100%独占资源的云服务器,码笔记分享计算网络增强型sn1ne实例的配置、性能评测及优惠信息: 一:计算网络增强型sn1ne实例特点 阿里云计算网络增强型sn1ne云服务器属于企业级高性能云服务器,个人用户和企业用户均可以购买。
2844 0
12
文章
0
问答
来源圈子
更多
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载