云时代如何简化数据中心网络运维?

简介:

SDN,在经历了犹豫彷徨、百家争鸣之后,目前已成为企业CTO的坚定选择。

SDN时代的网络展现出两面性:一方面让客户使用更加简单,另一方面却让运维更加复杂。而当前,整个行业的目光多聚焦在前者而忽略了后者。

随着SDN的部署如火如荼,一丝忧患也隐隐浮现。2015年12月,管理行业研究机构EMA(Enterprise Management Associates)针对100多家企业的调查结果显示:70%左右的客户对于现有管理运维体系是否适用于SDN场景表示担忧。Gartner于 2015年7月发布的通信网络技术成熟度曲线(The Hype Cycle)也显示,SDN相关的运维技术处于泡沫化的底谷期(Trough of Disillusionment),将在2~5年内进行大规模商用部署。

华为早在全面拥抱SDN初期,就把SDN运维作为关键课题进行研究和实践,下面分别从WHY、WHAT、HOW这3个纬度展示华为对SDN运维的思考。

WHY:SDN运维的新变化

相对于传统网络,SDN时代的网络有如下的特征:

动态网络:动态是指根据应用需求按需创建和删除逻辑网络。比如某企业用户反馈,在运维中需要投入50%的工作在防火墙的规则上,主要原因是随着应用的变迁,防火墙规则没有随之变迁,造成网络沉淀和碎片。

实时响应:传统网络的设计主要是面向人的界面,基于分钟级别慢速的原则,比如使用了几十年的SNMP机制。这种慢速机制,在SDN的快节奏中成为“吐槽”点。某企业客户抱怨其轻载的网络存在瞬态的突发丢包,怀疑存在毫秒级别的微突发流量,但是在分钟级别的 SNMP机制下无法观察到,更无法优化。

大规模:大规模有两个含义,其一是管理的设备数量。从物理网元到逻辑网元vSwitch/vRouter,其数量增加了50倍;其二是处理的故障数量。据LinkedIn披露,从2010年到2015年,需要处理的故障增加了18倍,但管理人员仅增加了几个。

要应对上述SDN网络的3大问题,传统的“人工运维”方式贤德捉襟见肘、难以为继。

WHAT:SDN运维内涵

为了满足SDN下“动态性、实时性、大规模”的挑战,华为提出需要对整个运维架构进行变革,才能让SDN“管用、好用”。新的SDN运维架构需要围绕下面几个方面打造:

可视化:看得见,看得清

俗话说“You Can’t Manage What You Can’t See”。“看得见”有两个方面的含义:

观察对象可视:可监控物理和逻辑对象,包括网元级别的节点和接口等,也包括网络级别的链路、逻辑路径和应用质量等。

观察的实时性:支持毫秒级别现象的感知(比如流量微突发)、低频率(<10-4)的丢包,以及大象流和老鼠流的识别等。

“看得清”意味着针对观察的准确性,需要采集和分析海量的数据。包括:

精确计费:采集的比例需要从8K:1到2K:1,甚至1:1全量采集。

疑难问题定位:基于采集的“大数据”和实时分析,及时发现偶发性丢包和流量黑洞等。

自动化:自修复,自优化

传统的网络运维架构是一个单向的系统,而不是一个负反馈系统。网络运维包括两个方向:管理员在下行方向配置网络,然后通过上行方向获得网络的状态,也就是说,网络的部署和状态是割裂的,通过管理员进行有限的沟通。这种机制显然无法满足网络故障自修复和网络自优化的需求。自动化的运维需要构建 “闭环”运维架构,具体包括:

延迟修复:发现故障后,首先隔离故障,不影响现有业务。

诊断修复:结合采集的“大数据”和经验数据库,进行自动修复或给出明确的修复方案。

网络优化:及时发现网络存在的“病态”,如流量不均衡和流量拥塞风险等,通过闭环系统,由网络部署系统自动进行调整,把故障消灭在萌芽状态。

HOW:SDN运维方案

基于SDN下的运维新变化,华为分解了运维的生命周期,构建了“闭环”的运维负反馈系统,称为Fabric Insight架构,包括如下4个模块:

Monitor:监视

为了解决实时,海量的数据监视,需要在如下两个方面改进方案:

改造采集通道,满足海量数据上报:对于中规模的数据上报,采用gRPC等高效的采集通道替代SNMP等;对于大规模的数据上报,直接采用数据面基于UDP的采集通道,消除管理面CPU的带宽限制。

改造采集点,满足高频采集:在数据中心交换机上设计专门的高频采集部件,满足毫秒级的事件采集。

Detector:探测

未来及时发现端到端业务路径的质量,需要通过实时发送探测报的方式,对网络进行“扫描”。区别于传统机制的“随机扫描”,华为结合网络的拓扑和路由,支持更精确的“定向扫描”,可以做到真正的全网全覆盖。基于这种能力,管理员就不再是“救火员”,而是运筹帷幄的“诸葛亮”。

Metrics:度量

在某些情况下,网络质量显示正常,但是应用体验下降。探测机制无法解决这种问题,就需要基于真实的业务流进行度量,发现该业务流是否存在丢包和时延问题,如果丢包,丢包位置在哪?如果时延大,是什么因素造成的?

Diagnosis:诊断

诊断就像老中医看病,通过Monitor、Detector和Metrics进行“望闻问切”后,再结合经验库的案例,定位出问题的根因。诊断部件由一系列的工具组成,每个工具针对特定的问题。比如环路诊断工具、丢包诊断工具等。

华为秉承开放的理念,开放基本的运维API,客户可自助地开放和定制自己的诊断工具集。






本文作者:佚名
来源:51CTO
目录
相关文章
|
18天前
|
机器学习/深度学习 人工智能 运维
企业内训|LLM大模型在服务器和IT网络运维中的应用-某日企IT运维部门
本课程是为某在华日资企业集团的IT运维部门专门定制开发的企业培训课程,本课程旨在深入探讨大型语言模型(LLM)在服务器及IT网络运维中的应用,结合当前技术趋势与行业需求,帮助学员掌握LLM如何为运维工作赋能。通过系统的理论讲解与实践操作,学员将了解LLM的基本知识、模型架构及其在实际运维场景中的应用,如日志分析、故障诊断、网络安全与性能优化等。
44 2
|
9天前
|
运维 监控 中间件
数据中心运维监控系统产品价值与优势
华汇数据运维监控系统面向IT基础架构及IT支撑平台的监控和运维管理,包含监测、分析、展现和告警。监控范围涵盖了网络设备、主机系统、数据库、中间件和应用软件等。
29 4
|
4月前
|
运维 网络协议 网络安全
2023网络建设与运维正式赛卷-IP地址分配-下
【7月更文挑战第1天】该集团进行数字化转型,构建了两地三中心的网络架构,包括城市A的两个数据中心(SW1、SW2为核心交换机)和城市C的灾备数据中心(SW3)。使用OSPF、RIP、ISIS、BGP路由协议实现全网互联。RT1和RT2为总部分公司间的路由器,FW1作为总公司互联网出口防火墙,FW2为办事处防火墙。IP地址表详细列出了各设备接口的IPv4和IPv6地址。本文配置示例了路由器和防火墙的接口设置。
2023网络建设与运维正式赛卷-IP地址分配-下
|
1月前
|
运维 监控 网络安全
Python 在网络运维方面的自动化应用实例
Python 在网络运维方面的自动化应用实例
|
1月前
|
运维 网络安全 数据安全/隐私保护
2024高校网络安全管理运维赛题目--复现+题目+wp
2024高校网络安全管理运维赛题目--复现+题目+wp
45 2
|
1月前
|
移动开发 网络协议 测试技术
Mininet多数据中心网络拓扑流量带宽实验
Mininet多数据中心网络拓扑流量带宽实验
49 0
|
3月前
|
运维 安全 应用服务中间件
自动化运维的利器:Ansible入门与实战网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
【8月更文挑战第30天】在当今快速发展的IT时代,自动化运维已成为提升效率、减少错误的关键。本文将介绍Ansible,一种流行的自动化运维工具,通过简单易懂的语言和实际案例,带领读者从零开始掌握Ansible的使用。我们将一起探索如何利用Ansible简化日常的运维任务,实现快速部署和管理服务器,以及如何处理常见问题。无论你是运维新手还是希望提高工作效率的资深人士,这篇文章都将为你开启自动化运维的新篇章。
|
3月前
|
边缘计算 负载均衡 5G
边缘计算问题之数据中心内部和外部网络如何解决
边缘计算问题之数据中心内部和外部网络如何解决
28 1
|
3月前
|
人工智能 运维 物联网
5G技术对网络运维的影响:挑战与机遇
【8月更文挑战第20天】5G技术对网络运维产生了深远影响,既带来了复杂性和挑战,也孕育了新的机遇和发展空间。通过积极应对挑战,抓住机遇,不断推进技术创新和应用实践,我们可以更好地利用5G技术的优势,提升网络运维的智能化水平,为数字经济的发展贡献力量。
|
4月前
|
运维 负载均衡 监控
下一篇
无影云桌面