云网络时代 网络故障管理何去何从?

简介:
+关注继续查看

检测、发现和纠正网络故障从来都不是容易的事情。过去是客户端服务器“统治”、应用运行在指定服务器、最终用户通过以太网、租用WAN链路或其他服务连接的时代,彼时网络故障管理已经比较麻烦了,而现在大型数据中心和云网络让网络故障管理更具挑战性。

云网络时代 网络故障管理何去何从?

技术在变化,但最终结果是最重要的。这里的问题是:用户是否在接受所需的服务质量?答案取决于应用和网络性能。现在的应用通常在公共、私有或混合云上运行,应用作为负载转移在服务器之间迁移。服务器和数据存储之间的吞吐量取决于其他应用放在共享链路的负载。

网络性能取决于连接用户到应用的网络的类型和容量。本地用户可能通过以太网或无线网络连接,远程用户则通过各种WAN技术连接,包括公共互联网或蜂窝网络等。每种连接都需要专门的方法来维持所需的性能。任何这些位置(应用或网络)的故障都可能降低客户满意度。

云故障检测

很多拓扑结构和设计(其中包括虚拟化服务器、多个虚拟局域网和覆盖网络)让云故障检测和网络故障管理变得更加复杂。一个租户的应用出现性能问题可能与影响另一个租户的问题并没有什么关联,但它们可能来自同一来源。每个租户的应用可能在相同超载或配置错误的服务器上执行,或者两个租户的覆盖网络通过相同超载或故障链接来路由。

海量的服务器、网络组件和链接是故障的一大来源。现代硬件极为可靠,尽管每个组件有多年故障平均时间,但对于数千独立的设备来说,依旧会有硬件故障发生。

配置错误是另一个问题来源,该问题可由网络故障管理进行跟踪。服务器和网络设备不断添加、升级或取代。大型云计算通常包括来自不同供应商的组件,甚至来自同一供应商的相同组件也可能运行着不同的软件版本。在这种环境中,任何变更都可能导致错误的出现,同时,对一个组件的改变还可能影响到其他组件。

简单地检测和报告错误已经不够,每个错误可能导致几十份错误报告。链路故障会在链路两端的交换机生成硬件故障指示,并且每次链路故障和恢复时都会发出新报告。2层和3层网络协议路由会改变,在备用路由流量水平接近最大数值时链路流量监控也会变化。同时,应用性能监控器会从通过该链路路由流量的每个应用报告问题。

故障相关性及其在网络中的作用

没有哪个网络管理员能够整理完单一故障生成的海量报告,并快速发现其根本原因。对此,故障相关性软件很重要,这是每个主流系统供应商网络管理产品的重要组成部分。

故障相关性产品利用各种机制来发现问题,其中包括SNMP trap、TL1消息、应用日志和SYSLOG条目。SNMP和特定产品轮询监控器运行在服务器、交换机和链路。相关性工具还可监控设备问题、电源电压和磁盘可用空间来预测未来的问题。

网络故障管理软件必须提供对网络准确的且最新的视图。该软件必须保持更新(无论是通过手动或者通过网络映射),以追踪添加的、移除的或更新的组件。它必须维护每种组件的内部型号,介绍其配置和功能,并包含网络运营政策的描述。当添加应用时,还必须更新服务水平协议(SLA)等信息。

此外,故障相关性软件必须与云编排软件来交互,追踪正在运行的应用、它们在哪些服务器运行和VLAN以及与每个租户相关的覆盖网络。网络故障管理软件还必须不断根据SLAN监控应用性能水平。

当出现问题时,相关性软件会获取所有接收到的故障指示,并利用有关的网络拓扑以及在故障出现前数据如何移动的信息来确定根本原因,并为网络管理人员提供简要的报告。

SDN网络

云计算与SDN技术管理的数据中心面临着与依靠传统技术的数据中心相同的潜在问题。它们都需要故障相关性软件,但SDN架构需要将相关性软件内置到网络控制器或与其紧密连接。

这种差异的原因是Spanning Tree和Open Shortest Path First等传统协议在网络设备内部部署。它们在链路或端口问题阻止流量时根据需要重新路由流量。通过SDN,所有路由都由控制器来确定,故障相关性软件必须告知控制器问题的类型,以便它能够确定备用路由。

OpenFlow兼容的白盒交换机支持各种供应商的操作系统,每个都有自己的检测和故障报告方法。Big Switch和Pica8的操作系统都支持SNMP,但Big Switch的控制器和交换机操作系统利用OpenFlow消息来与设备进行通信。相关性软件通过接口与控制器通信,从设备处接收消息,并轮询其状态。

无线网络和广域网

Wi-Fi依靠一组专门的工具来诊断问题。Wi-Fi连接可受到很多问题的影响,例如信号干扰、墙壁或阻止信号的固态物体,以及安全漏洞。现在有各种故障排除产品,包括免费软件和专业的软件产品。还需要专门的硬件产品来诊断某些类型的问题。

在网络服务提供商拥有和管理的WAN连接的情况下,关键参数是吞吐量和往返时间,这方面也有免费和专业产品可供选择。

满足最终用户性能要求需要应用性能的各方面都正常运行。在出现问题时,网络故障管理和故障检测产品必须能够查明原因,使它们可快速被修复以及恢复正常运作。





====================================分割线================================


本文转自d1net(转载)

目录
相关文章
|
8月前
|
消息中间件 监控 Cloud Native
数百万台车联网设备同时在线 0 故障,中瑞集团的云原生探索之路
在保持对业界趋势调度关注的同时,始终选用最适合自身的技术,这可能是中瑞能在车联网领域引领行业的重要原因之一,正如中瑞CTO所说“阿里云云原生产品体系带给我们的,不是单纯的IT工具,而是整个团队战斗力的提升”。
117 0
数百万台车联网设备同时在线 0 故障,中瑞集团的云原生探索之路
|
9月前
|
运维 监控 数据中心
《JoyEye:京东大规模数据中心网络运维监控之眼》电子版地址
JoyEye:京东大规模数据中心网络运维监控之眼
56 0
《JoyEye:京东大规模数据中心网络运维监控之眼》电子版地址
|
缓存 运维 监控
撤出云平台六年后,我们做了一次“断网测试”
把时间线拨到 2021 年 11 月 18 日星期四,Dropbox 服务一切如常。用户没有感觉到任何异样,就如同无数个岁月静好的日子。但真是这样吗?当然不是,那天下午五点,一群 Dropbox 员工在 Zoom 频道里吵作一团,因为大家突然接到命令,要求把圣何塞数据中心跟 Dropbox 网络直接断开。
146 0
撤出云平台六年后,我们做了一次“断网测试”
|
数据采集 机器学习/深度学习 算法
多点开花:阿里云基础设施光网络团队论道OFC 2022
OFC 2022进行时,阿里云基础设施光网络团队论道、分享~
多点开花:阿里云基础设施光网络团队论道OFC 2022
|
消息中间件 人工智能 运维
通信安全重重考验,阿里云通信如何打造企业级“安全感”?
作为企业主流通信方式,云通信利用自身在基础运营商通信资源方面的优势,叠加上层AI、安全等技术功能创新并进行互联网封装,以SDK/API或者PaaS/SaaS的形式为企业提供跨平台、广覆盖、场景化、高度精准、安全稳定、可弹性扩展的通信服务,如语音、短信、智能客服、视频会议等等。
1296 0
|
RDMA 网络架构 数据中心
网络“高速公路”首秀双11 | 探秘阿里巴巴HAIL数据中心网络
今天这个超级数字的背后,是交易、搜索,到中间件、存储、数据库等等这些庞大分布式系统的计算和IO能力的飞跃。而支撑这些系统能力高速不间断运转的,则是底层网络技术。
1982 0
|
网络协议 大数据 数据中心
广通云ours服务 企业云通路不再漫漫本文讲的是广通云ours服务 企业云通路不再漫漫,广通云呼叫中心业务与服务的相互渗透
本文讲的是广通云ours服务 企业云通路不再漫漫,广通云呼叫中心业务与服务的相互渗透
1100 0
|
安全 云计算
连通性:SaaS挥之不去的短板
本文讲的是连通性:SaaS挥之不去的短板,提到SaaS和云计算,很多人都会谈论到它们的安全、隐私和合规问题,但却很少有人谈及它们的连通性。由于SaaS应用完全依靠互联网接入,因此一旦互联网中断,企业对SaaS的访问马上就会受到影响,包括ERP、CRM和SFA。
973 0
相关产品
云迁移中心
推荐文章
更多