【解决数据中心网速慢的八个检查必备步骤】

简介:

作者:蚁巡运维平台

在数据中心运行过程中,不可避免会出现各种各样的问题。若网络发生信息不通、网页不能浏览等连通性故障时,这类故障现象的故障点很容易检查和定位, 解决起来并不困难。但是网络如果是通的,而网速变慢。遇到这种“软”故障,就比较令人头痛,有的人往往就会束手无策。一旦遇到这类问题时,需要有一个定位 问题的基本思路,这样就能帮助我们在日常维护中有条不紊地找到问题的真实原因。

第一:检查设备CPU占用率。数据中心里的设备少则数百,多则上万,不可能都去依依检查CPU。需要先明确哪个 业务慢,了解这个业务在数据中心里需要经过哪些设备,然后检查这些设备的CPU占用率。当然如果有网管软件,通过设定CPU阈值,可以监控所有设备的 CPU占用率,则可以很快发现CPU异常的设备。一般如果设备CPU占用率在40%以下,则可以跳过这项,直接检查第二步,如果在60%以上的话,建议您 最好看一下。一般是设备受到了网络攻击。有的时候网络攻击不仅影响网速慢,甚至会中断业务。网管可以监控可疑的端口,网络流量异常的这一段时间,通过网络 流量变化会看到突起突落,明显的人为痕迹。根据对以上可疑现象的分析,初步定位网络业务中断事故是人为攻击造成,采集了网络流量急剧上升时的异常流量,证 明的确是有网络攻击。针对网络攻击也有进一步的排查方法,在此不一一详述。

第二:日志信息和其它异常信息。现在的电子设备可维护性都比较好,运行出现异常时都会有一些信息打印,以便提示 用户设备出了问题,便于用户采取解决问题的措施。设备日志、异常记录等对于诊断问题愿意非常有用,一些比如端口DOWN、配置错误、硬件问题等简单故障, 通过打印出来的信息就可以明确。对于广播流量较多的数据中心,要注意设备的端口流量是否有异常,是否可能出现了网络环路,网络环路是在数据中心经常发生的 网络故障。主要是由于设备故障、STP/RRPP等二层环路协议失效、人为错误配置所致。这类问题通过观察端口的流量很好排除。因此,要检查这些设备的日 志和异常信息记录。

第三:利用PING来检验业务是否正常。PING是用来诊断网络故障最简单明了的手段,现在网络上流行的Xping、Multiping、网管软件等都是基本PING功能实现的,通过PING业务沿路的各个设备就可以迅速判定故障设备。一般PING的结果基本会显示出哪个设备可能存在网络问题。

第四:检查端口双工的状态。服务器的网卡、网络设备端口、防火墙端口等设备的工作方式可以为全双工或半双工。当 服务器、交换机的工作状态不匹配,如服务器、工作站网卡被设置为全双状态,而交换机等都工作在半双工时,就会产生大量碰撞帧和一些FCS校验错误帧,访问 速度将变得非常慢。从服务器上拷贝一个100Mb的文件可能需要30分钟,所以网速变慢也要检查下设备端口双工是否存在不一致的问题。

第五:检查网线、光纤、光模块这些互连器件的问题。网线的制作方式对网络传输速度的影响是非常大的,如果不按照 正规的标准制作网线,那么来自网线自身的背景噪音以及内部串扰就会降低网络传输速度。还有光纤和光模块如果质量不佳,容易产品大量的错包,影响网速。还要 的光模块收发功率不稳定,导致传输的数据出现问题,这些故障都是容易影响网速慢的最常见的原因。在数据中心里,几乎天天都会有更换网线、光纤或光模块的工 作。这些都是易消耗的器件。

第六:端口UP/DOWN问题。如果出现了端口的UP/DOWN,自然会引起业务时断时续,网速就慢。造成端口 出现UP/DOWN的原因也可能是多方面的。比如:光纤架、跳线架有问题,链路质量不好;网线,光纤出了问题;设备两端配置速率双工不一致等等都会造成端 口的UP/DOWN,一般的设备端口出现了UP/DOWN都会有记录,或者在网管上有记录,这样用户就可以通过检查记录,迅速排除掉故障。

第七:对比测试。通过业务测试。比如玩传奇游戏卡,玩其它游戏没有问题,那一般是传奇服务器的问题。另外为何明 确故障问题,还可以在上游设备上的一个业务端口下FTP本地网络的一个大文件,在本地设备上的一个业务口下同时FTP同一网站的同一电影文件,比较下载速 度,立刻可以知道本地设备有没有问题。

第八:检查是否应用服务器是否有病毒。蠕虫、红色代码、蓝色代码、尼姆达等病毒,可使计算机运行变慢,造成网络 堵塞。如蠕虫病毒对网络速度的影响严重,危害性极大。这种病毒导致被感染的用户只要一上网就不停地往外发邮件,成百上千的这种垃圾邮件有的排着队往外发 送,有的又成批成批地被退回来堆在服务器上,造成服务器繁忙或者数据中心网路拥塞,网速变慢。所以需要在数据中心内部署防火墙设备,在服务器上安装杀毒软 件,并保持实时更新。周期性地检查服务器是否有中病毒的情况。

网速慢是一个比较复杂问题,随着网络规模的不断扩大和应用的复杂,网络安全问题越来越多,这类问题也越来越不好分析。对于出现网速变慢的故障时,可 以采用以上的八个步骤去逐一排查,在绝大多数情况下,都可以解决问题。如果通过这些步骤仍找不出异常的地方,那就需要专业的技术人员深入分析了,可能需要 资深的网络专家或者设备厂家的工程师进一步深入排查。总之,只要是问题总会露出一些蛛丝马迹,我们这些数据中心的工程师不是在时刻准备着解决问题,就是在 解决问题的路上。

本文转自 linuxzkq 51CTO博客,原文链接:http://blog.51cto.com/linuxzkq/1583879


相关文章
|
6月前
|
存储 传感器 监控
探索现代数据中心的冷却技术革新
【4月更文挑战第23天】 在信息技术迅猛发展的今天,数据中心作为计算和存储的核心枢纽,其稳定性和效率至关重要。然而,随着处理能力的增强,设备发热量急剧上升,有效的冷却方案成为确保数据中心持续运行的关键因素。本文将深入分析当前数据中心面临的热管理挑战,并探讨几种前沿的冷却技术,包括液冷系统、热管技术和环境自适应控制策略。通过比较不同技术的优缺点,我们旨在为数据中心管理者提供实用的冷却解决方案参考。
|
3月前
|
机器学习/深度学习 存储 监控
利用机器学习技术优化数据中心能效
【7月更文挑战第36天】在数据中心管理和运营中,能源效率已成为关键性能指标之一。随着能源成本的不断上升以及环境保护意识的增强,开发智能化、自动化的解决方案以降低能耗和提高能源利用率变得尤为重要。本文探讨了如何应用机器学习技术对数据中心的能源消耗进行建模、预测和优化,提出了一个基于机器学习的框架来动态调整资源分配和工作负载管理,以达到节能的目的。通过实验验证,该框架能够有效减少数据中心的能耗,同时保持服务质量。
|
6月前
|
存储 大数据 数据处理
探索现代数据中心的冷却技术
【5月更文挑战第25天】 在信息技术迅猛发展的今天,数据中心作为其核心基础设施之一,承载了巨大的数据处理需求。随着服务器密度的增加和计算能力的提升,数据中心的能耗问题尤其是冷却系统的能效问题日益凸显。本文将深入探讨现代数据中心所采用的高效冷却技术,包括液冷解决方案、热管技术和环境自适应控制等,旨在为数据中心的绿色节能提供参考和启示。
|
6月前
|
人工智能 监控 物联网
探索现代数据中心的冷却技术
【5月更文挑战第27天】 在信息技术迅猛发展的今天,数据中心作为信息处理的核心设施,其稳定性和效率至关重要。而随着计算能力的提升,数据中心面临的一个重大挑战便是散热问题。本文将深入探讨现代数据中心冷却技术的进展,包括传统的空气冷却系统、水冷系统,以及新兴的相变材料和热管技术。通过对不同冷却方式的效率、成本及实施难度的分析,旨在为读者提供一份关于数据中心散热优化的参考指南。
|
6月前
|
机器学习/深度学习 资源调度 监控
利用机器学习技术优化数据中心能效
【5月更文挑战第30天】在数据中心管理和运营中,能源效率的优化是降低运营成本和减少环境影响的关键。本文旨在探讨如何应用机器学习技术来提升数据中心的能源效率。通过对现有数据中心运行数据的深入分析,开发预测性维护模型,以及实施智能资源调度策略,我们可以显著提高数据中心的能效。本研究提出了一种集成机器学习算法的框架,该框架能够实时监控并调整数据中心的能源消耗,确保以最佳性能运行。