• 【解决数据中心网速慢的八个检查必备步骤】

    另外为何明 确故障问题,还可以在上游设备上的一个业务端口下FTP本地网络的一个大文件,在本地设备上的一个业务口下同时FTP同一网站的同一电影文件,比较下载速 度,立刻可以知道本地设备有没有问题。第八:检查是否...
    文章 2017-11-12 1346浏览量
  • 数据中心网络里的链路检测技术漫谈

    2017年1月14日,Ucloud云北京B区的业务发生了中断,中断的原因是运营商施工原因导致B区数据中心机房到北京核心汇聚点的两对光纤同时被挖断,导致业务中断。这让人想起了2015年5月的支付宝业务中断事件,也是运营商...
    文章 2017-07-13 783浏览量
  • IT运维面临网络缓慢的解决方法

    在经过双链路、双路由、集群主机等精心呵护之后,企业的核心业务系统一般很少出现致命故障,找到真正影响网络缓慢的根本原因是很困难的。任何一个网络都可能存在带宽被吞噬,业务系统持续优化的问题,而用户访问业务...
    文章 2017-11-14 1421浏览量
  • 数据中心网络维护三把斧

    第三,延迟大那一定是数据通路上出现了拥塞,数据流量超过了网络通路上能提供的最大带宽,这时要沿路查转发通道,看是否有拥塞丢包,端口流量是否有超线速、限速情况,这些故障会导致业务层面延迟大,延迟大对应用...
    文章 2017-07-03 1616浏览量
  • vSphere可用性之八 常见问题分析

    除了是主机名解析的原因,还要保证一个前提,那就是ESX主机必需连接一个共享的存储,此上的VM配置及硬盘文件放置在此上。六、容错无法实现 容错是一个很好的可用性功能,但此实现的限制条件较高、较多。当不能袜现时...
    文章 2017-11-14 1067浏览量
  • 微服务架构下服务故障处理解决方案(上)

    1.1 故障原因代码bug比如OOM突发的流量冲击&xff0c;超出了系统的最大承载能力比如秒杀&xff0c;会在某个时刻瞬间涌入大量流量&xff0c;超出系统承载能力1.2 解决方案1.2.1 限流系统所能承载流量根据集群规模是固定的&xff0...
    文章 2021-12-23 105浏览量
  • 事件管理决定一个网管软件的成功与失败

    事件发生时通过事件过滤,事件压缩,事件根本原因分析等方式帮助管理人员准确定位故障,及时处理问题,提高工作效率。快速定位问题,快速响应,降低影响 企业中的资源一旦出现问题,可以帮助管理人员分析发生事件的...
    文章 2017-11-23 965浏览量
  • 交换机广播抑制导致的虚拟机流量异常

    故障原因 交换机上配置了广播抑制,导致整个环境中没有广播包。在计算节点上Linux Bridge的MAC learning table中网关对应的MAC地址过期后(默认值300秒),没有及时更新,Linux Bridge会把本来应该发到网关对应端口...
    文章 2018-05-30 1633浏览量
  • 阿里基础设施的智能监控

    二、网络监控系统阿里的网络设备复杂多样,数量极多,故障难以避免,故障会影响网络所承载的业务系统,所以网络故障快速、准确地发现、定位、以及收敛成为了网络监控系统的最基本需求。此外端口集,交易机房,支付...
    文章 2019-07-30 1562浏览量
  • golang 服务大量 CLOSE_WAIT 故障排查

    发现代码中有一个方法有问题,这个方法之前一直没有业务规则命中,故障前一天26号有一个业务方开始走到这个方法。这个方法有一个隐藏bug,会导致 go 连接无法关闭。这个bug其实也有go.sql原生库的一半责任。var r*...
    文章 2020-01-26 1200浏览量
  • F5内网大二层负载均衡业务访问故障解析(CISCO OTV+...

    通过初步排查,应用人员表示应用无问题,网络人员表示网络无问题(可以从主中心ping通备中心应用IP,可以跨DCtelnet通业务应用端口,而且其它vlan没有问题),F5人员也表示F5日志各方面正常,无异常日志!...
    文章 2017-11-12 1570浏览量
  • 智能化网络管理 为企业信息化保驾护航

    比如说,我们一个核心交换机的端口出现故障,宕机了,那么我们应用部门的管理员就会发现他的应用系统连不上了,服务器管理员会发现他的服务器连不上了,网络部门的人会发现有一个子网掉线了。然后三个部门的人分别...
    文章 2017-11-08 917浏览量
  • 网管员破网“利剑”——统一网络拓扑发现

    也无外乎以下几种情况:一是由于随着工作中业务能力的增强,单位领导给安排的新任务,二是由于原来管理这个网络的人由于某种原因离职了,丢下了这个烫手的山芋,还有可能是由于工作中的新任务,去开通一个新网络,...
    文章 2017-11-16 1013浏览量
  • 快速定位 摆脱运维所累

    业务系统不能正常工作时,有可能是网络线路问题造成的,但也有可能是由于其他系统资源的问题造成的,为了准确地分析故障原因,必须要在网络管理方面需要更有效、集中的管理,只有这样,才能更好地保证业务系统的...
    文章 2017-11-25 974浏览量
  • 架构设计|分布式体系下,服务分层监控策略

    聚合的监控系统可以观察监控链路的全局状态,这样可以快速定位故障坐标,可以关联性分析问题原因。4、预警性 例如CPU突然升高,某个中间件服务突然停止,内存占用过高,这些可以基于监控系统做预警通知,然后邮件...
    文章 2020-09-17 1077浏览量
  • Data Guard中快速Switchover,Failover的一些建议

    2)如果原来的节点可以重启,可以尽量马上恢复业务,然后分析根本原因,是否是硬件老化,硬件故障导致,如果发现问题影响较大,可以使用Switchover 3)如果原来的节点无法重启,这个时候需要考虑Failover,如果在同...
    文章 2016-06-13 850浏览量
  • 云监控之运维篇

    随着公司的发展,公司的业务量不断的增加,网站的访问量越来越大,如何快速定位到系统的性能瓶颈,有针对性地提升硬件性能,为企业优化信息平台的投入成本呢?1.2 云监控如何解决 1.2.1 总体思路: 首先,需要安装...
    文章 2018-04-13 2070浏览量
  • 云计算网络基础架构的实践和演进——打造云计算网络...

    而通过日常的巡检和探测能够及时地发现故障,并在故障发生之后及时了解故障发生的具体原因并提供故障定位的方式,进而提高云平台网络的可靠性。上述这些都是在公有云网络上的实践,对于专有云而言,又会存在什么样的...
    文章 2017-04-24 19269浏览量
  • 无法获取网关MAC地址表/radware备机流量——在不断的...

    重启后故障依然存在,这时候好像这有一个原因了交换机可能存在问题,难道因为大量的环路,交换机备冲瘫了?但是有四台,四台有两条链路通过光电转换连接到65核心。换了一台新交换机,测试一下,发现故障没有这么明显...
    文章 2017-11-13 1089浏览量
  • 家用宽带网络与服务器使用的网络有什么不同?

    服务器网络往往故障率远远低于家庭宽带网络,原因就是在于机房的网络拓扑结构里,大部分设备都是冗余设计,一台机器坏了几乎感觉不到会影响业务中断。家庭网络使用的各种网络设备,交换机路由器等等都是廉价的民用...
    文章 2019-03-06 2695浏览量
  • (四):C++分布式实时应用框架——状态中心模块

    如果节点因业务故障主动告知状态中心故障状态,或因网络中断、停电、主机故障等被动原因,节点在一定时间间隔内没有主动上报健康状态。状态中心将把自己内部所存储的该节点状态描述设置为故障,并向集群中关心该节点...
    文章 2017-12-14 1200浏览量
  • 利用windows 2003实现服务器群集的搭建与架设(一)...

    设置更高的优先级的原因是当我们把“端口规则”删除的并且当其中的一台的出现故障的时候,优先级就会在这时候起到作用。1.7、启动网络负载平衡后,在下图中所示:在群集nlb.angeldevil.com中已经有了一台主机。根据...
    文章 2017-11-22 1248浏览量
  • ping 问题分析

    依据端口状态判断故障原因&xff0c;从而进行解决。通过display stp brief、display rrpp verbose和display smart-link group all命令&xff0c;检查设备上是否运行了STP、RRPP或SMART LINK等二层协议&xff0c;确认Ping业务...
    文章 2022-05-27 40浏览量
  • 走近华佗,解析自动化故障处理系统背后的秘密

    例如一个交换机的网络故障(半坏不坏),可能就会引起大批量的任务失败,但调查失败的根本原因可能要翻遍整个系统才知道是网络故障。更重要的是单集群的规模增大之后,人为处理故障过程中可能出错的概率更大,并且...
    文章 2016-12-18 4935浏览量
  • Dell Compellent的一些缺陷

    如果有一种情况:Compellent存储上的所有主机端口故障,但是控制器还继续工作,那么这个时候,属于该控制器的LUN将全部不能访问。因为这时候控制器正常,存储不会将LUN切换到另外的控制器。同时因为不支持ALUA机制,...
    文章 2017-11-12 1358浏览量
  • Hyper-v Server 副本技术

    业务的中断会因多种原因导致,比如说机房断电、服务器硬件故障、网络故障、软件故障,以及不可抗拒的自然灾害。取决于故障的具体类型,客户需要能够轻松恢复服务的灾难恢复解决方案。对于自然灾害或者机房长期断电...
    文章 2017-11-14 1033浏览量
  • ECS运维:操作系统有异常?诊断日志来帮忙!

    为了分析根本原因而避免问题反复发生,运维人员通常依靠查看系统日志来做分析诊断,然而此时也许实例已经无法正常SSH远程连接,让定位故障原因的过程变得非常困难。现在阿里云提供了一键查看系统日志和屏幕截屏的...
    文章 2018-07-23 7292浏览量
  • Hyper-V Server Replica

    业务会因多种原因导致中断,例如断电、IT 硬件故障、网络故障、人工错误、IT 软件故障,以及自然灾害。取决于故障的具体类型,客户需要能够轻松恢复服务的高可用解决方案。然而某些故障会影响整个数据中心,例如自然...
    文章 2017-11-10 1081浏览量
  • Hyper-V Server Replica

    业务会因多种原因导致中断,例如断电、IT 硬件故障、网络故障、人工错误、IT 软件故障,以及自然灾害。取决于故障的具体类型,客户需要能够轻松恢复服务的高可用解决方案。然而某些故障会影响整个数据中心,例如自然...
    文章 2017-11-03 1006浏览量
  • 深入探讨运维驱动的可监控性设计

    在系统的运行过程中,同样要对运行的关键信息,特别是业务调用过程加以监控,否则会造成系统故障无法预警,也难以定位问题原因。例如,由于新增进程但是没有增加监控,导致进程僵死却浑然不觉;或者由于没有针对系统...
    文章 2017-05-02 1572浏览量
1 2 3 4 ... 25 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化