• 一行小错为何产生巨大破坏-Facebook史诗级故障大反思

    通过本次事件我们能学到了什么笔者相信以Facebook那些大牛人物的实力,从发现故障到定位故障原因的时间不会超过1分钟,甚至很有可能在刚刚指行完那条错误的BGP通告命令之后就发现问题了,但是故障依旧持续了长达7个...
    文章 2021-10-07 127浏览量
  • 事前运维,轻松掌控全局

    真实的面板图管理,全面支持采用SNMP协议的网络产品,完全展示这些设备的真实面板图。(如下图) 比如,单位网络出现了病毒,如何进行IP地址直接定位,显示该地址连接于网络何处,哪台设备的哪个端口,并显示该IP...
    文章 2017-11-08 1047浏览量
  • 告别繁琐 运维管理一身轻松

    在出现故障时,能提供有效的故障定位,帮助网管人员及时发现故障源,同时提供一定的故障分析,帮助网管人员判断故障原因。提供生动的可视化监视界面,方便网管人员实时查看IT网元性能 为专业的服务器监控、数据库...
    文章 2017-11-07 922浏览量
  • 故障处理方式

    2、验证故障(排除潜在可能的故障原因) 3、定义故障(验证推断,不是网络层问题) 4、分配故障(确定责任,提交相应的工程师排查,假设应用层问题) 5、收集故障(建立故障文档) 6、上报故障(硬件故障、软件故障...
    文章 2017-11-15 1084浏览量
  • 平面结构的网络拓扑

    自动分析故障根本原因故障告警升级处理;实现网络服务器管理;简单易用的图形界面,免客户端软件安装。更多相关信息,请点击[url]http://www.mochabsm.com[/url] 本文转自赖永锋51CTO博客,原文链接:...
    文章 2017-11-16 1209浏览量
  • 云计算简介

    定位故障原因:配置、版本是否变更 查看日志 4.后续完善响应监控 5.制定应急方案 运维的分类 系统运维:管理服务器、基础服务搭建、负载均衡、高可用、CDN、系统优化 桌面运维:管理客户端、企业桌面维护、办公设备...
    文章 2018-12-10 1247浏览量
  • 一线架构师实践指南:证券行业应如何构建一体化监控...

    智能化:系统自带关联分析功能,尤其在设备种类、数量增多的情况下,协助企业实现故障快速、清晰的定位。2、设计准则 一体化监控平台需要秉承以下几个设计理念: 1)框架化 系统是框架清晰的,主要包括两大部分,监控...
    文章 2017-05-02 3311浏览量
  • 时间准度对数据中心的重要性

    比如数据中心发生了业务中断,我们首先要知道是什么时候中断的,持续多长时间,与哪些设备有关,然后再去查找这个时间点,设备上留下的相关纪录,时间的准确性对于分析业务中断原因非常关键,如果没有各个设备的准确...
    文章 2017-08-01 880浏览量
  • 时间准度对数据中心的重要性

    比如数据中心发生了业务中断,我们首先要知道是什么时候中断的,持续多长时间,与哪些设备有关,然后再去查找这个时间点,设备上留下的相关纪录,时间的准确性对于分析业务中断原因非常关键,如果没有各个设备的准确...
    文章 2017-08-01 834浏览量
  • 某网络专业人士笔记(超级珍藏)

    Half Troubleshooting)3、考虑可能情形(Consider Possibilities)考虑引起故障的可能原因 4、建立一份行动计划(Create the Action Plan)5、部署行动计划(Implement the Action Plan)用于纠正网络故障原因。...
    文章 2017-11-17 1195浏览量
  • 时间准度对数据中心的重要性

    比如数据中心发生了业务中断,我们首先要知道是什么时候中断的,持续多长时间,与哪些设备有关,然后再去查找这个时间点,设备上留下的相关纪录,时间的准确性对于分析业务中断原因非常关键,如果没有各个设备的准确...
    文章 2017-08-01 909浏览量
  • 时间准度对数据中心的重要性

    比如数据中心发生了业务中断,我们首先要知道是什么时候中断的,持续多长时间,与哪些设备有关,然后再去查找这个时间点,设备上留下的相关纪录,时间的准确性对于分析业务中断原因非常关键,如果没有各个设备的准确...
    文章 2017-07-10 793浏览量
  • 带你读《智能制造之卓越设备管理与运维实践》之三:运...

    针对A类重要设备故障维修管理必须指定到重点部位,与机型关联的故障经验库如图3-9所示。3.2.3 机型维修策略管理 作为设备维护的方法论,维修策略决定着维修的有效性、维修成本和响应速度。结合工业企业的设备特点...
    文章 2019-11-08 1195浏览量
  • 徐工阿里“云端”布棋局,打造中国工业的Predix

    当车辆发生故障时,知道故障原因、找到故障解决方法,快速的反应,帮助用户解决问题,提高售后服务的质量。我们对设备数据进行深度挖掘,根据设备的开工率,可以了解中国的每个省市区域经济热度,并且数据已经接入到...
    文章 2016-11-02 5383浏览量
  • 走近华佗,解析自动化故障处理系统背后的秘密

    对于算出路径上的网络设备,查询其错误日志,看是否有相应的故障,有问题报警给网络。如果有问题,则将对应的机器转换至ERROR状态,进入坏机器的处理策略中。心得 通过建立磁盘自动化的处理和磁盘故障的预测,可以...
    文章 2016-12-18 4692浏览量
  • 网络拓扑手工绘制不可或缺

    根本原因分析,帮助管理员快速定位故障原因;工作报告订阅,帮助管理员综合网络设备运行态势。手工绘制网络拓扑,补充自动网络发现的盲区,达到全面展现网络拓扑 因为网络链路的安全因素,自动网络发现并不能发现...
    文章 2017-11-25 1104浏览量
  • openstack网络基础

    您通过此文,能够知道如何使用 Linux 的基础网络设备进行配置以达到特定的目的,分析出 Linux 可能的网络故障原因。二、linux抽象网络设备简介 和磁盘设备类似,Linux用户使用网络功能,不能通过直接操作硬件完成,...
    文章 2017-04-12 1075浏览量
  • Linux虚拟网络原理小结

    当一个母设备拥有多个 VLAN 子设备时,子设备之间是隔离的,不存在 Bridge 那样的交换转发关系,原因如下:802.1.q VLAN 协议的主要目的是从逻辑上隔离子网。现实世界中的 802.1.q 交换机存在多个 VLAN,每个 VLAN ...
    文章 2017-11-12 952浏览量
  • 第7章 处理串行线路和帧中继连接故障

    线缆故障、载波故障和硬件故障都可导致接口down,通过校验电缆连接、更换硬件(包括电缆)、检查载波信令定位问题。接口up,line down:CSU/DSU故障、路由器接口问题、CSU/DSU或载波的时间不一致、没有从远端路由器...
    文章 2017-11-22 830浏览量
  • 在大规模 Kubernetes 集群上实现高 SLO 的方法

    至于故障机的恢复时间,需要按不同的故障原因,制定不同的恢复时间。比如系统故障需要重要安装系统,那恢复时间就会长些。有了这些标准后,我们也对 Pod 失败的原因进行了整理,有些失败原因是系统引起的,是我们...
    文章 2020-11-06 3557浏览量
  • IT运维面临网络缓慢的解决方法

    当怀疑有此类故障时,首先可采用置换法替换集线器或交换机来排除集线设备故障。然后关掉集线器的电源后用ping命令对所涉及计算机逐一测试,找到有故障网卡的计算机,更换新的网卡可恢复网速正常。端口瓶颈:实际上...
    文章 2017-11-14 1311浏览量
  • 从微服务治理的角度看RSocket、.Envoy和.Istio

    从security来说,如果是单纯RSocket的服务是不用开端口的,这是又一项由先进协议带来的对特性的简化,以后会有更多的介绍。结论 很早以前,在分布程序中访问另一个服务是很直观,透明的事。微服务普及后,其为了...
    文章 2018-12-28 3287浏览量
  • 中国移动基于SDN和NFV的固网架构演进探讨

    S-CPE部署于边缘TIC,定位为用户应用中心,包含家庭用户的各种业务平台及增值服务;物理CPE部署于用户侧,定位为用户管道中心,负责用户流量接入运营商网络。其中,BRAS-CP和BRAS-UP的概念来源于转控分离vBRAS技术,...
    文章 2017-08-01 1276浏览量
  • 中国移动基于SDN和NFV的固网架构演进探讨

    S-CPE部署于边缘TIC,定位为用户应用中心,包含家庭用户的各种业务平台及增值服务;物理CPE部署于用户侧,定位为用户管道中心,负责用户流量接入运营商网络。其中,BRAS-CP和BRAS-UP的概念来源于转控分离vBRAS技术,...
    文章 2017-10-06 968浏览量
  • 负载均衡故障排错指南(5)

    自底向上的排查方法与网络协议的分层设计有关,从物理层开始,逐层向上进行排查,并逐层排除可能导致问题的原因。比如:用户报告说无法访问服务器了,那么,从服务器与交换机的连接线开始,首先查看物理层的端口的...
    文章 2017-11-23 1212浏览量
  • 云计算网络基础架构的实践和演进——打造云计算网络...

    而通过日常的巡检和探测能够及时地发现故障,并在故障发生之后及时了解故障发生的具体原因并提供故障定位的方式,进而提高云平台网络的可靠性。上述这些都是在公有云网络上的实践,对于专有云而言,又会存在什么样的...
    文章 2017-04-24 18745浏览量
  • 数据中心网络运维必杀技满满“套路”得人心

    形成对未来网络流量、容量等方面的预测,给运维决策提供依据,并且利用运维大数据平台,将日志、告警、snmp、syslog等信息做统一收集,做数据转换后形成故障推理,帮助用户在一堆日志告警中精确判断真正故障原因。...
    文章 2018-05-17 13368浏览量
  • 小心使得万年船:谨防网络攻击

    设备被攻击后,黑客在生成递归域名系统重复攻击的53号端口上恶意使用定向掩蔽的传输控制协议和用户数据报协议流量。Dyn确认,Mirai僵尸网络是恶意攻击流量的主要来源。据推测,40多万个被黑物联网设备成为Mirai僵尸...
    文章 2017-07-03 742浏览量
  • 阿里云对象存储 OSS 发布全球第一可用性 SLA 背后的...

    OSS 对象存储是多区域部署的云服务,几乎每年都会遇到自然灾害、供电异常、空调设备故障等问题,在数据中心建设时要做好双路市电和柴油发电机备电的设计,以及连续制冷能力。网络冗余。OSS 作为公共云服务,既要提供...
    文章 2020-06-17 359浏览量
  • 阿里基础设施的智能监控

    二、网络监控系统阿里的网络设备复杂多样,数量极多,故障难以避免,故障会影响网络所承载的业务系统,所以网络故障快速、准确地发现、定位、以及收敛成为了网络监控系统的最基本需求。此外端口集,交易机房,支付...
    文章 2019-07-30 1295浏览量
1 2 3 4 6 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化