• 萨纳斯光伏大数据体系之光伏设备运行分析

    展示汇流箱组串电流及预警曲线,组串电流偏差及预警曲线,由两种曲线可以直观展示电流为“0”或偏低的故障汇流箱组串,并给出故障汇流箱组串定位、故障起止时间、故障类型判断、故障引起原因等汇总信息;...
    文章 2017-07-03 1340浏览量
  • 根本原因分析 关键事件关联 IT运维有序发展——中国...

    对于性能指标超标、宕机故障,通过手机短信、邮件直接发送给系统的管理员、维护人员及其他相关人员,在报警信息中明确哪台主机、哪个wps应用服务器、哪个应用、故障发生的时间、初步定位的故障原因等重要信息,方便...
    文章 2017-11-09 1569浏览量
  • 如何快速处理线上故障【转】

    在无法快速找到故障原因的时候,需要果断跳过故障定位环节,直接进行故障排除,比如采用服务降级、服务器扩容等手段,确保对线上服务降到最低且可控。等到线上服务'撑'过去之后,我们再慢慢定位故障原因,根本上解决...
    文章 2017-11-16 1547浏览量
  • 【剖析|SOFARPC 框架】系列之 SOFARPC 单机故障剔除...

    Consumer 和 Provider 的长连接还存在,注册中心未下发摘除,但服务器端由于某些原因,例如长时间的 Full GC、硬件故障、压力瓶颈等,处于亚健康状态,具体表现为超时、异常高等。(为避免重复,文中此类现象的...
    文章 2019-08-03 421浏览量
  • 【剖析|SOFARPC 框架】之SOFARPC 单机故障剔除剖析

    信息收集器负责是 RPC 调用的信息收集和存储工作,了解信息收集器的存储结构有利于了解故障剔除的维度和 RPC调用统计管理。数据结构 TimeWindowRegulator 中维护了一个 MeasureModel 的列表结构,采用 ...
    文章 2018-11-02 1131浏览量
  • 稳定性之故障应急处理流程

    问题诊断负责人:定位故障根本原因,当快恢不起作用的话,该角色至关重要。以下是各个角色的详细描述。1 指挥员指挥员的选择第一接警人:默认第一个收到告警、投诉反馈的技术人员作为指挥员。第一接警人判断是否能够...
    文章 2021-05-18 2027浏览量
  • 面向失败的设计-故障与攻防演练锤炼容灾应急能力

    初期:可以选择故障覆盖这个指标(即发生并改进过故障的系统,要能够免疫同样原因故障)。此时实验场景数就近似等同于故障覆盖的分母。中期:可以选择监控发现这个指标。此时实验场景数与实验次数是分母,...
    文章 2019-11-08 1512浏览量
  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的...

    对可疑故障链路进行标红处理,通过庖丁可视化界面,轻松判断故障的发生原因。在故障发现、探测的最终结果可以对具体的用户呈现,也可以通过API形式对业务系统进行主动的信息推送。这意味着上层业务网络查询更加开放...
    文章 2018-01-05 4925浏览量
  • 【解决数据中心网速慢的八个检查必备步骤】

    若网络发生信息不通、网页不能浏览等连通性故障时,这类故障现象的故障点很容易检查和定位,解决起来并不困难。但是网络如果是通的,而网速变慢。遇到这种“软”故障,就比较令人头痛,有的人往往就会束手无策。一旦...
    文章 2017-11-12 1291浏览量
  • 阿里:千亿交易背后的0故障发布

    这9次中可能会引起故障,也可能只是有问题,但是不会造成故障,但是因为及时发现了,都没有造成故障,很难明确说这9次里面到底有多少是会造成故障的,所以计算召回的时候没有单独计算故障的召回,而是把故障和...
    文章 2018-04-20 5097浏览量
  • 无人值守时代,运维如何保障发布质量?

    这9次中可能会引起故障,也可能只是有问题,但是不会造成故障,但是因为及时发现了,都没有造成故障,很难明确说这9次里面到底有多少是会造成故障的,所以计算召回的时候没有单独计算故障的召回,而是把故障和...
    文章 2018-04-18 3937浏览量
  • 基础设施助力双11(十):百万级物理和虚拟网络设备的...

    对可疑故障链路进行标红处理,通过庖丁可视化界面,轻松判断故障的发生原因。在故障发现、探测的最终结果可以对具体的用户呈现,也可以通过API形式对业务系统进行主动的信息推送。这意味着上层业务网络查询更加开放...
    文章 2019-07-31 1024浏览量
  • Mocha BSM基础架构管理——网络设备

    根本原因分析,帮助管理员快速定位故障原因;工作报告订阅,帮助管理员综合网络设备运行态势。企业网络设备多样,管理繁琐,化繁为简,Portal界面 采用B/S架构,从监控-管理-报表分析,全部在唯一的管理Portal完成,...
    文章 2017-11-17 1267浏览量
  • 运维资源信息化管理

    2.预测性维修预测性维修是以设备当前的实际工作状况为依据,相比传统的以设备使用时间为依据的维修,它通过先进的状态监测与诊断手段,识别故障的早期征兆,对故障部位、故障程度和发展趋势做出判断,根据诊断结果来...
    文章 2019-11-08 1482浏览量
  • 电梯物联网解决方案

    随着电梯数量的高速增长,电梯遭遇停电、故障原因引起的困人、伤人事 故在多地频发,刺痛了公众的神经,成为引发公众对电梯安全关注的突出事件。调查发现,电梯行业在制造、安装、使用、维修、监管等环节均存在...
    文章 2017-07-07 1803浏览量
  • 网络丢包究竟为何

    网络丢包的原因主要有物理线路故障、设备故障、病毒攻击、路由信息错误等,下面我们结合具体情况进行说明。物理线路故障网管员发现广域网线路时通时断,发生这种情况时,有可能是线路出现故障,也可能是用户方面的...
    文章 2017-11-15 1066浏览量
  • 《Cisco IOS XR技术精要》一2.7 高可用架

    这时,可以在Cisco IOS XR上部署不中断路由(NSR)特性,使得RP故障切换时能够从本地恢复路由信息。使用NSR特性,路由信息以及重要的路由选择协议状态将被镜像到备RP对应的进程中。RP切换时,拥有所有路由信息及重要...
    文章 2017-05-02 1273浏览量
  • 超级 Ping 监测工具——为您的网络状态保驾护航

    网络丢包的原因主要有物理线路故障、设备故障、病毒攻击、路由信息错误等,其中线路设备故障和网络阻塞是造成丢包的主要原因,具体原因可能是软件配置不当或是硬件设备故障或是信号干扰等,必须通过具体监测工具加以...
    文章 2015-12-29 3816浏览量
  • 轻松应对双11,百万级物理和虚拟网络设备的网络智能化...

    对可疑故障链路进行标红处理,通过庖丁可视化界面,轻松判断故障的发生原因。在故障发现、探测的最终结果可以对具体的用户呈现,也可以通过API形式对业务系统进行主动的信息推送。这意味着上层业务网络查询更加开放...
    文章 2017-12-14 1895浏览量
  • 石家庄运用大数据平台管控电梯安全

    电梯突然罢工人员被困怎么办?救援电话打不出去怎么办?...故障原因方面:人为原因35.08%,外部原因14.44%,控制系统原因17.28%,门系统原因17.08%,安全保护装置原因8.09%。本文转自d1net(转载)
    文章 2017-07-05 1602浏览量
  • 让你提前认识软件开发(44):如何解决软件故障

    对于研发人员来说,在查找问题原因之前,一定要叫现场支持人员将软件出现故障时候的日志保存并发送回来。这样可以对照着日志阅读代码,大部分问题的原因就能够很快找到了。4.解决软件故障的注意事项 在解决软件故障...
    文章 2014-08-06 969浏览量
  • 这些常见的网络故障,你都知道如何解决吗

    在100Mbit/s时连接正常,只是在升级到1000Mbit/s时才发生故障,看来导致这种故障原因可能是超五类布线问题。虽然从理论上说超五类系统支持1000Mbit/s的传输速率,但是如果双绞线、配线架、网线和其他网络设备的...
    文章 2018-10-25 1471浏览量
  • 阿里巴巴DevOps实践指南(二十一)|全景监控

    整个故障定义的过程都是线上化和结构化的,当业务指标超出故障定义的范围时,故障台会自动触发故障通告,并将通告信息及时发送给相关团队的技术人员。技术人员通过故障通告快速查看业务监控数据,通过全景监控的纵向...
    文章 2021-07-06 340浏览量
  • 有效资源监控 加速IT信息化服务水平推进——中国人民...

    通过对网络设备的监控,管理员可以实时掌握设备的CPU利用、内存利用、吞吐量等关键性能指标,以及设备的每个网络接口的流量信息。通过自动发现以及自定义的网络拓扑图,管理员可以实时的查看到全网所有网络设备...
    文章 2017-11-16 1029浏览量
  • 超全总结|阿里如何应对电商故障?神秘演练细节曝光

    今天的分享,主要还是回归故障发生的本质,故障原因角度切入。看是否有一些方法论和通用性的手段可以沉淀出来。希望可以对大家有所帮助。今天演讲的主要包括两个部分:第一部分会从分布式系统经典依赖故障出发,剖析...
    文章 2017-06-19 3869浏览量
  • 《分布式系统:概念与设计》一2.4.2 故障模型

    若要在传递视频信息时不出现时序故障,那么就要对操作系统和通信系统提出特殊的要求。故障屏蔽 分布式系统中的每个组件通常是基于其他一组组件构造的。利用存在故障的组件构造可靠的服务是可能的。例如,保存有数据...
    文章 2017-08-01 1181浏览量
  • 经验:探索内存问题如何造成数据库性能严重异常

    这个时候考虑数据库主机层面上定时任务和进程分析一些信息,由于以前出现故障的时候,有让客户开启oswatch采集,故这次也同样从osw中top的采样时间进行检查,且最终发现在异常时osw的采样时间也变长了,说明故障出现...
    文章 2020-02-28 475浏览量
  • AIX 部分故障判断及解决方法

    分析:按照该ERRPT报错信息可以确定该文件系统存在故障,需要人工对其文件系统进行fsck操作,从而确保数据的安全性、可靠性和可用性。解决:停应用后进行fsck该文件系统。5)内置硬盘故障 故障:发现硬盘无法进行写...
    文章 2017-11-09 1220浏览量
  • 经验之谈:内存问题造成数据库性能异常怎么破?

    这个时候考虑数据库主机层面上定时任务和进程分析一些信息,由于以前出现故障的时候,有让客户开启oswatch采集,故这次也同样从osw中top的采样时间进行检查,且最终发现在异常时osw的采样时间也变长了,说明故障出现...
    文章 2020-03-11 385浏览量
  • 还不知道AIOps嘛?阿里这么火的智能运维,你不能不...

    对某些受众来说,比起故障原因更关心这个故障的影响面,这也会实时展现,包括影响的应用及其功能点列表。三. AIOps智能运维解决方案 1. 核心功能 上述内容给大家介绍了在故障发现和原因分析中引入机器学习算法和...
    文章 2018-05-30 12754浏览量
1 2 3 4 ... 66 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化