• N+1 UPS配置的成本、速度及可靠性的权衡

    借助内部的“模块化”冗余,现在有一个备用电源模块,使得一个单一模块内的故障不需要转移到静态旁路。相反,单个模块本身会脱机,而负载仍然由其他活动模块备份。失败的模块可以通过在环绕旁路安置整个UPS在稍后被...
    文章 2017-07-03 1221浏览量
  • 《架构师》反思:系统可靠性

    软件确认技术则主要着眼于排除程序代码中的错误。目前支持很好的自动化。工程质量的把控,主要依靠测试管理,分为:“软件测试团队组织管理、软件测试计划管理、软件缺陷(错误)跟踪管理以及软件测试件管理”四大...
    文章 2016-05-05 4890浏览量
  • 浩鲸科技基于ChaosBlade的混沌工程实践

    故障节点将被排除出可用节点列表。短暂 tps 下降后&xff0c;消息发送恢复正常 tps。演练中稳定性异常&xff1a;节点 hang 住后&xff0c;tps 骤降为 0&xff0c;不符合预期&xff1b;改进成果&xff1a;1.客户端引入熔断机制&xff0c;...
    文章 2021-08-30 245浏览量
  • 75%CIO认为:网络仍然面临问题

    自带网络监测能力,这是SLX 9850最新的功能特性,它基于开放内核的虚拟机(KVM)环境,用户可以在这个虚拟机上安装所需要的第三方监测软件,例如New Relic、Splunk、DataDog等,用于故障排除和分析。该虚拟机采用...
    文章 2017-07-03 1021浏览量
  • Troubleshooting OpenStack 瘫痪-每天5分钟玩转 ...

    Troubleshooting(故障排除)是运维 OpenStack 等开源项目的重要技能,遇到问题后一定要借助社区的力量定位、搜索、分析并解决问题。下面 CloudMan 将分享一个真实的案例,还原当时 Troubleshooting 的过程,希望能...
    文章 2017-03-08 1149浏览量
  • 网络工程师必知的光纤常识

    1)使用光功率计测试A设备发送口连接尾纤的发光功率,如果没有发光,检查设备接口是否开启,开启后仍没有发光,找一个正常使用的光模块和尾纤再测试,排除模块和尾纤损坏。如果发光正常,在ODF侧打环(使用法兰模块...
    文章 2017-11-23 1312浏览量
  • 网络运维系统,只要对的,不要贵的

    而在网络管理者进行故障排除的时候必须要经过一个故障定位——故障分析——故障解决的过程。这个过程一般来说时需要耗费不少时间的。业务系统出现了停滞必然会带来损失。中小企业网络规模虽然小,但是涉及的需求并不...
    文章 2017-11-08 916浏览量
  • 最深刻最严重损失超过一百万的一次BUG修复总结与复盘

    为了迎接保险行业每年一的“开门红”,客户要求提前几天发布上线,做好“开门红”前的准备。按照客户强烈要求,我们将程序进行开发打包,应用服务器部署、代理配置等一系列忙碌的操作(都懂不细说),最终将项目...
    文章 2021-11-12 248浏览量
  • 阿里巴巴DevOps实践指南(二十一)|全景监控

    因此开发运维人员可以在一个监控界面上逐步排除故障发生时的可疑点,快速定界到故障发生的原因。这里以某订单系统调用延时突增故障为例,介绍一下全景监控的故障排查过程:线上问题发生的第一时间,负责该订单系统的...
    文章 2021-07-06 265浏览量
  • 在大规模 Kubernetes 集群上实现高 SLO 的方法

    集群故障机并须做到“快速发现,快速隔离,及时修复”,毕竟故障机会对集群容量造成影响。The success standard and reason classification 有了集群的指标后,我们需要把这些指标进行细化,定义出成功的标准。先来...
    文章 2020-11-06 3682浏览量
  • 云计算网络基础架构的实践和演进——打造云计算网络...

    可能会出现堆叠的分裂以及单台设备的故障,也可能出现整个端口流量上行的带宽减半或者是分裂以后导致等一些不可预期的后果,因此需要及时检测出一些故障并且及时进行隔离以及对于设备进行下线维修从而排除此类故障。...
    文章 2017-04-24 18792浏览量
  • 《CCNP TSHOOT(642-832)学习指南》一1.1 应用维护...

    故障响应相关的任务:包括为遇到网络故障的用户提供支持、检测与排除设备或链路故障、替换故障设备、恢复备份等任务。与商业流程相关的任务:包括文档化、一致性审计以及SLA(Service Level Agreement,服务等级...
    文章 2017-05-02 1484浏览量
  • 数据中心MTBF和AFR如何计算与应用?

    如果某个系统进行了“自定义”设置,是否将该系统的故障从抽样总体中排除?工业中用来计算MTBF的实际故障定义可能会有一些衍生情况。上面列出的只是一小部分。因为将许多异常情况统计为故障,所以MTBF值所反映...
    文章 2017-07-03 1552浏览量
  • 数据中心规划设计对空调制冷系统的六大要求

    管理系统必须清楚地描述任何问题,提供与问题症状更加相符的数据报告以及出现问题时详细的系统性能状况信息,以便进行故障排除,提供预测性故障分析。许多冷却组件都会出人意料地发生故障或中断,或者在没有通知的...
    文章 2017-09-01 1282浏览量
  • 论windows系统的安全性(中篇)

    为了保证实验系统的纯净性,排除第三方篡改导致的系统安全威胁,特下载官方镜像进行安装.三、实验流程 在实验首先进行连通性测试,发现默认开启防火墙的情况下,依然无法ping通靶机,因此关闭防火墙进行测试 使用ms...
    文章 2018-05-05 7458浏览量
  • 安防高清监控 有云才能任性

    当在线系统出现故障后,云储存能迅速调用热备机接替服务,在系统故障排除恢复时,服务与数据再回迁。若故障机数据需要调用,可以将故障机的磁盘插入到冷备机中,实现所有数据的立即可用。云存储的各项优势既满足了...
    文章 2017-07-11 1082浏览量
  • 安防高清监控 有云才能任性

    当在线系统出现故障后,云储存能迅速调用热备机接替服务,在系统故障排除恢复时,服务与数据再回迁。若故障机数据需要调用,可以将故障机的磁盘插入到冷备机中,实现所有数据的立即可用。云存储的各项优势既满足了...
    文章 2017-07-10 1024浏览量
  • 2016及以后的自动化测试趋势-《测试技术六月刊》

    故障测试的最终目的,是为了当真的有故障发生时,生产环境不会停止服务,并且整套系统可以在没有人为干预的情况下,非常优雅地通过降级(degrade)将发生故障的部分组件排除出去。测码奔腾 Supercell游戏主管:我们...
    文章 2016-06-17 5573浏览量
  • 监控设备的维护方法都有哪些

    6)对监控系统及设备的运行情况进行监控,分析运行情况,及时发现并排除故障。如:网络设备、服务器系统、监控终端及各种终端外设。桌面系统的运行检查,网络及桌面系统的病毒防御。7)每月定期对监控系统和设备进行...
    文章 2017-07-05 1299浏览量
  • 戴尔PowerEdge FX2模块化基础设施实现快速增长

    在合作伙伴Scalar和戴尔Deployment Services的帮助下,ATS部署了六个戴尔PowerEdge FX2机箱及23台戴尔PowerEdgeFC630服务器,减少了数据中心的占用空间,同时快速有效地隔离和排除故障问题。ATS Automation技术服务...
    文章 2017-07-05 1587浏览量
  • 加入阿里技术团队三年,哪些习惯让我在工作上持续受益...

    3、如果排除一个bug花费了很长时间,思考能否做点什么(例如增加日志、总结文档、优化代码等),让下次排查更容易。4、Crash early,一旦发生异常,立即崩溃,让问题第一现场尽早暴露。如果认为什么不可能发生,就用...
    文章 2020-03-24 2973浏览量
  • 软件测试相关简要记录

    3)原因排除法 软件可靠性 软件可靠性是程序在给定的时间间隔内,按照规格说明书的规定成功地运行的概率 错误的含义是开发人员造成的软件差错(Bug) 故障的含义是由错误引起的软件的不正确行为 一、估算平均无故障...
    文章 2015-06-26 1576浏览量
  • Troubleshooting OpenStack 瘫痪-每天5分钟玩转 ...

    Troubleshooting(故障排除)是运维 OpenStack 等开源项目的重要技能,遇到问题后一定要借助社区的力量定位、搜索、分析并解决问题。下面 CloudMan 将分享一个真实的案例,还原当时 Troubleshooting 的过程,希望能...
    文章 2017-11-14 1232浏览量
  • 企业数据中心电缆类型及其影响的比较

    使用来自DDM的信息来排除解决光链路故障,并确保收发器和光纤电缆按预期工作。较便宜的光纤器件通常不包括DDM,因此在购买之前请必要评估收发器的功能特征。随着光纤继续变得日益普及,数据中心的网络管理员们将发现...
    文章 2017-07-05 1600浏览量
  • MapReduce解决方案在金融行业中的运用

    更出色的监控和故障排除功能 Platform Symphony MapReduce可监控处理器和内存的使用量,并相应分配资源。它提供了从单台服务器获取日志数据,并从单一界面来管理这些数据的功能。极强的数据亲和力 Platform Symphony...
    文章 2016-05-05 1242浏览量
  • 浅谈云原生架构的 7 个原则

    监控数据的呈现形式应该不仅仅是指标趋势图表、柱状图等,还需要结合复杂的实际应用场景需要,让视图具备下钻分析和定制能力,以满足运维监控、版本发布管理、故障排除等多场景需求。​随着云原生技术的发展,基于...
    文章 2021-08-13 46浏览量
  • 15年老司机的DPM数据库性能分析产品研发之路

    15年运维管理经验,在数据库诊断、故障排除、优化、架构设计等方面具有丰富的经验。主题简介: 1、运维中常见的场景及对应解决案例 2、解密DPM数据库性能分析平台 本次我给大家带来的主题分享为《15年老司机的DPM...
    文章 2017-05-12 2166浏览量
  • 《VMware 网络技术:原理与实践》—— 2.2 模型行为

    排除故障时,我们可以将重点放在各个部分,而不是整个过程。模块化和互操作性:供应商可以编写实现某个层次功能的软件,只要遵循层次之间的标准化接口,该软件就可以和在其他层次上运行的其他供应商软件并存。电话...
    文章 2017-07-04 909浏览量
  • 关于QingCloud故障全过程及IDC防雷详解

    故障信息和故障排除进展的通告要更加及时。在昨天的事故中,我们首先将精力更多地投入到故障定位和排除上,在14:20才给出第一个故障通告,导致很多用户因缺乏信息产生焦虑。我们充分认识到及时、透明的信息通告的...
    文章 2017-08-02 1427浏览量
  • 《软件项目管理》复习概要

    过程能力基线(PCB)的主要内容:1)已交付软件的质量2)生产率3)进度计划4)工作量分布5)故障引入率6)过程中故障排除率7)质量成本8)故障分布 第六章 工作量估计和进度安排 自顶向下的估计方法:规模估计-...
    文章 2016-05-06 2586浏览量
1 2 3 4 6 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化