• 关于

    系统故障出问题什么情况

    的搜索结果
  • 服务器可靠性提升(一)内存CE增强隔离技术

    对于内存故障隔离,未来将会根据内存故障地址解析所在的 row、colom、bank,rank 等,更加精准的判读出故障单位在内存DIMM上分布情况,了解内存错误在一个DIMM上的分布情况。同时也会基于预测算法对故障单元周围的...

    文章 初商 2019-07-31 2710浏览量

  • 监控系统遇到干扰的解决方案

    监控装置最头疼最常见的就是干扰了,遇到干扰时要清楚问题所在能够判断出是什么请况引起的干扰这很重要以下几种情况可以帮你快速判断出问题所在。第一种情况横杠类干扰视频传输中,最常见的故障现象表现在监视器的...

    文章 玄学酱 2017-07-05 1079浏览量

  • 《分布式系统:概念与设计》一2.4 基础模型

    我们希望在我们的基本模型中提取的分布式系统情况能解决下列问题:交互:计算在进程中发生,进程通过传递消息交互,并引发进程之间的通信(信息流)和协调(活动的同步和排序)。在分布式系统的分析和设计中,我们...

    文章 华章计算机 2017-08-01 926浏览量

  • 阿里云试用中心,为您提供0门槛上云实践机会!

    100+款试用云产品,最长免费试用12个月!拨打95187-1,咨询专业上云建议!

    广告

  • 如何将机器学习应用于预测性维护?

    能够预测机器什么时候会出故障是最理想的情况,但是很难准确预测。在最佳情况下,您将知道机器何时会出现故障。您还将知道哪些部件将出现故障,这样您就可以减少诊断问题所花费的时间,并减少流程中的浪费和风险。当...

    文章 云栖号资讯小哥 2020-06-10 440浏览量

  • 怎样管理Lotus Domino

    问题3-系统变更导致系统故障。通常,系统发生故障,不是系统本身引起的,而是系统变更导致的。因此,系统变更的记录和管理就显得尤为重要,IT部门迫切需要相关辅助软件予以支持。解决办法:Mocha BSM支持对主机、...

    文章 技术小美 2017-11-09 2047浏览量

  • 我们雇佣了一只大猴子.

    2011年阿里巴巴开始做强弱依赖的治理和建设,希望提前发现因为依赖问题导致的系统故障,系统的代号是EOS(出处是古希腊神话中的黎明女神,语意是能够把纷乱的依赖关系梳理清楚) 2012年完成交易的同城双活后,我们就...

    文章 中间件小哥 2019-02-28 1960浏览量

  • 智能化网络管理 为企业信息化保驾护航

    而有限的技术人员并不能完全精通各种应用系统,很多时候数据库缓慢、应用慢并不能分析出故障的根源,从而导致很多时候故障处理效率不高,甚至还会形成遗留问题。通过详细而专业的技术指标监控,管理平台可以实时的...

    文章 技术小美 2017-11-08 799浏览量

  • 再谈2PC和3PC

    本文对于每种恢复情况都做了一定考虑,对于只有一个coordinator和participant的情况,我们可以画出系统的全局状态图,从而判断不同故障组合是否会导致状态转换的不确定结果,即最终的全局状态既有commit又有abort,...

    文章 feilengcui008 2016-01-22 4655浏览量

  • 超全总结|阿里如何应对电商故障?神秘演练细节曝光

    首先抛一个问题什么情况下你会认为淘宝网挂了?我相信关注这个问题的人很多,不过能给确切答案的人并不多。因为这个看似简单的问题,真要回答起来好像也不是那么容易。今天的分享,我先试着给大家回答一下这个...

    文章 技术小能手 2017-06-19 3556浏览量

  • [译]混沌游戏日:混沌的手把手指南

    如果发生这种问题不要太担心:没有为故障场景测试过的可观测能力经常显示不出问题。清楚这个是修复你的可视化能力的第一步,最终可以给你的用户一个更好的体验。混沌游戏日:事后复盘 事后复盘应该紧随事件处理...

    文章 时序 2020-08-11 144浏览量

  • Distributed Systems-再谈2PC和3PC

    本文对于每种恢复情况都做了一定考虑,对于只有一个coordinator和participant的情况,我们可以画出系统的全局状态图,从而判断不同故障组合是否会导致状态转换的不确定结果,即最终的全局状态既有commit又有abort,...

    文章 feilengcui008 2016-01-22 766浏览量

  • 阿里搜索事业部故障快速恢复实践

    之所以单拎出来是因为它的切流措施是特殊而且容易遗漏和出问题的。一般试验田考虑到成本问题,只在一个机房部署。当该机房出故障时,出了主集群外试验田也应该随之切走。ip漂移问题 在进行vipserver的切流时,如果...

    文章 卢占一十力 2018-03-16 2538浏览量

  • 《分布式系统:概念与设计》一练习

    1.11 列在客户进程调用服务器对象的方法时可能出现故障的三个主要软件组件,针对每一种情况一个故障例子。对组件的设计给建议,使得它能容忍彼此的故障。1.12 一个服务器进程维护一个共享的信息对象(如...

    文章 华章计算机 2017-08-01 1711浏览量

  • 模拟驾驶能力输出,赋能客户提升稳定性信心

    通过对“哪里最可能出问题”的思考和讨论,我们评估出系统潜在的弱点和预期结果,这可以让你对演练的优先级有所把握:哪些潜在问题更有可能发生或后果更严重。团队可以通过记录并总结历史故障类型、发生频次以及对应...

    文章 SRE团队技术小编-小颖 2020-10-28 11309浏览量

  • 无人值守时代,运维如何保障发布质量?

    但是虽然已经经过了多轮测试,肯定还是没有办法覆盖线上各种复杂多样的场景的,而这些没有办法覆盖的场景,就只能靠运气去"蒙"了,运气好的,这些场景没有问题,运气不好,刚好就其中一个场景出问题,出现故障了。...

    文章 云效平台 2018-04-18 3533浏览量

  • 阿里:千亿交易背后的0故障发布

    但是虽然已经经过了多轮测试,肯定还是没有办法覆盖线上各种复杂多样的场景的,而这些没有办法覆盖的场景,就只能靠运气去"蒙"了,运气好的,这些场景没有问题,运气不好,刚好就其中一个场景出问题,出现故障了。...

    文章 阿里云头条 2018-04-20 5036浏览量

  • “穿实验服的猴子”:Netflix的应用型故障测试研究

    故障测试的最终目的,是为了当真的有故障发生时,生产环境不会停止服务,并且整套系统可以在没有人为干预的情况下,非常优雅地通过降级(degrade)将发生故障的部分组件排除出去。Andrus还描述了一幕,在整套测试...

    文章 青衫无名 2017-07-03 1222浏览量

  • 如何运用结构化思维进行故障处理

    比如面对“系统 bug 多”的问题,向上抽象是“提升代码质量”,向下抽象是“加强测试”,都可以作为中心,选择哪个为中心取决于你当前要解决的问题什么。2)结构化分解 使用结构化的思维对问题进行分解。分解策略...

    文章 宜信技术学院 2019-10-15 5121浏览量

  • 还不知道AIOps嘛?阿里这么火的智能运维,你不能不...

    例如高可用集群的异地容灾切换保证中,局部集群挂掉可能用户使用并不会出现问题,但另一角度看,可能系统任何问题都没有出现但是业务受到影响,例如运营商的骨干网出现问题,这种情况下仍然需要采取措施来防止流量...

    文章 聒小小噪 2018-05-30 11562浏览量

  • 已经不需要司机的Waymo无人车,何时才能摆脱后座待命...

    根据向加州交管局提交的数据,最难处理的意外故障问题并没有随着系统识别故障问题一并得到改善,这或许表示,与2016年中期时的预估水平相比,Waymo现在的无人车要离商业化更远一些。Waymo无人车的左转困难问题也支持...

    文章 行者武松 2018-01-11 692浏览量

  • 鲜为人知的混沌工程,到底哪里好?

    故障演练是阿里巴巴在混沌工程领域的产品,目标是沉淀通用的故障模式,以可控成本在线上重放,以持续性的演练和回归方式运营来暴露问题,不断推动系统、工具、流程、人员能力的不断前进。混沌工程、故障注入和故障...

    文章 技术小能手 2019-01-29 3034浏览量

  • 服务器故障排查的前五分钟[转]

    这个故障看起来是和 IO/硬件/网络 或者 系统配置(有问题的代码、系统内核调优,…)相关。这个故障是否有你熟悉的一些特征?比如对数据库索引使用不当,或者太多的apache后台进程。你甚至有可能找到真正的故障源头。...

    文章 cnhejia 2016-04-07 2017浏览量

  • 《Effective Debugging:软件和系统调试的66个有效...

    这样修改之后,我们就可以判断出问题到底是出在修改之前的Boolean条件上面,还是出在测试数据或是用来处理“SCT大于当前日期”的那部分逻辑上面。还有一些类似的技巧可以考虑,例如,在方法的开头添加return true或...

    文章 华章计算机 2017-07-04 992浏览量

  • 《日志管理与分析权威指南》一1.2.1 什么是日志数据

    调试:软件系统在应用程序代码运行时生成调试信息,是为了给软件开发人员提供故障检测和定位问题的帮助。警告:警告消息是在系统需要或者丢失东西,而又不影响操作系统情况下生成的。例如,如果一个程序没有获得...

    文章 华章计算机 2017-07-03 1082浏览量

  • 在能够正常运作的系统与发生故障系统之间寻找差别

    因此,只要能够深入故障系统中,并对其进行足够的探查,我们就迟早能够找到相关的bug,从而揭示系统什么会在行为上与正常系统有所不同。其实有很多时候,系统故障原因都会非常明确地出现在你面前,只要你肯...

    文章 华章计算机 2017-05-02 920浏览量

  • 在能够正常运作的系统与发生故障系统之间寻找差别

    因此,只要能够深入故障系统中,并对其进行足够的探查,我们就迟早能够找到相关的bug,从而揭示系统什么会在行为上与正常系统有所不同。其实有很多时候,系统故障原因都会非常明确地出现在你面前,只要你肯...

    文章 华章计算机 2017-07-04 1042浏览量

  • 浅析单点故障以及云上高可用和容灾

    这种情况下,数据库、服务器或者服务器上的业务程序出问题了,发生了单点故障,那么整个业务链路就处于不可用状态。很多用户抱着侥幸心理,直到发生问题时候才惊醒,然而问题已经出现,损失已无法挽回。使用误区 ...

    文章 尘轩 2017-09-27 4720浏览量

  • 专访阿里数据库备份专家 教你pick最有效的备份系统

    多数情况是不用备份的,如果是研发用途,建议开启备份,不要轻视测试数据库的备份,企业中所有开发、测试人员都在测试数据库上工作,一旦数据出现问题,压力扑面而来,同时我们也看到,测试数据库出问题几率往往高于...

    文章 七幕 2018-08-10 2900浏览量

  • 走近华佗,解析自动化故障处理系统背后的秘密

    对于算路径上的网络设备,查询其错误日志,看是否有相应的故障,有问题报警给网络。如果有问题,则将对应的机器转换至ERROR状态,进入坏机器的处理策略中。心得 通过建立磁盘自动化的处理和磁盘故障的预测,可以...

    文章 yq传送门 2016-12-18 4584浏览量

  • Linux 服务器故障排除的前五分钟(First 5 Minutes ...

    这个故障看起来是和 IO/硬件/网络 或者 系统配置(有问题的代码、系统内核调优,…)相关。这个故障是否有你熟悉的一些特征?比如对数据库索引使用不当,或者太多的apache后台进程。你甚至有可能找到真正的故障源头。...

    文章 技术小美 2017-11-07 1109浏览量

1 2 3 4 ... 77 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化