• 关于

    系统故障分析有什么用

    的搜索结果
  • 系统故障处理的思考

    5.通过查找上面时间点的系统故障日志,基本会看到相关的错误信息的,如调用了那个数据库对象、返回了什么oracle的错误、写了什么java异常信息;如果没找到或者几百M的日志不好找,那只能模拟测试看故障能否再重现,...

    文章 余二五 2017-11-14 901浏览量

  • 再谈2PC和3PC

    而对于故障恢复的策略以及正确性,我们可以从节点发生故障后最终整个系统可能处于的全局状态来详细分析论证,虽然对于n个参与节点来说,其状态组合指数级增长,但是其中大多数状态可以全称量词和存在量词描述,...

    文章 feilengcui008 2016-01-22 4655浏览量

  • Distributed Systems-再谈2PC和3PC

    而对于故障恢复的策略以及正确性,我们可以从节点发生故障后最终整个系统可能处于的全局状态来详细分析论证,虽然对于n个参与节点来说,其状态组合指数级增长,但是其中大多数状态可以全称量词和存在量词描述,...

    文章 feilengcui008 2016-01-22 766浏览量

  • 新人多重礼,优惠不断档!

    商标注册320起,工商财税299元起,域名首购1元购,资质办理免费咨询

    广告

  • 云效助力新零售运维效能提升之路

    当链路问题发生时,首先要去用户现场检查发生了什么问题,然后分析问题并能够将基础设施结构图画出来,并在链路上标出可能出现故障的地方。最后解决问题,解决问题的手段多种多样,但要学会借鉴解决问题的思路。在...

    文章 云迹九州 2018-05-14 1526浏览量

  • 鲜为人知的混沌工程,到底哪里好?

    因为故障演练之前是作为一个技术组件被嵌入到常态和大促的流程中,所以在系统构建自动化的编排和分析方面的产品度并不高。演练可视化编排和能力开放会是我们团队未来的一个重点,下文中的规划部分会有所阐述。2.5 ...

    文章 技术小能手 2019-01-29 3028浏览量

  • Mocha BSM产品亮点——事件管理

    现在,通过Mocha BSM的根本原因分析,就可以快速的分析出罪魁祸首,帮助管理人员在第一时间,将核心设备的故障进行恢复,而后其他应用和主机系统将不治自愈,降低企业的经济损失。提供Flapping技术,减少误报事件,...

    文章 技术小美 2017-11-09 792浏览量

  • 这些常见的网络故障,你都知道如何解决吗

    故障分析 由于这台交换机是一台可网管交换机,为了避免网络中存在拓扑环,从而导致网络瘫痪,可网管交换机在默认情况下都启用生成树协议。这样即使网络中存在环路,也会只保留一条路径,而自动切断其他链路。所以,...

    文章 技术小能手 2018-10-25 1338浏览量

  • 超全总结|阿里如何应对电商故障?神秘演练细节曝光

    终于解释清楚什么是强弱依赖,那么做好强弱依赖治理到底有什么意义?抛开依赖模型来看强弱,意义不大。严谨的依赖模型应该包括关系、流量、强弱三个组成部分。依赖关系定义依赖的方向,我依赖谁,谁依赖我。流量定义...

    文章 技术小能手 2017-06-19 3556浏览量

  • 阿里:千亿交易背后的0故障发布

    逐步将变更更新到线上,发布完成后,又会借助一些故障预警系统,例如像阿里GOC来尽早的发现故障,进行处理,这些环节的这些手段都已经成熟的系统来进行支持,但是发布的时候,我们常常还是心里没有底。...

    文章 阿里云头条 2018-04-20 5031浏览量

  • 无人值守时代,运维如何保障发布质量?

    逐步将变更更新到线上,发布完成后,又会借助一些故障预警系统,例如像阿里GOC来尽早的发现故障,进行处理,这些环节的这些手段都已经成熟的系统来进行支持,但是发布的时候,我们常常还是心里没有底。...

    文章 云效平台 2018-04-18 3522浏览量

  • 阿里云马劲:保证云产品持续拥有稳定性的实践和思考

    在这个过程中,我们会和云产品的负责人一起通过历史故障分析讨论我们的云产品可靠性该如何设计,是否需要增加进而逐渐完善云产品的可靠性体系。2、FMEA分析针对云产品的特性、所运行的环境、强弱依赖分析、故障频次...

    文章 云攻略小攻 2018-12-06 15575浏览量

  • 服务器故障排查的前五分钟[转]

    这个故障看起来是和 IO/硬件/网络 或者 系统配置(问题的代码、系统内核调优,…)相关。这个故障是否你熟悉的一些特征?比如对数据库索引使用不当,或者太多的apache后台进程。你甚至可能找到真正的故障源头。...

    文章 cnhejia 2016-04-07 2017浏览量

  • 如何设计高可用系统故障隔离

    当依赖的缓存系统故障时,业务处理不是直接失败,而是捕捉到异常后,直接降级调用数据库 例子 2 在支付的场景中,会每日提现额度的限制(是一个二级业务)。当依赖的限额系统出现故障时,针对小额提现的场景,可以...

    文章 初商 2019-08-06 1000浏览量

  • “穿实验服的猴子”:Netflix的应用型故障测试研究

    同时,Netflix还使用一种带故障点标记的分布式追踪系统,这套系统可以判断某个用户当前是否进入了一个,由故障注入测试生成的故障站点,并能追踪到当前测试的目标故障场景中,具体哪些被注入的故障。例如,如果...

    文章 青衫无名 2017-07-03 1222浏览量

  • 如何利用秒级监控进行mongodb故障排查

    在我们平时的数据库使用当中,监控系统,作为排查故障,告警故障的重要辅助系统,对dba、运维、业务开发同学进行问题诊断、排查、分析有着重要的作用。并且一个监控系统的好坏,也很大程度上影响了能否精确的定位...

    文章 conanco 2018-03-21 5003浏览量

  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的...

    北斗故障识别智能引擎在线日志实时分析、异常流量实时探测、告警收敛三大模块帮助精准定位和发现。在线上我们每天要处理万亿级的数据信息,通过算法识别出大概1亿条的基础事件,进一步识别后我们形成23万左右的...

    文章 技术小能手 2018-01-05 4779浏览量

  • ERD2005中文版

    Crash Analyzer 故障分析:分析 Windows 系统故障转储文件,这个比较专业,一般用户也不会用到。Disk Commander:用于数据恢复,功能强大,可以修复硬盘、分区和被删除文件。FileRestore,恢复被删除的文件,提供...

    文章 技术小阿哥 2017-11-27 1113浏览量

  • 《架构师》反思:系统可靠性

    系统故障是指硬件或者软件的错误状态,一般引进故障的原因是这些:部件的失效、环境的物理干扰、操作错误或不正确的设计。按照时间的长短,故障可以分为:永久性、间歇性、瞬时性。故障的级别:逻辑级故障、数据...

    文章 胡庆访 2016-05-05 4750浏览量

  • 基础设施助力双11(十):百万级物理和虚拟网络设备的...

    北斗故障识别智能引擎在线日志实时分析、异常流量实时探测、告警收敛三大模块帮助精准定位和发现。在线上我们每天要处理万亿级的数据信息,通过算法识别出大概1亿条的基础事件,进一步识别后我们形成23万左右的...

    文章 初商 2019-07-31 845浏览量

  • 也谈WINDOWS下分区类型变为RAW

    比如如果是FAT就没有DBR的备份,或者如果FAT32的6扇区也被破坏(这是非常正常的),或者不光DBR损坏,其它结构也问题(结构不匹配,即使DBR正确,系统照样不知道是什么文件系统)。如果不幸真得被我言中的话,事情会...

    文章 余二五 2017-11-20 1329浏览量

  • 软件需求分析步骤方法

    系统可行性分析,需求实现的技术可行性、环境分析、费用分析、时间分析等;以模型描述系统的功能项、数据实体、外部实体、实体之间的关系、实体之间的状态转换等方面的内容。用于需求建模的方法很多种,最常用的...

    文章 rockypeng 2013-10-09 654浏览量

  • 什么架构设计要进行服务隔离!

    我们在做系统设计的时候,必须一个清楚的认知是:任何软件系统故障是不可避免的,并且大多数还是不可预测的,因此,我们只能在系统的设计之初就充分的考虑好应对措施,如何在故障发生时,去尽最大可能的止损和...

    文章 java填坑路 2018-08-20 1026浏览量

  • 八年来我们到底经历了什么?——中间件专家带你“重走...

    那么异地多活的到底有什么意义呢?首先异地多活消除了IDC资源单点和容量瓶颈;其次解决了异地容灾问题,业务可以秒级快速切换;此外,异地多活简化了容量规划,提升了伸缩性和可维护性;最后,通过异地多活解决了可...

    文章 场景研读 2017-08-04 7697浏览量

  • 轻松应对双11,百万级物理和虚拟网络设备的网络智能化...

    北斗故障识别智能引擎在线日志实时分析、异常流量实时探测、告警收敛三大模块帮助精准定位和发现。在线上我们每天要处理万亿级的数据信息,通过算法识别出大概1亿条的基础事件,进一步识别后我们形成23万左右的...

    文章 zengzengzeng 2017-12-14 1825浏览量

  • Linux 服务器故障排除的前五分钟(First 5 Minutes ...

    这个故障看起来是和 IO/硬件/网络 或者 系统配置(问题的代码、系统内核调优,…)相关。这个故障是否你熟悉的一些特征?比如对数据库索引使用不当,或者太多的apache后台进程。你甚至可能找到真正的故障源头。...

    文章 技术小美 2017-11-07 1109浏览量

  • 看懂架构设计中的服务隔离

    我们在做系统设计的时候,必须一个清楚的认知是:任何软件系统故障是不可避免的,并且大多数还是不可预测的,因此,我们只能在系统的设计之初就充分的考虑好应对措施,如何在故障发生时,去尽最大可能的止损和...

    文章 java填坑路 2018-09-09 808浏览量

  • 软件开发流程

    3、故障分析解决 软件升级 需求调整分析 软件功能拓展 优化系统 报废处理 软件不能适应业务发展 新软件项目立项 企业数据信息备份 举例解析 1 例如某家公司想找人订做一套人事管理软件,从某种渠道上得知某家软件开发...

    文章 涂作权 2013-04-20 1630浏览量

  • 分布式调用跟踪系统的设计和应用学习

    一、为什么需要分布式调用跟踪系统 随着分布式服务架构的流行,特别是微服务等设计理念在系统中的应用,业务的调用链越来越复杂, 可以看到,随着服务的拆分,系统的模块变得越来越多,不同的模块可能由不同的团队...

    文章 邴越 2016-07-28 9820浏览量

  • 走近华佗,解析自动化故障处理系统背后的秘密

    MaxCompute:阿里云数加-大数据计算服务,华佗MaxCompute进行大规模系统故障的数据挖掘,以提高故障检测准确率和预测故障的发生。阿里云数加-大数据计算服务MaxCompute产品地址:...

    文章 yq传送门 2016-12-18 4584浏览量

  • 如何运用结构化思维进行故障处理

    这种方式思考,助于形成、整理和构造思维导图,从而促进大脑自然有序地思考,从而让你更全面地去分析一个问题。下面介绍几种常见的自上而下的思考模型: 1)STAR法则 Situation 背景 Target 目标 Action 行动 ...

    文章 宜信技术学院 2019-10-15 5121浏览量

1 2 3 4 ... 60 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化