• 关于

    系统工程故障原因

    的搜索结果
  • 鲜为人知的混沌工程,到底哪里好?

    混沌工程故障注入和故障测试在关注点和工具中都有很大的重叠。混沌工程和其他方法之间的主要区别在于,混沌工程是一种生成新信息的实践,而故障注入是测试一种情况的一种特定方法。当想要探索复杂系统可能出现的...

    文章 技术小能手 2019-01-29 3034浏览量

  • 阿里巴巴DevOps实践指南(二十)|业务系统安全工程

    业务系统安全工程框架由于业务系统以及故障原因的复杂性,单纯的从一个或多个点出发很难解决问题。业务系统安全工程以控制论和系统论为指导,以风险控制方法为工具,形成了自己的实施框架 IPDRI,即识别(identify)...

    文章 开发者小助手 2021-07-06 141浏览量

  • 面向失败的设计-故障与攻防演练锤炼容灾应急能力

    初期:可以选择故障覆盖率这个指标(即发生并改进过故障系统,要能够免疫同样原因故障)。此时实验场景数就近似等同于故障覆盖率的分母。中期:可以选择监控发现率这个指标。此时实验场景数与实验次数是分母,...

    文章 KB小秘书 2019-11-08 998浏览量

  • 阿里云试用中心,为您提供0门槛上云实践机会!

    100+款试用云产品,最长免费试用12个月!拨打95187-1,咨询专业上云建议!

    广告

  • 模拟驾驶能力输出,赋能客户提升稳定性信心

    2.1.2模拟驾驶工具包实验注入工具-Apsara Chaos PlatformApsara Chaos Platform(简称ACP)是混合云一款遵循混沌工程原理和混沌实验模型的实验注入工具,帮助企业提升分布式系统的冗余容错能力、故障隔离能力、可...

    文章 SRE团队技术小编-小颖 2020-10-28 11309浏览量

  • 动态网站(六)

    对于资源耗尽引起的故障,可以通过查看系统负载、tcp状态、系统日志等了解具体的原因。而对于其他类型故障的处理,则可按上述所列的原因逐个排查。当然这里所列的条目并没有包括程序员更改程序导致故障这个原因,...

    文章 技术小甜 2017-11-16 854浏览量

  • 怎样管理Lotus Domino

    系统宕机不能及时定位故障原因。维护经验不能自动汇总分发。…… 针对这些常见问题:·问题1-系统维护门槛高 对Lotus Domino系统进行维护的人员,需要较高的技术水平和丰富的维护经验,这样就造成了只有少数人具有...

    文章 技术小美 2017-11-09 2047浏览量

  • 《架构师》反思:系统可靠性

    系统故障是指硬件或者软件的错误状态,一般引进故障原因是这些:部件的失效、环境的物理干扰、操作错误或不正确的设计。按照时间的长短,故障可以分为:永久性、间歇性、瞬时性。故障的级别有:逻辑级故障、数据...

    文章 胡庆访 2016-05-05 4750浏览量

  • 我们雇佣了一只大猴子.

    如果对故障整体做初步画像,故障整体可以分为IaaS层、PaaS层、SaaS层的故障,每一层都可能有很多故障出发原因和表现。图片来源于 QCon·北京 故障如此之多,让人摸不着头脑,我们试着把维度降低一下,换一个视角来看...

    文章 中间件小哥 2019-02-28 1960浏览量

  • 【分布式系统工程实现】CAP理论及系统一致性

    然而,对于分布式系统工程设计和开发来说,CAP意味着什么呢?CAP 理论由 Berkerly 的 Brewer 教授提出,三者的含义如下: 一致性(Consistency):任何一个读操作总是能读取到之前完成的写操作结果;可用性...

    文章 knuthocean 2016-04-11 2458浏览量

  • 超全总结|阿里如何应对电商故障?神秘演练细节曝光

    今天的分享,主要还是回归故障发生的本质,故障原因角度切入。看是否有一些方法论和通用性的手段可以沉淀出来。希望可以对大家有所帮助。今天演讲的主要包括两个部分:第一部分会从分布式系统经典依赖故障出发,剖析...

    文章 技术小能手 2017-06-19 3556浏览量

  • 这些常见的网络故障,你都知道如何解决吗

    在100Mbit/s时连接正常,只是在升级到1000Mbit/s时才发生故障,看来导致这种故障原因可能是超五类布线问题。虽然从理论上说超五类系统支持1000Mbit/s的传输速率,但是如果双绞线、配线架、网线和其他网络设备的...

    文章 技术小能手 2018-10-25 1347浏览量

  • 还不知道AIOps嘛?阿里这么火的智能运维,你不能不...

    对某些受众来说,比起故障原因更关心这个故障的影响面,这也会实时展现,包括影响的应用及其功能点列表。三. AIOps智能运维解决方案 1. 核心功能 上述内容给大家介绍了在故障发现和原因分析中引入机器学习算法和...

    文章 聒小小噪 2018-05-30 11562浏览量

  • 光伏电站运维常见故障及处理汇总

    如果逆变器是使用一段时间,没有发现原因,则是逆变器硬件电路发生故障,需要联系售后。2、逆变器不并网 故障分析:逆变器和电网没有连接。可能原因: (1)交流开关没有合上。(2)逆变器交流输出端子没有接上。(3...

    文章 行者武松 2017-07-04 1203浏览量

  • 数据中心业务中断 多与运营流程有关

    在基础设施方面,冷却系统中的机械故障是发生最多的故障,但电气系统故障却导致更多的停机事件,因为在这么短的时间很难作出迅速的反应。他说,"这些努力都需要得到外界的工程支持,所以管理所需要的时间通常只限于...

    文章 知与谁同 2017-07-04 714浏览量

  • 如果故障选择了你……

    所以构建稳定性系统很重要的一环是混沌工程,在可控范围或环境下,通过故障注入,来持续提升系统的稳定性和高可用能力。ChaosBlade(Github 地址:https://github.com/chaosblade-io/chaosblade)是一款遵循混沌工程...

    文章 阿里巴巴云原生小助手 2020-09-11 1130浏览量

  • 数据中心业务中断 多与运营流程有关

    在基础设施方面,冷却系统中的机械故障是发生最多的故障,但电气系统故障却导致更多的停机事件,因为在这么短的时间很难作出迅速的反应。他说,"这些努力都需要得到外界的工程支持,所以管理所需要的时间通常只限于...

    文章 晚来风急 2017-08-02 763浏览量

  • 有了天融信安全运维服务,再也不用担心被投诉了!

    传统运维工作的思路是在故障发生以后再去寻找引发系统故障原因或安全事件。这里要注意了,发生故障之后才去找原因,这就是被投诉的根源。某机构网站管理员反映互联网上的门户网站不时出现闪断现象,即使是在非业务...

    文章 青衫无名 2017-09-01 1215浏览量

  • 云原生高可用技术体系构建

    一开始也是通过一些工具或者脚本来进行,在2016年之后才开始将通用的故障模式沉淀为系统,之后在2018年将内部沉淀多年的实践正式在阿里云商用,2019年时将沉淀多年的故障注入场景正式开源,成为国内首个混沌工程开源...

    文章 영~ 2020-06-18 434浏览量

  • 带你读《智能制造之卓越设备管理与运维实践》之三:运...

    设备的故障根源有很多种,比如材料变形、液体物理性质不稳定、严重磨损、故障频繁重复等,改善性维修要求在系统的性能和材料退化之前采取措施进行维修,有效地减少系统的整体维修需要,延长系统的使用寿命。...

    文章 温柔的养猫人 2019-11-08 938浏览量

  • ChaosBlade x SkyWalking 微服务高可用实践

    混沌工程就此产生,在可控范围或环境下通过对系统注入故障,观察系统行为并发现系统缺陷,以建立对分布式系统因意外条件引发混乱的能力和信心,持续提升系统的稳定性和高可用能力。混沌工程的实施流程是制订混沌实验...

    文章 阿里巴巴云原生小助手 2020-12-09 9894浏览量

  • 已经不需要司机的Waymo无人车,何时才能摆脱后座待命...

    系统识别故障(System Identified Failures,SIFs),或者自动驾驶系统发生“困惑”并且知道自己正处于“困惑”状态时发生的事件,此时系统会发出信号请求远程协助;意外故障(Unexpected Failures,UFs),或自动...

    文章 行者武松 2018-01-11 692浏览量

  • 闲鱼神探——线上问题定位与快速解决

    为响应故障报警最快解决,集团内部很多团队都在做故障定位系统,这里简单比较常见的解法。1、基于专家经验的决策树模式目前最成熟,做的最多的方案是基于专家经验,对以往排查路径进行沉淀收敛,以决策树模型进行...

    文章 闲鱼技术 2020-07-28 1240浏览量

  • 《软件工程方法与实践》—— 1.3 什么是软件工程

    因此,软件工程学涉及的范围很广,涉及计算机科学、管理学、系统工程学和经济学等多个学科领域。软件工程学分成软件开发方法和软件工程管理两个方面,重点是对软件开发方法和工程性技术的研究。软件开发技术和软件...

    文章 华章计算机 2017-05-02 1911浏览量

  • 工业4.0预测性维护指南

    使用可视化系统工程团队将能够以图形形式查看生产线。这应该包括数据流、仪表板和系统逻辑(其中一组规则将在发现异常时进行监视和警报),以产生有关系统应如何有效运行的蓝图。从这里开始,任何历史机器数据或...

    文章 物联网IoT996 2020-06-10 361浏览量

  • 在大规模 Kubernetes 集群上实现高 SLO 的方法

    至于故障机的恢复时间,需要按不同的故障原因,制定不同的恢复时间。比如系统故障需要重要安装系统,那恢复时间就会长些。有了这些标准后,我们也对 Pod 失败的原因进行了整理,有些失败原因是系统引起的,是我们...

    文章 阿里巴巴云原生小助手 2020-11-06 3200浏览量

  • 《软件需求工程(第2版)》一导读

    与软件工程中传统的需求分析概念相比,需求工程突出了工程化的原则,强调以系统化、条理化和可重用的方法和技术进行与软件需求相关的活动,从而有利于提高所有与软件需求相关的活动及其过程的可管理性,降低需求开发...

    文章 华章计算机 2017-08-01 752浏览量

  • 系统设计之——架构师职责和设计原则

    人总是会犯错的,加上互联网公司往往要求运维人员在凌晨执行系统升级等操作,因此,运堆人员操作失误的概率远远高于机器故障的概率。很多设计方案是无法做到自动化的,例如MySQL数据库主备之间异步复制。如果主机...

    文章 凌洛 2018-11-18 2432浏览量

  • 智能化网络管理 为企业信息化保驾护航

    而有限的技术人员并不能完全精通各种应用系统,很多时候数据库缓慢、应用慢并不能分析出故障的根源,从而导致很多时候故障处理效率不高,甚至还会形成遗留问题。通过详细而专业的技术指标监控,管理平台可以实时的...

    文章 技术小美 2017-11-08 799浏览量

  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的...

    对可疑故障链路进行标红处理,通过庖丁可视化界面,轻松判断故障的发生原因。在故障发现、探测的最终结果可以对具体的用户呈现,也可以通过API形式对业务系统进行主动的信息推送。这意味着上层业务网络查询更加开放...

    文章 技术小能手 2018-01-05 4779浏览量

  • AIX系统errpt详解

    设备的错误日志条目通常返回有关设备制造商、序列号、工程变更级别、以及只读存储级别的信息。Description:错误的汇总信息。Probable Cause:一些可能的错误原因的列表。User Causes:由用户错误所导致错误的可能...

    文章 老牛的博客 2011-04-06 720浏览量

1 2 3 4 ... 31 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化