• ECS运维:操作系统有异常?诊断日志来帮忙!

    为了分析根本原因而避免问题反复发生,运维人员通常依靠查看系统日志来做分析诊断,然而此时也许实例已经无法正常SSH远程连接,让定位故障原因的过程变得非常困难。现在阿里云提供了一键查看系统日志和屏幕截屏的...
    文章 2018-07-23 6851浏览量
  • 智能化网络管理 为企业信息化保驾护航

    通过详细而专业的技术指标监控,管理平台可以实时的分析各种应用系统的健康状况,甚至还能智能的分析出在Oracle数据库中哪些执行语句最消耗资源,从而优化应用平台,准确的定位故障隐患,将问题消灭在萌芽期,保障...
    文章 2017-11-08 841浏览量
  • 搜狗智能联想输入法,背后的运维又是如何智能的?

    每当出现一类问题,就编入知识库和故障分析模块,避免下一个同样的故障发生。但实际情况是,大家在操作某一个模块时,不一定会去看之前存在的问题和解决方案。搜狗的做法是把这些问题与知识固化到系统里,让机器人...
    文章 2017-11-27 1202浏览量
  • 服务器可靠性提升(一)内存CE增强隔离技术

    通过这些表格可以看到linux操作系统对内存的故障做了一些处理,Linux对内存的故障处理使用了一些故障管理的脚本,留了一些处理接口,依照这些脚本和接口,能够减少一些内存故障系统的影响,但是这些接口和处理脚本...
    文章 2019-07-31 3113浏览量
  • 再谈2PC和3PC

    本文对于每种恢复情况都了一定考虑,对于只有一个coordinator和participant的情况,我们可以画出系统的全局状态图,从而判断不同故障组合是否会导致状态转换的不确定结果,即最终的全局状态既有commit又有abort,...
    文章 2016-01-22 4754浏览量
  • Distributed Systems-再谈2PC和3PC

    本文对于每种恢复情况都了一定考虑,对于只有一个coordinator和participant的情况,我们可以画出系统的全局状态图,从而判断不同故障组合是否会导致状态转换的不确定结果,即最终的全局状态既有commit又有abort,...
    文章 2016-01-22 785浏览量
  • 阿里:千亿交易背后的0故障发布

    首先是发布单详情页面中的无人值守信息展示,发布单详情页面是发布过程中最常会去看的页面,所以我们选择把无人值守检测出来的一些信息展示到这个页面,在一个页面中把可以做的事情都做掉。当然,并不是说开发同学...
    文章 2018-04-20 5069浏览量
  • 什么架构设计要进行服务隔离!

    我们在系统设计的时候,必须有一个清楚的认知是:任何软件系统故障是不可避免的,并且大多数还是不可预测的,因此,我们只能在系统的设计之初就充分的考虑好应对措施,如何在故障发生时,去尽最大可能的止损和...
    文章 2018-08-20 1082浏览量
  • 无人值守时代,运维如何保障发布质量?

    首先是发布单详情页面中的无人值守信息展示,发布单详情页面是发布过程中最常会去看的页面,所以我们选择把无人值守检测出来的一些信息展示到这个页面,在一个页面中把可以做的事情都做掉。当然,并不是说开发同学...
    文章 2018-04-18 3740浏览量
  • Mocha BSM产品亮点——事件管理

    如果管理人员收到了多个资源问题的故障单,如果事先没有对资源事件级别进行设定,管理人员会按照先到先解决的原则进行排除,Mocha BSM能够帮助管理人员建立优先级别,通过级别的展现,管理人员可以很清楚的了解到...
    文章 2017-11-09 816浏览量
  • 云效助力新零售运维效能提升之路

    当链路有问题发生时,首先要去用户现场检查发生了什么问题,然后分析问题并能够将基础设施结构图画出来,并在链路上标出可能出现故障的地方。最后解决问题,解决问题的手段多种多样,但要学会借鉴解决问题的思路。在...
    文章 2018-05-14 1572浏览量
  • 工业4.0预测性维护指南

    4)预测性数据是一种分析性数据,它将算法应用于存储的数据,以便更好地理解机器应该如何工作,以及在故障发生前它可能在做什么。然后,这些数据以警报和报告的形式提供给操作员。5)工程师和专家使用根本原因分析来...
    文章 2020-06-10 440浏览量
  • 看懂架构设计中的服务隔离

    我们在系统设计的时候,必须有一个清楚的认知是:任何软件系统故障是不可避免的,并且大多数还是不可预测的,因此,我们只能在系统的设计之初就充分的考虑好应对措施,如何在故障发生时,去尽最大可能的止损和...
    文章 2018-09-09 851浏览量
  • 一线架构师实践指南:证券行业应如何构建一体化监控...

    由于采用大数据分析可以支持业务的趋势监控,即可以根据历史数据情况,对未来的故障可能进行预警。例如:针对存储设备的运行情况分析,预知其故障的可能性,从而提前预警,维护人员可快速接入处理。2一体化监控的...
    文章 2017-05-02 3311浏览量
  • 超全总结|阿里如何应对电商故障?神秘演练细节曝光

    每个通用的远程调用接口,都是可以做文章的点,并且中间件之上的业务系统不用做任何改造。下一个问题就是故障规则和业务识别,我们曾考虑在用户请求的入口就打上标记,置入故障规则,不过发现对于post请求,异步js...
    文章 2017-06-19 3717浏览量
  • 架构设计之「服务隔离」

    我们在系统设计的时候,必须有一个清楚的认知是:任何软件系统故障是不可避免的,并且大多数还是不可预测的,因此,我们只能在系统的设计之初就充分的考虑好应对措施,如何在故障发生时,去尽最大可能的止损和...
    文章 2018-08-23 2007浏览量
  • 鲜为人知的混沌工程,到底哪里好?

    因为故障演练之前是作为一个技术组件被嵌入到常态和大促的流程中,所以在系统构建自动化的编排和分析方面的产品度并不高。演练可视化编排和能力开放会是我们团队未来的一个重点,下文中的规划部分会有所阐述。2.5 ...
    文章 2019-01-29 3138浏览量
  • 阿里巴巴在混沌工程领域的实践和思考

    因为故障演练之前是作为一个技术组件被嵌入到常态和大促的流程中,所以在系统构建自动化的编排和分析方面的产品度并不高。演练可视化编排和能力开放会是我们团队未来的一个重点,下文中的规划部分会有所阐述。2.5 ...
    文章 2018-12-19 3250浏览量
  • 网络运维现状及发展趋势分析

    或者根本就不知道那台服务器上跑了什么应用系统,如果该链路断了,会影响什么业务系统,很多管理员并不清楚这些IT资源的关联性,甚至与业务系统的关联性。这就造成了很多业务出现故障后,就更难查找故障源了。发展...
    文章 2017-11-21 2168浏览量
  • 如何处理IT事件管理以避免混乱

    其他工具完全集成到服务台系统中,提供用于IT资产管理,根本原因分析和修复的功能,以及使用服务台系统处理提高故障单并向管理员通知正在发生的情况。IT管理供应商,如ManageEngine,BMC软件,SolarWinds,...
    文章 2017-07-03 1097浏览量
  • 系统故障处理的思考

    5.通过查找上面时间点的系统故障日志,基本会看到相关的错误信息的,如调用了那个数据库对象、返回了什么oracle的错误、写了什么java异常信息;如果没找到或者几百M的日志不好找,那只能模拟测试看故障能否再重现,...
    文章 2017-11-14 933浏览量
  • AIOps智能监控在阿里巴巴故障管理工作中的成功实践

    多指标相关性算法可以动态的发现并识别业务中相关的关系,在确定数据之间的关系后,算法可以做如下图中两方面的分析。(1)当指标出现异常时,算法会动态发现有相似下跌形态的相关指标,以此为异常原因定位提供重要...
    文章 2018-06-26 6041浏览量
  • [喵咪BELK实战(1)]浅谈日志的重要性以及介绍BELK

    大家通过如上图可以明确的了解BELK分别是做什么的它们是怎么协同工作的,让我们来研究它们分别是什么?2.1 Beats Beats是一个数据采集组件,主要使用的比较多的是里面的Filebeat,Filebeat是个很轻量级的工具使用GO语言...
    文章 2020-08-11 142浏览量
  • 软件需求分析步骤方法

    ⑵将那种以“如何实现”的表述方式转换为“实现什么”的方式,因为需求分析阶段关注的目标是“做什么”,而不是“怎么做”;⑶分析由用户需求衍生出的隐含需求,并识别用户没有明确提出来的隐含需求(有可能是实现用户...
    文章 2013-10-09 728浏览量
  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的...

    当我们已经可以发现故障、定性故障时,通过监控系统和修复系统的快速联动完成自修复,从而达成闭环,这就是阿里巴巴网络故障的自恢复。下图展示了网络自恢复过程及其自动完成信息的对接和中间逻辑的判断。网络自恢复...
    文章 2018-01-05 4849浏览量
  • 谈谈监控(转)

    故障分析:通过日志与调试工具分析软件BUG,指导开发人员改善软件质量,使其故障不会再次发生,达到不用restart重启方式解决故障 半自动化测试 什么事高级阶段呢?我认为高级阶段是监控与灾备系统打通融合一体。除此...
    文章 2015-03-09 1086浏览量
  • 什么选择Cassandra

    对于像Cassandra这样的数据库,就必须有围绕它的咨询,监控和故障排查系统,插件,仪表系统和备份系统,使得您的组织不需要重复开发上述一切能力,可以基于社区已有的内容。甚至很多云厂商提供Cassandra托管服务,让...
    文章 2019-08-13 3662浏览量
  • 基础设施助力双11(十):百万级物理和虚拟网络设备的...

    当我们已经可以发现故障、定性故障时,通过监控系统和修复系统的快速联动完成自修复,从而达成闭环,这就是阿里巴巴网络故障的自恢复。下图展示了网络自恢复过程及其自动完成信息的对接和中间逻辑的判断。网络自恢复...
    文章 2019-07-31 933浏览量
  • 运维高手的软实力

    如果你是一位有运维工作经验的职场人士,当你去面试的时候,面试官会很自然地问到你曾什么项目,让你详细描述一下工作中曾处理过的一个故障?这个看似很 简单,但是很多应聘者却回答的不好,没能在应答中展现...
    文章 2014-10-18 853浏览量
  • 如何利用秒级监控进行mongodb故障排查

    在我们平时的数据库使用当中,监控系统,作为排查故障,告警故障的重要辅助系统,对dba、运维、业务开发同学进行问题诊断、排查、分析有着重要的作用。并且一个监控系统的好坏,也很大程度上影响了能否精确的定位...
    文章 2018-03-21 5043浏览量
1 2 3 4 ... 82 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化