• 搜狗智能联想输入法,背后的运维又是如何智能的?

    运维工程师分析这个请求的ID在每个模块里面的具体表现,根据这些规则模板看它是否命中设定规则模板,然后定位系统,再根据这些规则模板的命中情况一个决策,将故障定位。甚至可以定位它是属于哪个模块的哪个节点,...
    文章 2017-11-27 1202浏览量
  • 我们雇佣了一只大猴子.

    这只猴子是用来做什么的?从程序员的视角来看,提高系统稳定性的方法无外乎三种: 通过各种技术手段,例如在容器和调度、微服务、消息、软负载和配置中心等纬度提高系统和架构的健壮性;提升监控的广度和深度,生产...
    文章 2019-02-28 2028浏览量
  • 双11 背后的全链路可观测性:阿里巴巴鹰眼在“云原生...

    接下来就是数据的完备性和诊断模型的建模,这两部分是智能化诊断的基石,决定了故障定位的层级,同时这两部分也是相辅相成的,通过诊断模型的构建可以对可观测性指标查漏补缺,通过补齐指标也可以增加诊断模型的深度...
    文章 2019-12-20 1043浏览量
  • 10 人,2 个月|虾米音乐的监控体系升级之路

    前面两种类型的监控已经基本可以定位故障是否由于程序 Bug、上游应用或单机故障引起的,还有一类就是对中间件的监控,这里我们利用了 Sunfire 的基础监控对应用的 CPU、Load、JVM、HSF(Dubbo)、MetaQ 等中间件的...
    文章 2019-08-22 2281浏览量
  • Mocha BSM产品亮点——事件管理

    如果管理人员收到了多个资源问题的故障单,如果事先没有对资源事件级别进行设定,管理人员会按照先到先解决的原则进行排除,Mocha BSM能够帮助管理人员建立优先级别,通过级别的展现,管理人员可以很清楚的了解到...
    文章 2017-11-09 824浏览量
  • 线上服务故障处理原则

    但这可以达到快速恢复的目的,然后保留现场,以及定位问题,解决问题和复盘 发现问题 通常我们通过系统层面、应用层面和中间件层面监控来发现问题 系统层面监控包括 系统的 CPU 使用率 Load average Memory I/O...
    文章 2017-11-05 1286浏览量
  • 超全总结|阿里如何应对电商故障?神秘演练细节曝光

    每个通用的远程调用接口,都是可以做文章的点,并且中间件之上的业务系统不用做任何改造。下一个问题就是故障规则和业务识别,我们曾考虑在用户请求的入口就打上标记,置入故障规则,不过发现对于post请求,异步js...
    文章 2017-06-19 3724浏览量
  • 打造应用全栈监控:ARMS 最佳实践

    日常的运维是不是处于每天早上起来看了一堆花花绿绿的图表,这些图表的曲线高低对我们的业务有什么影响是不知道的,也不知道曲线的高低在以后我们能做什么,这两个问题都没有回答。然后手机上每天都收到很多的短信,...
    文章 2018-05-31 1959浏览量
  • 网络运维现状及发展趋势分析

    当维护中出现故障要处理的时候,我们的管理员就好像士兵一样,拿着他们的各种枪硬着头皮上战场,有时候一些枪可以起到一枪定乾坤的作用,有的时候是将各种武器都用完了还是无法完成战争的胜利,于是乎又去寻找各种...
    文章 2017-11-21 2176浏览量
  • 基础设施助力双11(六):看网络如何“自愈”

    故障定位&自动恢复 在确定主要告警以后,我们就需要针对不同的告警定制不同的分析策略和故障恢复策略。我们提供一个平台,让运营的同学提交脚本,更全面、灵活的覆盖到所有的告警场景。这是我们故障恢复的整体...
    文章 2019-07-31 907浏览量
  • Spring Cloud 应用在 Kubernetes 上的最佳实践—高...

    对于开发和运维,可以提高故障的应急效率,实现故障告警、定位、恢复的有效和高效性。对于测试来说,可以弥补传统测试方法留下的空白,之前的测试方法基本上是从用户的角度去,而混沌工程是从系统的角度进行测试,...
    文章 2020-09-02 1560浏览量
  • Spring Cloud 应用在 Kubernetes 上的最佳实践—高...

    对于开发和运维,可以提高故障的应急效率,实现故障告警、定位、恢复的有效和高效性;对于测试来说,可以弥补传统测试方法留下的空白,之前的测试方法基本上是从用户的角度去,而混沌工程是从系统的角度进行测试,...
    文章 2020-09-22 1047浏览量
  • HBase和Cassandra比较

    facebook为什么放弃Cassandra?参考:http://www.zhihu.com/question/19593207: Facebook开发Cassandra初衷是用于Inbox Search,但是后来的Message System则使用了HBase,Facebook对此给出的解释是Cassandra的最终...
    文章 2016-04-08 14238浏览量
  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的...

    如何基于这些数据在后期快速故障发现和定位;不同形态的业务对网络有不一样的需求,如何在兼顾资源利用率同时达到用户体验很好的平衡;在面临业务波动频繁的情况下,如何自证清白;在这些过程中如何快速完成综合...
    文章 2018-01-05 4857浏览量
  • 阿里搜索事业部故障快速恢复实践

    搜索目前采用的方式是三地三机房部署,既可以做异地容灾,也可以做故障时切流。切流最好的方式,是用户的访问直接去另外的机房。但是并不是所有的业务都有能力控制上游的入口流量分配。同时也不能因为整条链路上任意...
    文章 2018-03-16 2674浏览量
  • 分布式服务架构下的混沌工程实践

    出现慢 SQL,可通过 ARMS 的链路根据来排查定位可以很清楚的看出哪条语句执行慢。前面讲了一个符合预期的案例,我们再来看一个不符合预期的。此案例是验证系统异常实例隔离的能力,我们的 Demo 中 consumer 调用 ...
    文章 2019-07-04 18013浏览量
  • 轻松应对双11,百万级物理和虚拟网络设备的网络智能化...

    如何基于这些数据在后期快速故障发现和定位;不同形态的业务对网络有不一样的需求,如何在兼顾资源利用率同时达到用户体验很好的平衡;在面临业务波动频繁的情况下,如何自证清白;在这些过程中如何快速完成综合...
    文章 2017-12-14 1857浏览量
  • 基础设施助力双11(十):百万级物理和虚拟网络设备的...

    如何基于这些数据在后期快速故障发现和定位;不同形态的业务对网络有不一样的需求,如何在兼顾资源利用率同时达到用户体验很好的平衡;在面临业务波动频繁的情况下,如何自证清白;在这些过程中如何快速完成综合...
    文章 2019-07-31 946浏览量
  • 如何利用秒级监控进行mongodb故障排查

    并且一个监控系统的好坏,也很大程度上影响了能否精确的定位故障,以及是否能正确进行问题修复,避免下一次的故障。而监控粒度、监控指标完整性、监控实时性是评价一个监控的三个重要因素。在监控粒度上,目前很多的...
    文章 2018-03-21 5055浏览量
  • 阿里巴巴正式开源自研动态非侵入AOP解决方案:JVM-...

    JVM-Sandbox 能做什么?在 JVM-Sandbox(以下简称沙箱)的世界观中,任何一个 Java 方法的调用都可以分解为BEFORE、RETURN和THROWS三个环节,由此在三个环节上引申出对应环节的事件探测和流程控制机制。不仅如此还有...
    文章 2018-02-06 5629浏览量
  • 云原生时代,企业多活容灾体系构建思路与最佳实践

    第二,5 分钟定位,原来同城的比如冷备容灾技术,往往做决策非常费劲,或者谁做切换要承担后果,我们更希望基于这个平台能直观看到今天故障影响的情况,相关对应出现什么问题干系人需要做什么样的动作,或者做什么...
    文章 2021-07-02 5376浏览量
  • 走近华佗,解析自动化故障处理系统背后的秘密

    一旦有问题,第一时间定位是最关键的,华佗的引入使得网络故障定位由原来的小时级别降低到分钟级别。总结 由于故障的处理和平台及业务密切相关,所以这里只是介绍了华佗通用的一面,只是冰山一角。具体各种故障处理...
    文章 2016-12-18 4694浏览量
  • 一线架构师实践指南:证券行业应如何构建一体化监控...

    日志收集:ELK可以做,集成整体的收集、存储和检索,都是支持该功能的;或者使用flume+scribe+hadoop来实现;推荐ELK,支持完善的API接口。内部服务接口暴露:RESTFUL接口;etcd;zookeepr等 9目前金融领域,互联网...
    文章 2017-05-02 3313浏览量
  • 跟我学-域名解析故障排查技巧

    为了让运维的难兄难弟们个精致的小白领,小编特别为你们总结了一套《域名解析故障排查技巧实操全网最全手册》,并分为“初阶版”“进阶版”,跟我学完保您在排查解析故障方面,脑回路神清晰,分分钟就能定位问题。...
    文章 2020-01-07 5877浏览量
  • ECS运维:操作系统有异常?诊断日志来帮忙!

    为了分析根本原因而避免问题反复发生,运维人员通常依靠查看系统日志来分析诊断,然而此时也许实例已经无法正常SSH远程连接,让定位故障原因的过程变得非常困难。现在阿里云提供了一键查看系统日志和屏幕截屏的...
    文章 2018-07-23 6878浏览量
  • 大众点评账号业务高可用进阶之路

    不管是机房故障,还是存储故障,甚至是网络故障,都能依赖冗余去解决,比如数据库可以通过增加从库的方式冗余,服务层可以通过分布式架构冗余,但是冗余也会带来新的问题,比如成本翻倍,复杂性增加,这就要衡量...
    文章 2018-06-14 1441浏览量
  • 云原生高可用技术体系的构建

    流量防护首先需要考虑的是对大流量场景的保护,比如url、服务提供方、重点业务等,突然出现超乎预期的大流量,基于AHAS可以做如下防护措施:(1)如果有性能压测,可以精准设置QPS阈值。有了QPS阈值,可以用来限流,...
    文章 2020-07-20 1126浏览量
  • 基于交付用户满意产品的质量体系

    接口和UI自动化用例经过编排后同样可以在项目发布时线上回归&xff0c;以及日常巡检。这样就实现了自动化&43;手工测试贯穿项目始终。度量把需求响应周期分割为开发周期和交付周期两个阶段。开发阶段关注三个核心维度...
    文章 2021-07-22 169浏览量
  • 阿里巴巴在混沌工程领域的实践和思考

    从功能性的故障测试角度来看,非生产环境去实施故障注入是可以满足预期的,所以最早的强弱依赖测试就是在日常环境中完成的。不过,因为系统行为会根据环境和流量模式有所不同,为了保证系统执行方式的真实性与当前...
    文章 2018-12-19 3250浏览量
  • 智能化网络管理 为企业信息化保驾护航

    通过详细而专业的技术指标监控,管理平台可以实时的分析各种应用系统的健康状况,甚至还能智能的分析出在Oracle数据库中哪些执行语句最消耗资源,从而优化应用平台,准确的定位故障隐患,将问题消灭在萌芽期,保障...
    文章 2017-11-08 845浏览量
1 2 3 4 ... 42 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化