• 闲鱼神探——线上问题定位与快速解决

    为响应故障报警最快解决,集团内部很多团队都在做故障定位系统,这里简单比较常见的解法。1、基于专家经验的决策树模式目前最成熟,做的最多的方案是基于专家经验,对以往排查路径进行沉淀收敛,以决策树模型进行...
    文章 2020-07-28 1542浏览量
  • 走近华佗,解析自动化故障处理系统背后的秘密

    这些关键的数据进入到MaxCompute进行数据挖掘,来预测某个对象下一个状态(故障)的发生概率,同时也会根据挖掘的结果来调整Checker的规则和参数,以提高故障检测的准确常见的场景 华佗目前已能够处理主流硬件和...
    文章 2016-12-18 4739浏览量
  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的...

    我们也在构建科学预测方法,用网络故障库的形式逐步构建网网络故障特征工程。利用特征库预测故障存在的可能,做到防范于未然。在故障发生后,做到快速发现、快速诊断,当我们已经可以很好的定性一个特征故障时,...
    文章 2018-01-05 4887浏览量
  • 基础设施助力双11(十):百万级物理和虚拟网络设备的...

    我们也在构建科学预测方法,用网络故障库的形式逐步构建网网络故障特征工程。利用特征库预测故障存在的可能,做到防范于未然。在故障发生后,做到快速发现、快速诊断,当我们已经可以很好的定性一个特征故障时,...
    文章 2019-07-31 976浏览量
  • 轻松应对双11,百万级物理和虚拟网络设备的网络智能化...

    我们也在构建科学预测方法,用网络故障库的形式逐步构建网网络故障特征工程。利用特征库预测故障存在的可能,做到防范于未然。在故障发生后,做到快速发现、快速诊断,当我们已经可以很好的定性一个特征故障时,...
    文章 2017-12-14 1868浏览量
  • 这可能是史上最 Redis 高可用解决方案总结

    原生复制的弊端在早期的版本中也会比较突出,如:Redis 复制中断后,Slave 会发起 psync,此时如果同步不成功,则会进行量同步,主库执行量备份的同时可能会造成毫秒或秒级的卡顿;又由于 COW 机制,导致极端...
    文章 2018-09-29 2983浏览量
  • 这可能是史上最 Redis 高可用解决方案总结

    原生复制的弊端在早期的版本中也会比较突出,如:Redis 复制中断后,Slave 会发起 psync,此时如果同步不成功,则会进行量同步,主库执行量备份的同时可能会造成毫秒或秒级的卡顿;又由于 COW 机制,导致极端...
    文章 2018-09-30 1576浏览量
  • 链路分析 K.O“五大经典问题”

    链路分析的前提是尽可能完整的上报并存储链路明细数据,如果采样比较低导致明细数据不,链路分析的效果就会大打折扣。为了降低量存储成本,可以在用户集群内部署边缘数据节点,进行临时数据缓存与处理,降低跨...
    文章 2021-11-27 10浏览量
  • 云原生高可用技术体系的构建

    2.企业引入故障演练遇到的常见问题 在企业进行故障演练的时候,经常会遇到一些问题,比如如何设计组织架构,如何选择技术方案,如何落地演练实践等。如果业务牵涉到资金,就要做一个清晰化的深层评估,不要因为演练...
    文章 2020-07-20 1203浏览量
  • 首次揭秘!​春晚活动下快手实时链路保障实践

    常见功能包括关闭快照、设置采样、source 源鲜素,如下图所示。2.系统稳定性 分布式系统涉及到方方面面,任何一个环节出了问题都可能是致命的,我们为此在故障应对和项目管理上做了很多工作。故障应对包含故障...
    文章 2020-06-29 570浏览量
  • 这可能是目前最的Redis高可用技术解决方案总结

    原生复制的弊端在早期的版本中也会比较突出,如:Redis复制中断后,Slave会发起psync,此时如果同步不成功,则会进行量同步,主库执行量备份的同时可能会造成毫秒或秒级的卡顿;又由于COW机制,导致极端情况下的...
    文章 2018-08-21 19677浏览量
  • 运维数据生态:高阶落地的一些场景

    知识图谱在运维领域主要构建了常见的容量场景、业务链路场景、故障场景&xff0c;通过一定策略判断对数据输出实现辅助决策功能。对于AiOps而言&xff0c;知识图谱实现了一定的数据思考和数据推理&xff0c;和监控系统的打通...
    文章 2021-11-04 19浏览量
  • 一线架构师实践指南:证券行业应如何构建一体化监控...

    由于各种监控就像铁路警察各管一段,有些复杂的故障问题或性能问题的定位就变的很复杂,影响了问题的快速定位和故障处置。如何构建一个一体化监控体系(或者整体监控体系),让IT运维人员掌控系统的整体运行情况和...
    文章 2017-05-02 3326浏览量
  • 130 秒揭秘 EDAS 3.0 如何平滑应对突发流量高峰,为您...

    带着这三个问题,我们来看看 EDAS3.0 的云原生架构是如何满足真实场景下的流控难题和单点故障引起的交易成功下降的问题的,详情如视频所示: 戳这里、戳这里、戳这里看视频,这里是视频哦~ 演示系统 视频中演示...
    文章 2020-10-12 5321浏览量
  • 如何成为一名优秀的数据分析师?

    通过量采集的数据,智能自动的后端计算,以及简单的使用交互,留存魔法师可以帮助企业迅速找到与其留存最相关的用户行为,就像魔法师轻轻挥动魔法棒一样简单。例如某 SaaS 产品,在一周内创建过 3 个图表的用户(群...
    文章 2017-07-03 1672浏览量
  • 一个系统,搞定闲鱼服务端复杂问题告警-定位-快速处理

    以线上常见的服务超时为例,上图中因为127.123.12.12这台机器出现异常导致商品服务超时,进而导致我的订单列表服务超时。根据日常中排查思路可以总结出以下分析范式:上面这种分析范式看起来很简单清晰,但是它首先...
    文章 2019-07-24 11778浏览量
  • 一种基于Lucene的实时搜索服务

    CheckPoint检查点考虑数据写入需要实时可,那么更新的数据都是在内存索引中,那么可能出现一些问题:故障恢复时需要回放所有WAL,效率较低。如果WAL超过100GB,那么,故障恢复时间根本无法接受。另外内存有限,内存...
    文章 2018-01-26 5388浏览量
  • 一个系统,搞定闲鱼服务端复杂问题告警-定位-快速处理

    以线上常见的服务超时为例,上图中因为 127.123.12.12 这台机器出现异常导致商品服务超时,进而导致我的订单列表服务超时。根据日常中排查思路可以总结出以下分析范式: 上面这种分析范式看起来很简单清晰,但是它...
    文章 2019-08-29 2831浏览量
  • 史上最Redis高可用技术解决方案大全

    4、原生复制的弊端在早期的版本也会比较突出,如:Redis复制中断后,Slave会发起psync,此时如果同步不成功,则会进行量同步,主库执行量备份的同时可能会造成毫秒或秒级的卡顿;又由于COW机制,导致极端情况下...
    文章 2018-11-16 1727浏览量
  • ARMS在APM工具选型中的实践

    1、指标数据的准确性ARMS的agent把指标数据与调用链数据是分开两种类型来采集统计的,相应的指标数据不受调用链的采样的影响,会在具体的运行节点进行完完全全的统计后,精准到上传加载到ARMS后端。(而有些优秀的...
    文章 2020-09-16 1984浏览量
  • 如何通过AI 全面提升运维效率?选型宝分享AIOps实战...

    做为国内第一家实现AIOps跨行业场景化应用的业务运维解决方案提供商,云智慧可以为用户提供从大数据平台,到智能运维模块、再到专家与实施的方位服务,满足企业的基础需求和个性化需求,促进企业数字化业务的发展...
    文章 2019-08-15 1555浏览量
  • 合肥南站,你怎么这么棒?人民日报都夸你了!

    此外,与锐捷HPoE系列配套的IPDM解决方案具有整网呈现状态清、智能障定位准、自动导入点位明等优势,可以实现网IP设备在线监控,可视化呈现故障定位,运维流程在线处理,是智能建筑设备网系统运转的重要保障,也...
    文章 2017-09-02 1337浏览量
  • 双11 背后的链路可观测性:阿里巴巴鹰眼在“云原生...

    接下来就是数据的完备性和诊断模型的建模,这两部分是智能化诊断的基石,决定了故障定位的层级,同时这两部分也是相辅相成的,通过诊断模型的构建可以对可观测性指标漏补缺,通过补齐指标也可以增加诊断模型的深度...
    文章 2019-12-20 1225浏览量
  • 如何做到全年配送 0 故障?盒马揭秘 12个关键技术

    配送批次组相似度打分服务上预调度功能时,预估增加0.5倍批次,两两计算的笛卡尔积是2.25,估计量开预调度增加3倍以内流量,当前系统在不增加机器情况下可以扛住洪峰,实际开启预调度后验证无问题。3.3 HSF服务...
    文章 2020-02-18 715浏览量
  • 历年双11实战经历者:我们是如何做数据库性能优化及运...

    故障指挥官系统应运而生,该系统会基于天象数据,收集链路数据,从实例到主机到机架到机房的物理部署链路,从实例到proxy到SLB的数据访问链路,帮助我们快速去发现故障问题点,逐点排查,这样帮助决策者大大降低...
    文章 2017-09-07 10012浏览量
  • 如何做好一名稳定性SRE-业务团队系统稳定性的思与行

    给资源,稳定性从来不只是稳定性负责人的事情,而是团队的事情,稳定性负责人要做的是建立机制,主动承担,但是稳定性意识,要深入到团队所有人脑子里,稳定性的事情,要能够调动团队一切资源参与。给空间,做稳定...
    文章 2020-10-26 4841浏览量
  • MySQL服务进程占用系统CPU达100%

    故障现象:ping云主机严重丢包,丢包达99%,仅有一两个包可到达;更无法远程;排查:云主机 CentOS6.4 后台查看CPU占用高达99%还好能登入系统,操作也并不卡顿;top查看 mysql服务进程占用CPU达100% 如图: 两分钟...
    文章 2017-12-02 3523浏览量
  • 如何快速掌握阿里巴巴内部高效测试流程?

    研发:单测成本降低,覆盖可视化,自测有保障,故障降低。测试:测试要求降低,重复工作减少,增加工作成就感,各种工具诞生。云效客户:企业快速赋能,提高研发测试效率,快速掌握阿里内部高效测试流程。关于云效...
    文章 2017-08-16 7183浏览量
  • ACE认证考试—阿里云产品概念深化学习

    负载均衡可以通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性。学习笔记:以上概念只提到一种负载均衡技术,一般常见有三种负载均衡技术,学习资料:负载均衡 1、服务器负载均衡 在...
    文章 2019-02-16 2727浏览量
  • 饿了么分布式服务治理及优化经验

    首先故障定位困难,每次我们出了事情之后,大家各自各自的,比较低效。问题排查其实是有方法可以做,需要把它自动化,我们现在还缺这个东西,调用链分析是需要考虑去做。性能退化 我们现在的业务增长量非常恐怖,...
    文章 2017-11-15 903浏览量
1 2 3 4 ... 11 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化