• 云原生高可用技术体系构建

    多故障是一个小概率事件,但是一旦发生,所造成的损失是不估量的,比如巴黎圣母院的火灾。同样的,互联网业务也是一样,小概率的故障也可能带来不挽回的经济损失,甚至是法律风险,系统崩溃了,痛的可能不仅是...
    文章 2020-06-18 539浏览量
  • 闲鱼神探——线上问题定位与快速解决

    响应故障报警最快解决,集团内部很团队都在做故障定位系统,这里简单比较常见的解法。1、基于专家经验的决策树模式目前最成熟,做的最的方案是基于专家经验,对以往排查路径进行沉淀收敛,以决策树模型进行...
    文章 2020-07-28 1455浏览量
  • 基于云的测试系统经历

    上述重点保证了被测系统应对用户不断增长的loads时是延展的,且一旦它被发布并投入生产就没有任何意想不到的问题,长远来看还有助于提高最终用户的满意度。这也将会使该系统比市场上的其它相似系统更具竞争优势。...
    文章 2017-07-03 1244浏览量
  • 性能压中的SLA,你知道吗?

    联系就是,系统对外的SLA是压中的SLA的重要来源,而区别就是,压中的SLA可能会涵盖更更细的指标,而对外的SLA并不关心这么细节。在正确压吗?在压中,看似一个简单的业务请求,实则后端是复杂的系统架构,...
    文章 2019-08-28 3843浏览量
  • 如何做好一名稳定性SRE-业务团队系统稳定性的思与行

    2.自动化、系统化、数据化SRE不是在做一种收尾型、擦屁股的工作,而是在做一种探索性、前瞻性的工作,但SRE不避免的,会面对很重复性的工作,所以除了要在组织和机制上做好分工,让恰当的人做恰当的事之外,SRE...
    文章 2020-10-26 4300浏览量
  • vmware的APD和PDL详细解析

    VMCP 防止发生数据存储访问性故障,这些故障可能会影响 vSphere HA 群集中主机上正在运行的虚拟机。当发生数据存储访问性故障时,受影响的主机无法再访问特定数据存储的存储路径。您可以确定 vSphere HA 将对...
    文章 2017-12-19 2623浏览量
  • 托管节点池助力用户构建稳定自愈的 Kubernetes 集群

    系统在运行的过程中会产生不稳定性,系统垃圾、处理告警堆积、代码 Bug 累积、处理的边缘异常 Case、一些人为故障源、都会引发的系统 Fail,无法穷举这些不确定性进一步决定了不可能 100%的覆盖所有修复 CASE,...
    文章 2021-02-02 3180浏览量
  • 稳定性保障6步走:高可用系统大促作战指南!

    (2)低可用依赖节点判断节点服务日常超时严重节点对应系统资源不足(3)高风险节点判断上次大促后,节点存在大版本系统改造新上线经历过大促的节点节点对应系统是否曾经出现高级别故障节点故障后存在资损风险应...
    文章 2021-03-08 1779浏览量
  • 3+1保障:高可用系统稳定性是如何炼成的?

    根据不同数据一致性级别要求,考虑通过消息触发多系统对账、定时调度对账、子流程失败后主动投递消息延迟重试、消息消费失败后回旋重试、数据库记录过程中状态后做定时调度扫描成功记录后重试、离线全量对账。...
    文章 2021-01-27 8353浏览量
  • VMware vSphere常见问题汇总(十二)

    个 USB 设备从 ESXi 主机连接到虚拟机且一个或个设备启用 vMotion 功能时,通过 vMotion 进行迁移将无法继续并会发出一条并不十分明确的错误消息。故障状态: 迁移虚拟机向导会在迁移操作开始之前运行兼容性...
    文章 2017-11-14 1459浏览量
  • 使用服务网格构建分布式系统中的容错能力

    容错能力是指系统在部分故障期间,仍然能够继续运行的能力。创建一个可靠的弹性系统会对其中的所有服务提出容错要求。云环境的动态性质要求编写的服务能预见这些失败,并能优雅地响应意外情况。服务网格在不要求应用...
    文章 2021-07-09 103浏览量
  • 如何做到全年配送 0 故障?盒马揭秘 12个关键技术

    相应的服务提供者要提供相对控的超时时间,以防被人把线程池打满,承诺的超时时间根据系统后得到,或者通过线上鹰眼的统计给出一个相对靠谱的超时时间,并不断优化,默认3秒的超时在高稳定要求领域尽量少用...
    文章 2020-02-18 660浏览量
  • 移动应用测试计划

    主要组件,子系统或相关系统相互作用发生故障。负载,容量 将系统扩展到预期的峰值并发使用级别时出现故障。本地化 在特定地区失败,包括语言,信息,税收和财务,运营问题,和时区。联网和分布式 无法处理网络/分布...
    文章 2019-04-16 1252浏览量
  • 淘宝业务稳定性保障实战——诺亚(Noah)自适应流控

    业务高可用的解决方案与核心能力(应用高可用:为业务提供自适应的限流、隔离与熔断的柔性高可用解决方案,站点高可用:故障自愈、机房与异地容灾与快速切流恢复) 新一代的业务研发模式FaaS(一站式函数研发Gaia...
    文章 2020-05-22 864浏览量
  • IBM和SAP合力打造美国的物联网时代

    在弹性方面,IBM Power Systems的默认架构支持一系列企业级可靠性功能,包括系统出现故障时实现高效故障转移的虚拟化开箱即用。主动警告企业的问题,以便他们可以在故障发生前启动纠正措施。在分析物联网应用...
    文章 2017-07-03 865浏览量
  • 《阿里巴巴中台战略思想与架构实践》笔记

    被压的单机的关键指标(CPU利用率、系统整体负载、QPS、响应时间等)达到的阀值水位后即自动停止压,以免对生产环境产生大的影响。基础数据抽取:模拟尽可能真实 链路和模型:用户的行为不同,代表链路,参数,...
    文章 2020-01-10 731浏览量
  • Dell R720服务器错误代码

    备注:如果收到的系统信息在下面列出,请参阅信息出现时所运行的应用程序的说明文件或操作系统的说明文件,以了解对信息的说明和建议采取的措施。备注:某些消息中,特定的系统组件使用名称(“<name>组件号...
    文章 2017-11-12 1239浏览量
  • Dell R720服务器错误代码

    备注:如果收到的系统信息在下面列出,请参阅信息出现时所运行的应用程序的说明文件或操作系统的说明文件,以了解对信息的说明和建议采取的措施。备注:某些消息中,特定的系统组件使用名称(“<name>组件号...
    文章 2017-11-15 1880浏览量
  • 高可用的本质

    降低风险变故障的概率(即:增加风险变故障的难度),P把风险当成一个对象看待,给它层层设卡,增加风险变故障的门槛和难度,不要再让“不小心了一个空格或字符,系统就挂了”这种惨案轻易出现。例如:人员B要对...
    文章 2021-02-22 968浏览量
  • IDC运营的大数据分析与DCIM

    运维的可靠性常常需要个子系统联合保障,例如市电断电、导致冷机重新启动,为了保障冷机重启的时间段内冷量持续供给,数据中心制冷系统常常配置应急冷源(如蓄冷罐),暖通制冷监控系统(BMS)须响应紧急情况,...
    文章 2019-07-30 1010浏览量
  • 阿里如何做到百万量级硬件故障自愈?

    上一章节提到的很工具和路径用来发现硬件故障,但并不是每次发现都一定报故障,我们进行硬件问题收敛的时候,保持了下面几个原则: 指标尽可能与应用/业务无关:有些应用指标和硬件故障相关性大,但只上监控,不...
    文章 2018-11-24 3432浏览量
  • 阿里如何做到百万量级硬件故障自愈?

    上一章节提到的很工具和路径用来发现硬件故障,但并不是每次发现都一定报故障,我们进行硬件问题收敛的时候,保持了下面几个原则: 指标尽可能与应用/业务无关:有些应用指标和硬件故障相关性大,但只上监控,不...
    文章 2018-11-19 2944浏览量
  • 数据库高可用面临的挑战与解决之道|OceanBaseDev

    但在真实场景中,故障是不避免的。有多种可能的故障原因: 硬件故障:磁盘、网络,甚至 CPU 和 Memory 均可能出现故障。以硬件厂商的统计数据为例,硬盘的年故障率达到1.25%,服务器的年故障率会更高;软件故障:...
    文章 2020-11-27 1066浏览量
  • 老庙黄金2016春晚抢红包活动技术架构详解

    以写日志文件为例,单机数千并发频繁的磁盘IO会导致严重的响应问题,很类似系统都发生过看起来并不起眼的日志文件是性能瓶颈的罪魁祸首。二、架构设计 正确的架构是系统成功的基石,那么我们就要从业务层面来分析...
    文章 2016-11-17 9902浏览量
  • 《Oracle数据库性能优化方法论和最佳实践》——1.4 ...

    1.4.1 上线优化或从未达到过性能期望的系统优化如果业务系统未进行充分的性能测试就上线,那么有相当一部分会出现性能问题,不会出现性能问题的系统往往建立在有强大硬件的基础之上。这类缺乏性能设计考虑的业务...
    文章 2017-05-02 1620浏览量
  • 如何将bug杀死在摇篮里?

    测试结果对比,如此每次jmeter的运行后会产生一个csv的测试结果,将这些结果与之前的基准数据进行对比,如果结果落在的基准期间或者超过最大基准数据10%(根据不同接口的响应时间这个百分比不一样),则认为这次测试...
    文章 2017-06-29 2355浏览量
  • 软件质量没有银弹:阿里巴巴的25个技术实践与坑

    测试结果对比,如此每次jmeter的运行后会产生一个csv的测试结果,将这些结果与之前的基准数据进行对比,如果结果落在的基准期间或者超过最大基准数据10%(根据不同接口的响应时间这个百分比不一样),则认为这次测试...
    文章 2017-06-27 11311浏览量
  • 高可用互联网系统稳定性建设实践指南

    考虑通过消息触发多系统对账、定时调度对账、子流程失败后主动投递消息延迟重试、消息消费失败后回旋重试、数据库记录过程中状态后做定时调度扫描成功记录后重试、离线全量对账。缓存更新机制不合理也容易引发缓存...
    文章 2021-09-01 56浏览量
  • 【独家】老庙黄金2016春晚抢红包活动技术架构详解

    以写日志文件为例,单机数千并发频繁的磁盘IO会导致严重的响应问题,很类似系统都发生过看起来并不起眼的日志文件是性能瓶颈的罪魁祸首。二、架构设计 正确的架构是系统成功的基石,那么我们就要从业务层面来分析...
    文章 2016-03-02 6662浏览量
  • (四):C++分布式实时应用框架——状态中心模块

    虽然某些系统可以接受这样的丢消息故障,只要分发节点在一定时长内没收到响应消息就重新发送丢失的消息即可。但是这样的处理,会对分发节点造其它的问题。所以在CDRAF是我们设计了“优雅启停”这一节点主动退网功能...
    文章 2017-12-14 1118浏览量
1 2 3 4 ... 19 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化