• 3+1保障:高可用系统稳定性是如何炼成的?

    数据一致性在分布式处理以及微服务化后,相关联的数据会存在于不同的系统之中,相关联的数据库表、数据存储、缓存等数据会因为架构设计或子系统抖动故障失败等原因,导致彼此数据出现不一致,这也是一类稳定性故障。...
    文章 2021-01-27 8323浏览量
  • VMware vSphere 5.1 群集深入解析(二十八)-vSphere...

    当存储管理员设置这个LUN脱机,这个实例场景通过阵列通信,当撤回访问LUN,不统一的环境发生故障期间用来确定ESXi进行合适的行动,应该注意的是当全部存储发生故障,可能生成永久磁盘丢失的情况,在阵列和ESXi主机...
    文章 2017-11-15 1119浏览量
  • 如何做好一名稳定性SRE-业务团队系统稳定性的思与行

    故障演练机制 故障奖惩机制 大促保障机制 比如,如果总是SRE人员去响应报警和值班,就会非常疲惫劳累,人不可能永远关注报警,那怎么办呢?可以从报警机制、自动化、值班机制3个方面入手:一方面,让报警更加准确和...
    文章 2020-10-26 3797浏览量
  • 带你读《智能制造之卓越设备管理与运维实践》之三:运...

    2.预测性维修预测性维修是以设备当前的实际工作状况为依据,相比传统的以设备使用时间为依据的维修,它通过先进的状态监测与诊断手段,识别故障的早期征兆,对故障部位、故障程度和发展趋势做出判断,根据诊断结果来...
    文章 2019-11-08 1082浏览量
  • 高可用互联网系统稳定性建设实践指南

    相关联的数据库表、数据存储、缓存等数据会因为架构设计或子系统抖动故障失败等原因导致彼此数据出现不一致&xff0c;这也是一类稳定性故障。最简单一致性问题就是关系型数据库的同请求内同库相关联多个数据表更新的...
    文章 2021-09-01 47浏览量
  • 如何做到全年配送 0 故障?盒马揭秘 12个关键技术

    DB依赖主要分析依赖DB的稳定性,首先,DB有没有慢SQL,盒马早期大多数故障原因是慢sql导致,后来对DB的集中治理才使得这块不稳定因素被逐步瓦解,但是慢SQL治理是长期的事情,不管是上新业务的sql事前分析,还是流量...
    文章 2020-02-18 602浏览量
  • 云原生高可用技术体系构建

    在解决这些问题的时候,我们需要注意一个问题就是如果业务牵涉到资金,就要做一个清晰化的深层评估,不要因为演练导致出现资金上的亏损,比如在演练中用到的收费内容(例如短信等)我们要考虑周全。(三)阿里的故障...
    文章 2020-06-18 492浏览量
  • 如何在阿里云上构建高可用应用

    这一方面做的比较好的是AWS和Azure,在每次出现故障后,他们都会提出故障公告,诚恳的说明故障原因和解决方案,让用户明白故障的问题所在。这一方面,国内阿里云在完善故障通报机制,可以看到同一个故障出来阿里云...
    文章 2017-01-05 3075浏览量
  • 利用SQL SERVER 2005数据库镜像实现可用性

    那么假如说由于某种原因,我们的主服务器或是主数据库不可用了,例如,网络中断,系统故障等等,那么客户端会重新定向到镜像服务器,那么客户端仍然能读取数据,写入数据,他感觉不到主数据库服务已经宕机了。...
    文章 2017-11-14 1033浏览量
  • 使用Netflix Hystrix编写弹性可容错的应用程序

    在这个时刻,每一个依赖调用是短路的,并抛出HystrixRuntimeException异常,伴随SHORTCIRCUIT失败类型,给出异常明确的原因。一旦等待时间过后,Hystrix断路器移到半开放状态。半开放状态 在这种状态下,由Hystrix...
    文章 2015-12-03 2695浏览量
  • 剖析|高可扩展性、高性能、生产级的 SOFARPC 框架

    当客户端因为某种原因无法得到服务提供方的接口 jar 包时,或者是客户端是一个比较通用的系统,并不想依赖每个服务提供方提供的 facade 接口,但是又需要进行调用,那么此时就需要进行泛化调用。SOFARPC 的泛化设计...
    文章 2018-10-26 1979浏览量
  • 从分布式一致性算法到区块链共识机制

    显而易见,解决故障类错误更容易一些,通常把这类一致性算法叫做故障容错算法(Crash Fault Tolerance)或者非拜占庭容错算法。而拜占庭类错误,因为有恶意篡改的可能性存在,复杂性更高、解决难度更大,通常把解决...
    文章 2019-05-13 2521浏览量
  • 《自动化测试最佳实践:来自全球的经典自动化测试案例...

    它们一个小时运行一次的另外一个原因是担心消耗太多的生产。我们发现一个服务必须要留出一些额外的设备来支持实时网站监控、使用过程中的高峰和低谷、拒绝服务攻击和成长。如果以一个增长的频率,比如每5分钟一次...
    文章 2017-08-02 1192浏览量
  • 谈谈互联网后端基础设施

    但从总体上来看,这三种特性都属于业务的公共需求,更可取的方式则是集成到一起作为一个服务,既可以动态地修改权限控制和鉴权机制,也可以减少每个业务集成这些机制的成本。这种服务就是Api网关...
    文章 2016-12-09 5065浏览量
  • 第三篇——第二部分——第一文 SQL Server镜像简介

    机制简单,故障侦测较为容易。缺点: 不支持不同版本的SQL Server。延时是一定有的,不能实现完全同步。不支持自动侦测和转移。还原日志时,目标库不能对外访问。同步以库为单位。下面借用《SQL Server 2012 实施与...
    文章 2015-03-07 1153浏览量
  • 高效运维之Redis集群技术及Codis实践

    出现故障,定位和解决都得研发和运维配合着解决,故障时间变长。这种方案,难以进行标准化运维,不太适合中小公司(除非有足够的DevOPS)。1.2 代理分片 这种方案,将分片工作交给专门的代理程序来做。代理程序接收...
    文章 2016-06-10 4905浏览量
  • 谈谈互联网后端基础设施

    但从总体上来看,这三种特性都属于业务的公共需求,更可取的方式则是集成到一起作为一个服务,既可以动态地修改权限控制和鉴权机制,也可以减少每个业务集成这些机制的成本。这种服务就是Api网关...
    文章 2018-01-15 1316浏览量
  • 饿了么技术往事(上)

    6、制度故障等级定义、架构评审机制、全局项目机制也相继出炉。制度的建立、执行和以人为本,三件事情,从来难统一,得不到人的认可,则执行会打折,背离制度设立初衷,所以,制度也需要迭代。制度是底线,制度覆盖...
    文章 2020-10-26 7949浏览量
  • 如何做一场高质量的分享

    我们没办法保证所有的内容都是关键信息,也就没办法保证大家都能持续的维持注意力,因此在关键的信息节点,我们应该加大音量,提醒大家现在到了关键信息了,该收回注意力听我讲话了。这就像写文章时,重点内容加粗加...
    文章 2021-05-10 681浏览量
  • OSS服务监控、诊断和故障排除

    另外,对于有效请求率低于100%的情况,用户需要根据自己的使用情况进行分析,可以通过请求分布统计或者请求状态详情确定错误请求的具体类型,跟踪诊断确定原因,并故障排除。当然,对于一些业务场景,出现有效请求率...
    文章 2016-05-19 29556浏览量
  • [New Portal]Windows Azure Virtual Machine(1)概念

    采用了PaaS后,云计算供应商和软件开发者能够各司其职,将注意力放到自己领域内的问题上。2.弹性.Windows Azure具有Worker Role和Web Role。Web Role能够响应前端事件,而Worker Role能够响应Web Role发送过来的请求....
    文章 2017-04-30 1077浏览量
  • Elasticsearch的使用场景深入详解

    ES作为存储的优势:如果一台服务器出现故障时会发生什么?你可以通过复制 数据到不同的服务器以达到容错的目的。注意:整体架构设计时,需要我们权衡是否有必要增加额外的存储。2、场景二:在现有系统中增加...
    文章 2019-07-01 1926浏览量
  • 服务器负载均衡的用户分类

    需要注意的是,在这类部署中,包括负载均衡本身也需要提供双机HA热备,和用户连接信息备份的机制,在单台负载均衡本身由于软硬件故障时刻,仍旧可以保证整个系统的可靠运行。以上是简单的使用服务器负载均衡客户的...
    文章 2017-11-15 926浏览量
  • 如何做一场高质量的分享?

    我们没办法保证所有的内容都是关键信息,也就没办法保证大家都能持续的维持注意力,因此在关键的信息节点,我们应该加大音量,提醒大家现在到了关键信息了,该收回注意力听我讲话了。这就像写文章时,重点内容加粗加...
    文章 2021-03-25 572浏览量
  • 《云计算:概念、技术与架构》一3.1 起源与影响

    这些驱动从两端影响着云的形成和整个云计算市场,注意到这一点是很重要的。它们促使企业为了支持其自动化需求而采用云计算。同时它们也使得其他组织成为云环境和技术的提供者,创造并满足用户需求。1.容量规划容量...
    文章 2017-07-03 1870浏览量
  • Service Mesh 高可用在企业级生产中的实践

    注册中心作为基础组件,其自身的可用性显得尤为重要,高可用的设计需要对其进行分布式部署,同时因在分布式环境下的复杂性,节点因各种原因都有可能发生故障,因此在分布式集群部署中,希望在部分节点故障时,集群...
    文章 2020-06-03 255浏览量
  • 优秀工程师必备的一项技能,你解锁了吗?

    本文并不是探讨思考的深层理论,而是分享我们从日常的技术学习和项目过程中沉淀下来的思考,以及如何培养这些思考,这些思考几乎我们每天都可以用到,只要你有一定体感,你一定会感同身受。有哪些对程序员最...
    文章 2019-06-13 38038浏览量
  • 某金融公司实践|从SRE&DevOps&PE谈如何颠覆应用运维...

    这时,前面收集的信息就有用了,根据收集的信息复盘故障,大家看看当时发生了什么问题,怎么解决的,有没有更好的办法去定义故障级别,然后分析根本原因,这很重要。开故障分析会应该放松心态,开放共享,不要用指责...
    文章 2017-08-01 1556浏览量
  • 走近伏羲,谈5000节点集群调度与性能优化

    控制中心与伏羲Agent之间使用心跳机制,以监测节点健康状态。当用户向伏羲Master提交一个任务时,伏羲Master会调度出一个可用节点在其上启动任务的主控进程AppMaster,主控进程随后会向伏羲Master提出资源请求,得到...
    文章 2016-12-18 4303浏览量
  • 『StabilityGuide』|10+位阿里技术专家共同发起稳定性...

    如果对 JVM 内存模型和垃圾回收机制不熟悉,推荐阅读《咱们从头到尾说一次 Java 垃圾回收》。Java heap space 当堆内存(Heap Space)没有足够空间存放新创建的对象时,就会抛出 java.lang.OutOfMemoryError:Java ...
    文章 2019-08-02 5301浏览量
1 2 3 4 ... 8 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化