系统容错常见故障

  • 六年打磨!阿里开源混沌工程工具 ChaosBlade

    阿里妹导读:减少故障的最好方法就是让故障经常性的发生。通过不断重复失败过程,持续提升系统的容错和弹性能力。今天,阿里巴巴把六年来在故障演练领域的创意和实践汇浓缩而成的工具进行开源,它就是 “ChaosBlade”。如果你想要提升开发效率,不妨来了解一下。 高可用架构是保障服务稳定性的核心。 阿里巴...

    文章 技术小能手 2019-03-28 9444浏览量

  • 好玩又实用,阿里巴巴开源混沌工程工具 ChaosBlade

    减少故障的最好方法就是让问题经常性的发生。在可控范围或环境下,通过不断重复失败过程,持续提升系统的容错和弹性能力。 那么,实施一次高效的混沌工程实验,需要几步呢? 答案:2 步。 ① 登陆 ChaosBlade ② 下载 release 版本,打造故障演练专属工具 高可用架构是保障服务稳定性的核...

    文章 中间件小哥 2019-03-28 11841浏览量

  • 当 Messaging 遇上 Jepsen

    分布式系统面临的挑战 Is it better to be alive and wrong or right and dead?随着计算机技术的发展,系统架构从集中式演进到分布式。分布式系统相对于单台机器来说提供了更好的可扩展性,容错性以及更低的延迟,但在单台计算机上运行软件和分布式系统上运行软件...

    文章 中间件小哥 2019-11-22 4664浏览量

  • 阿里云试用中心,为您提供0门槛上云实践机会!

    0元试用32+款产品,最高免费12个月!拨打95187-1,咨询专业上云建议!

    广告

  • 阿里云AHAS Chaos:应用及业务高可用提升工具平台之故障演练

    应用高可用服务AHAS及故障演练AHAS Chaos 应用高可用服务(Application High Availability Service)是阿里云一款专注于提高应用及业务高可用的工具平台,目前主要提供应用架构探测感知、故障注入式高可用能力评测和流控降级高可用防护三大核心能力,通过各自的工具...

    文章 SRE团队技术小编-小兰 2020-07-06 530浏览量

  • 分布式计算的重要原则--CAP理论

    在分布式计算技术的设计和实现中,CAP理论是一个重要的指导原则,其基本内容如下: 1、“C”是指一致性,即当一个Process(过程)修改了某个数据后,其他Process读取这是数据是,得到的是更新后的数据,但并不是所有系统都可以做到这一点。例如,在一些并非严格要求一致性的系统中,后来的Proce...

    文章 技术小甜 2017-11-16 771浏览量

  • 深入浅出Mesos(三):持久化存储和容错

    在深入浅出Mesos系列的第一篇文章中,我对相关的技术做了简要概述,在第二篇文章中,我深入介绍了Mesos的架构。完成第二篇文章之后,我本想开始着手写一篇Mesos如何处理资源分配的文章。不过,我收到一些读者的反馈,于是决定在谈资源分配之前,先完成这篇关于Mesos持久化存储和容错的文章。 持久化...

    文章 六翁 2016-04-11 1530浏览量

  • 《OdooERP系统部署架构指南》试读:第一章 Odoo架构概述

    文/开源智造联合创始人老杨 本文来自《OdooERP系统部署架构指南》的试读章节。书籍尚未出版,请勿转载。欢迎您反馈阅读意见。 从web浏览器到PostgreSQL,多层与其他层交互以处理数据 单服务器架构 易于理解和部署,这是最常见的情况。一个实例或多个实例 多服务器架构 更难部署和维护,需...

    文章 it专家老杨 2019-05-12 1986浏览量

  • 伏羲—阿里云分布式调度系统

    今天,大数据已经从概念发展到在很多行业落地生根。广泛用在电商、金融、企业等行业,帮助行业分析数据、挖掘数据的价值。即使在传统的医疗、安全、交通等领域也越来越多的应用大数据的技术。数据、价值二者之间的联系是计算,计算是大数据中最核心的部分。大数据计算就是将原来一台台的服务器通过网络连接起来成为一个整...

    文章 场景研读 2016-12-21 15491浏览量

  • 表格存储如何实现高可靠和高可用

    系列文章 表格存储如何实现高可靠和高可用表格存储如何实现跨区域的容灾 前言 本文会介绍一款分布式NoSQL如何实现数据高可靠和服务高可用,这是一款云上的NoSQL服务,叫做表格存储。对于分布式NoSQL,大家可能会想到很多名字,比如HBase、Cassandra,AWS的DynamoDB等,这类N...

    文章 亦征 2017-11-08 7172浏览量

  • 在线服务的黑天鹅(转)

      提高服务稳定性的最大困难,就是”黑天鹅难题”(problem of black swans)。这个名词是由 Nassim Taleb 提出来的,他这样定义:”黑天鹅代表外来因素,是一个超出正常预料的事件。”几乎所有的互联网服务中断,都来自于意料之外的突发事件,属于极其小概率的非主流意外。这类...

    文章 developerguy 2015-05-29 649浏览量

  • 微服务架构的基础设施

    一、服务发现微服务种类和数量很多,如果这些信息全部通过手工配置的方式写入各个微服务节点,首先配置工作量很大,配置文件可能要配几百上千行,几十个节点加起来后配置项就是几万几十万行了,人工维护这么大数量的配置项是一项灾难;其次是微服务节点经常变化,可能是由于扩容导致节点增加,也可能是故障处理时隔离掉一...

    文章 songhk487 2020-06-01 199浏览量

  • 《分布式系统:概念与设计》一2.5 小结

    2.5 小结 如2.2节所展示的,从底层物理特性角度,例如,系统的规模、系统内在的异构性、从特性角度(如安全)提供端到端解决方案的实际需求等,分布式系统的复杂性正在增加。这使得从模型角度理解和探讨分布式系统显得更加重要。本章考虑了底层物理模型,并深度考察了支撑分布式系统的体系结构模型和基础模型。本...

    文章 华章计算机 2017-08-01 668浏览量

  • N+1 UPS配置的成本、速度及可靠性的权衡

    随着借助软件使得IT容错持续得到改善,当前的数据中心业界越来越倾向于N +1 UPS的架构趋势,而非2N架构。目前,有两种常用的方法用于N +1架构的实现:一起并联多个单一的UPS或借助多个配置为N +1冗余的内部模块部署一个单一的UPS框架。在本文中,我们将为广大读者诸君介绍在内部的“模块化”冗...

    文章 晚来风急 2017-07-03 1088浏览量

  • Memcache 分布式高可用集群介绍

    分布式缓存需考虑如下三点: 1、缓存本身的水平线性扩展的问题。 2、缓存大病罚下的本身性能问题。 3、避免缓存的单点鼓掌问题。 分布式缓存存在的问题: 1、内存本身的管理问题。内存的分配,管理和回收机制。 2、分布式管理和分布式算法。 3、缓存键值管理和路由。 常见分布式算法         ...

    文章 科技小毛 2017-10-13 1066浏览量

  • 鲜为人知的混沌工程,到底哪里好?

    阿里妹导读:混沌工程属于一门新兴的技术学科,行业认知和实践积累比较少,大多数IT团队对它的理解还没有上升到一个领域概念。阿里电商域在2010年左右开始尝试故障注入测试的工作,希望解决微服务架构带来的强弱依赖问题。通过本文,你将了解到:为什么需要混沌工程,阿里巴巴在该领域的实践和思考、未来的计划。 ...

    文章 技术小能手 2019-01-29 2859浏览量

  • 使用云监控和函数计算,秒级恢复故障

    云监控发布新feature,打通事件中心和函数服务,可以实现秒级故障恢复。 试想这样一个场景: 当ecs宕机时,在几秒内实现eip自动迁移至另一个健康的ecs实例,快速故障恢复,避免损失。 如何做到? 云监控之前推出了事件中心,定位于,将阿里云上发生的对用户有影响的事件,集中起来,统一展示,统一管...

    文章 裴旻 2018-08-06 10350浏览量

  • hadoop之 Hadoop 2.x HA 、Federation

    HDFS2.0之HA 主备NameNode: 1、主NameNode对外提供服务,备NameNode同步主NameNode元数据,以待切换; 2、主NameNode的信息发生变化后,会将信息写到共享数据存储系统中让备NameNode合并到自己的内存中; 3、所有DataNode同时向两个Name...

    文章 技术小美 2017-11-12 870浏览量

  • 走近华佗,解析自动化故障处理系统背后的秘密

    集群医生华佗是集群自动化故障监测和处理系统,是平台和运维对接的关键系统。一方面完成飞天其他组件不擅长的OS和硬件的故障自动监测和处理,另一方面推动飞天去及时规避硬件和OS引起的故障,使得故障能够闭环运转,大幅度减少故障处理成本和造成的影响。飞天5K项目期间的规模效应凸显出自动化处理故障的必要性,大...

    文章 yq传送门 2016-12-18 4331浏览量

  • Flink状态管理和容错机制介绍

    作者: 施晓罡 本文来自2018年8月11日在北京举行的 Flink Meetup会议,分享来自于施晓罡,目前在阿里大数据团队部从事Blink方面的研发,现在主要负责Blink状态管理和容错相关技术的研发 本文主要内容如下: 有状态的流数据处理; Flink中的状态接口; 状态管理和容错机制实现...

    文章 Ververica 2019-04-25 825浏览量

  • Flink状态管理和容错机制介绍

    作者: 施晓罡 (花名:星罡)导读:本文来自8月11日在北京举行的 Flink Meetup会议,分享来自于施晓罡,目前在阿里大数据团队部从事Blink方面的研发,现在主要负责Blink状态管理和容错相关技术的研发 本文主要内容如下: 有状态的流数据处理; Flink中的状态接口; 状态管理和容...

    文章 赵慧 2018-10-15 2809浏览量

  • 浅谈 CAP 理论

    本文介绍了介绍了分布式系统著名的 CAP 理论。什么是 CAP 理论?为什么说 CAP 只能三选二?了解 CAP 对于系统架构又有什么指导意义?本文将一一作答。 什么是 CAP 理论 在计算机科学理论,CAP 定理(也称为 Brewer 定理),是由计算机科学家 Eric Brewer 提出的,即...

    文章 waylau 2016-05-18 1538浏览量

  • 浅谈 CAP 理论

    本文介绍了介绍了分布式系统著名的 CAP 理论。什么是 CAP 理论?为什么说 CAP 只能三选二?了解 CAP 对于系统架构又有什么指导意义?本文将一一作答。 什么是 CAP 理论 在计算机科学理论,CAP 定理(也称为 Brewer 定理),是由计算机科学家 Eric Brewer 提出的,...

    文章 waylau 2016-05-18 2933浏览量

  • Flink状态管理和容错机制介绍

    本文主要内容如下: 有状态的流数据处理; Flink中的状态接口; 状态管理和容错机制实现; 阿里相关工作介绍; 一.有状态的流数据处理# 1.1.什么是有状态的计算# 计算任务的结果不仅仅依赖于输入,还依赖于它的当前状态,其实大多数的计算都是有状态的计算。 比如wordcount,给一些...

    文章 李博 bluemind 2018-11-14 1694浏览量

  • 架构设计 | 分布式事务①概念简介和基础理论

    一、分布式事务简介 1、转账经典案例 跨地区和机构的转账的业务在实际生活中非常常见,基础流程如下: 账户01通过一系列服务和支付的流程,把钱转入账户02,在这一过程中,如果账户01出现出账成功,但是账户02没有入账,这就导致数据不一致,违反了基本的事务原则。基于数据归属在不同服务和不同的数据库中...

    文章 知了一笑 2020-07-09 67浏览量

  • 使用云监控和函数计算,秒级恢复故障

    云监控发布新feature,打通事件中心和函数服务,可以实现秒级故障恢复。 试想这样一个场景: 当ecs宕机时,在几秒内实现eip自动迁移至另一个健康的ecs实例,快速故障恢复,避免损失。 如何做到? 云监控之前推出了事件中心,定位于,将阿里云上发生的对用户有影响的事件,集中起来,统一展示,统一管...

    文章 江米 2018-08-07 1555浏览量

  • 系统架构评估

    软件质量属性 1. 性能 (Performance) 性能是指系统的响应能力,性能测试经常要使用基准测试(Benchmark Test). 提高性能的办法: 异步化 - 使用消息系统 和 batch处理 缓存 - 有多重缓存策略,本地缓存,分布式缓存同步,缓存服务器。 系统分割(水平和垂直分割)...

    文章 ali-frank 2012-09-14 1496浏览量

  • 缓存穿透和缓存失效的预防和解决

    缓存穿透: 缓存穿透是指查询一个一定不存在的数据,由于缓存是不命中时被动写的,并且出于容错考虑,如果从存储层查不到数据则不写入缓存, 这将导致这个不存在的数据每次请求都要到存储层去查询,如果有人恶意破坏,很可能直接对DB造成影响,这就失去了缓存的意义。 解决办法: 对所有可能查询的参数以hash形...

    文章 邴越 2016-05-05 3497浏览量

  • 服务器数据丢失的紧急处理办法

    当服务器运维人员发现服务器数据丢失问题时,很多人会在紧急情况下会失去判断能力,盲目的操作,这样只会让数据库的情况继续恶化,恢复就很难了。这里有一些服务器数据丢失的紧急处理办法,希望可以帮助到大家。 一、服务器存储系统非常重要,大家都知道,硬盘作为服务器数据存储的主要设备,同时也是一种技术含量高、制...

    文章 青衫无名 2017-07-03 1024浏览量

  • 分布式基础,通俗易懂CAP?

    分布式系统非常关注三个指标: 数据一致性 系统可用性 节点连通性与扩展性 关于一致性 数据“强一致性”,是希望系统只读到最新写入的数据,例如:通过单点串行化的方式,就能够达到这个效果。 关于session一致性,DB主从一致性,DB双主一致性,DB与Cache一致性,数据冗余一致性,消息时序一...

    文章 初商 2019-08-08 348浏览量

  • RAID 独立磁盘真阵列

    RAID技术主要包含RAID 0~RAID 50等数个规范,它们的侧重点各不相同,常见的规范有如下几种:         RAID 0:RAID 0连续以位或字节为单位分割数据,并行读/写于多个磁盘上,因此具有很高的数据传输率,但它没有数据冗余,因此并不能算是真正的RAID结构。RAID 0...

    文章 立平 2012-08-29 890浏览量

1 2 3 4 ... 11 >

云产品推荐

阿里云大学 云服务器ECS com域名 网站域名whois查询 开发者平台 小程序定制 小程序开发 国内短信套餐包 开发者技术与产品 云数据库 图像识别 开发者问答 阿里云建站 阿里云备案 云市场 万网 阿里云帮助文档 免费套餐 开发者工具 企业信息查询 小程序开发制作 视频内容分析 企业网站制作 视频集锦 代理记账服务 企业建站模板