• 关于

  容错多处理机系统故障原因

  的搜索结果
 • 走近华佗,解析自动化故障处理系统背后的秘密

  由于以上原因,华佗就承担了飞天平台自动化故障处理系统的任务,提升集群故障发现、处理的效率和准确性,解放运维人员,提高飞天稳定性和可靠性。实现 如何能又快又好地发现和解决线上故障呢?我们进行了很长时间的...

  文章 yq传送门 2016-12-18 4584浏览量

 • 《七周七并发模型》第一章概述

  对于共享内存的多处理系统,每个处理器都能访问整个内存,处理器之间的通信主要通过 内存进行,如图1-1所示。图1-1 共享内存的多处理系统 对于分布式内存的多处理系统,每个处理器都有自己的内存,处理器之间...

  文章 青衫无名 2017-05-23 1275浏览量

 • 为什么选择Cassandra

  cassandra提供了很的监控指标,这些监控项这可以通过Cassandra利用Java MBeans并将它们暴露给不同外部监控系统,比如Datastax的监控系统Opscenter,阿里云的天象监控系统。您可以使用这些指标监控cassandra运行...

  文章 陈江@阿里 2019-08-13 3431浏览量

 • 阿里云试用中心,为您提供0门槛上云实践机会!

  100+款试用云产品,最长免费试用12个月!拨打95187-1,咨询专业上云建议!

  广告

 • Apache Flink 漫谈系列(02) - 概述

  当出现某些指定的网络故障、硬件故障、软件错误时,系统仍能执行规定的一组程序,或者说程序不会因系统中的故障而中止,并且执行结果也不会因系统故障而引起计算差错。容错处理模式 在一个分布式系统中由于单个...

  文章 金竹 2018-11-08 9721浏览量

 • 微服务架构的基础设施

  第一个风险是可用性风险,一旦 LOAD BALANCER 系统故障,就会影响所有微服务之间的调用;第二个风险是性能风险,所有的微服务之间的调用流量都要经过 LOAD BALANCER 系统,性能压力会随着微服务数量和流量增加而不断...

  文章 songhk487 2020-06-01 382浏览量

 • 撮合系统设计

  当-其中运行这的一台撮六引擎出现故障无法继续正常工作,撮合引擎猫群会迅速检测到这个故障,并选举出一个备份撮合引擎接管故障撮合引舉的任务从而保证整个撮合系统的正常运行多机热备份技术的本质就足针对服务器临时...

  文章 jurassic_1 2016-09-16 22872浏览量

 • 系统设计之——架构师职责和设计原则

  这些错误发生时,要求系统能够自动处理,而不是要求人工干预。2)自动化。人总是会犯错的,加上互联网公司往往要求运维人员在凌晨执行系统升级等操作,因此,运堆人员操作失误的概率远远高于机器故障的概率。很设计...

  文章 凌洛 2018-11-18 2421浏览量

 • 我们雇佣了一只大猴子...

  2011年阿里巴巴开始做强弱依赖的治理和建设,希望提前发现因为依赖问题导致的系统故障,系统的代号是EOS(出处是古希腊神话中的黎明女神,语意是能够把纷乱的依赖关系梳理清楚) 2012年完成交易的同城双活后,我们就...

  文章 中间件小哥 2019-02-28 1954浏览量

 • HBase的引出

  上的事务处理用ACID来保证数据的严格一致性没有问题,但是单机中的ACID已经没有办法胜任分布式中的事务处理了,尤其是对于一个高访问高并发的分布式系统来说,如果我们期待实现一套严格满足ACID特性的分布式事务...

  文章 期待l 2018-11-30 1260浏览量

 • OceanBase高可用实践

  当一台机器得到多数派的认可,它即可以成为主,这样系统能容忍一定数量节点的不可用,比如,如果是2台,则不能容忍有机器宕,3台则可以容忍一台机器宕,3台机器可以部署在不同的机房以容忍机房故障。...

  文章 KB小秘书 2019-07-28 1493浏览量

 • (四):C++分布式实时应用框架——状态中心模块

  如果节点因业务故障主动告知状态中心故障状态,或因网络中断、停电、主机故障等被动原因,节点在一定时间间隔内没有主动上报健康状态。状态中心将把自己内部所存储的该节点状态描述设置为故障,并向集群中关心该节点...

  文章 smartguys 2017-12-14 1094浏览量

 • Apache Flink 漫谈系列(05) - Fault Tolerance

  当出现某些指定的网络故障、硬件故障、软件错误时,系统仍能执行规定的一组程序,或者说程序不会因系统中的故障而中止,并且执行结果也不包含系统故障所引起的差错。传统数据库Fault Tolerance 我们知道MySql的...

  文章 金竹 2018-11-11 5064浏览量

 • 山哥的撮合系统火力加强升级版

  采用原子播解决撮合引擎订单的可靠播与全局有序性●采用基于无锁订单队列的流水线撮合技术提供快速的订单撮合●采用异步一致性持久化技术实现与数据库的交互●采用失效备援技术对撮合引擎集群进行状态监控并保证...

  文章 技术小能手 2018-10-31 1756浏览量

 • DevOps:软件架构师行动指南2.2 云的特性

  Memcached自动向其客户提供了一个一致的数据视图,并通过在服务器之间共享数据,为虚拟机故障时提供了容错性。c.大量的持久状态。大量的持久状态可以保存在数据库管理系统所管理的数据库中或者像Hadoop分布式文件...

  文章 华章计算机 2017-05-02 1750浏览量

 • DLedger —基于 raft 协议的 commitlog 存储库

  为了验证 DLedger 对这些故障的容忍性,除了本地对 DLedger 进行了各种各样的测试,还利用分布式系统验证与故障注入框架 Jepsen 来检测 DLedger 存在的问题,并验证系统的可靠性。Jepsen 框架主要是在特定故障下验证...

  文章 中间件小哥 2019-08-07 11109浏览量

 • 《分布式系统:概念与设计》一1.5 挑战

  容错:互联网上的大多数服务确实有可能发生故障,试图检测并隐藏在这样大的网络、这么的组件中发生的所有故障是不太实际的。服务的客户能被设计成容错的,这通常也涉及用户要容忍错误。例如,当Web浏览器不能与Web...

  文章 华章计算机 2017-08-01 1083浏览量

 • 万亿级数据洪峰下的分布式消息引擎

  时候刚开始可能只是系统出现了局部的、小规模的故障,然而由于种种原因故障影响的范围越来越大,最终导致了全局性的后果。而这种过载保护就是大家俗称的熔断器(Circuit Breaker)。Netflix公司为了解决该问题,...

  文章 中间件小哥 2017-02-07 6940浏览量

 • 【双11背后的技术】万亿级数据洪峰下的分布式消息引擎

  时候刚开始可能只是系统出现了局部的、小规模的故障,然而由于种种原因故障影响的范围越来越大,最终导致了全局性的后果。而这种过载保护就是大家俗称的熔断器(Circuit Breaker)。Netflix公司为了解决该问题,...

  文章 云木西 2017-01-12 5676浏览量

 • Hadoop HDFS概念学习系列之HDFS Block(八)

  HDFS作为一个分布式文件系统,设计是用来处理大文件的,使用抽象的块会带来很好处。一个好处是可以存储任意大的文件而又不会受到网络中任一单个节点磁盘大小的限制。可以想象一下,单个节点存储100TB的数据是不...

  文章 技术小哥哥 2017-11-21 1131浏览量

 • 走近伏羲,谈5000节点集群调度与性能优化

  5K项目是飞天平台的里程碑,系统在规模、性能和容错方面都得到了飞跃式的发展,达到世界领先水平。伏羲作为飞天平台的分布式调度系统,能支持单集群5000节点,并发运行10000作业,30分钟完成100TB数据Terasort,性能...

  文章 yq传送门 2016-12-18 4264浏览量

 • 有些工作负载就让它们在物理环境中运行吧

  在过去十年,很文章都曾经宣称企业现在应该实现完全虚拟化了。这些文章的理论基础在于虚拟化已经是一种十分成熟的技术,并且现在能够对几乎所有负载完成虚拟化,甚至包括那些大型的资源密集型应用。还有一些文章...

  文章 青衫无名 2017-09-01 729浏览量

 • 五种不适合虚拟化的负载类型

  可以在虚拟服务器环境当中创建一个虚拟集群,或者使用主机级别的集群功能,如果发生主机故障可以将虚拟(自动实时迁移到另外一台虚拟化主机当中。然而这种方式存在一种问题,就是资源消耗。服务器虚拟化的前提...

  文章 青衫无名 2017-08-01 933浏览量

 • 一文读懂分布式架构知识体系(内含超全核心知识大图)

  Durabilit:事务处理结束后,对数据的修改就是永久的,即便系统故障也不会丢失。分布式一致性 CAP 分布式环境下,我们无法保证网络的正常连接和信息的传送,于是发展出了 CAP/FLP/DLS 这三个重要的理论: CAP:分布...

  文章 阿里巴巴云原生小助手 2019-10-16 5555浏览量

 • Service Mesh 高可用在企业级生产中的实践

  当整个系统中某些服务产生故障时,如果不及时采取措施,这种故障就有可能因为服务之间的互相访问而被传播开来,最终导致故障规模的扩大,甚至导致整个系统奔溃,这种现象我们称之为“雪崩”。熔断降级其实不只是服务...

  文章 花肉酱 2020-06-03 220浏览量

 • 分布式事务及其一致性协议

  (3)分区容错性:分布式系统在遇到任何网络分区故障时,都需要能够保证一致性和可用性,除非整个网络都发生了故障。2.BASE理论 BASE理论指的是Basically Avaliable(基本可用)、Soft state(软状态)和Eventually ...

  文章 java架构 1970-01-01 547浏览量

 • 解析阿里云分布式调度系统伏羲

  因此,分布式调度必须具有容错机制,以保证正在运行的任务不受影响,并对用户透明,能够从故障中恢复过来,保障系统的高可用。下面将从任务调度的Failover和资源调度的Failover两个方面介绍。AppMaster进程重启后的...

  文章 场景研读 2017-03-21 8893浏览量

 • Facebook TSDB论文翻译

  我们希望当系统的运行状况发生重大变化时能够在第一时间发现问题,例如新版本发布、某个线上变更引发异常、网络故障,或者其它一些原因。因此我们的TSDB需要具备在很短的时间内细粒度聚合计算的能力。这种在几十秒内...

  文章 焦先 2017-08-18 2052浏览量

 • 反应式编程探索与总结

  监控层次体系可以跨越个JVM,从而提供真正的容错系统。非常适合编写永不停机、自愈合的高容错系统。位置透明性 Akka的所有元素都为分布式环境而设计:所有actor只通过发送消息进行交互,所有操作都是异步的。持久...

  文章 猴大大13 2019-11-25 878浏览量

 • JStorm-介绍

  在早期,Storm和JStorm未问世之前,业界有很实时计算系统,可谓百家争鸣,自Storm和JStorm出世之后,基本这两者占据主要地位,原因如下: 易开发:接口简单,上手容易,只需要按照Spout,Bolt以及Topology的编程...

  文章 smartloli 2016-04-25 7674浏览量

 • JStorm-介绍

  在早期,Storm和JStorm未问世之前,业界有很实时计算系统,可谓百家争鸣,自Storm和JStorm出世之后,基本这两者占据主要地位,原因如下: 易开发:接口简单,上手容易,只需要按照Spout,Bolt以及Topology的编程...

  文章 smartloli 2016-04-25 4075浏览量

1 2 3 4 ... 8 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化