• 最近分布式系统开发小结:Slave模块Executors设计

    Executor本身的失败和重启则由Mesos保障,Mesos作为资源管理系统,由Master监控Slave上各个Executor的执行状况,通过回调,可以在合适的Slave上再次启动挂掉的Executor进程,保证业务Task的顺利进行。(全文完)
    文章 2014-01-07 1523浏览量
  • Fabric Kafka共识原理解析

    因此如果一个代理由于软件或硬件故障挂掉,数据也不会丢失。当然接下来还需要一个领导-跟随机制,领导者持有分区,跟随者则进行分区的复制。当领导者挂掉后,会有某个跟随者转变为新的领导者。如果一个消费者订阅了...
    文章 2019-04-25 3643浏览量
  • ElasticDL:蚂蚁金服开源基于TensorFlow的弹性分布式...

    “但是 TensorFlow runtime 应该是平台无关的,所以不应该包含访问特定集群管理系统,请它重启挂掉的进程的代码,所以不易实现弹性调度”,王益指出了二者的区别:“与之相对应的,通过调用 TensorFlow API 实现分布...
    文章 2019-09-11 1007浏览量
  • ElasticDL:Kubernetes-native 弹性分布式深度学习系统

    这种“非 Kubernetes-native”的 容错方式颇为被动,只能接受资源紧张时一些进程被抢占而挂掉的事实,而不能 在其他作业释放资源后增加进程充分利用空闲资源。TensorFlow 2.0 如上文解释,为了保证 TensorFlow 最...
    文章 2019-09-12 6271浏览量
  • Apache Flink 零基础入门(一):基础概念解析

    分布式快照可以用来做状态容错,任何一个节点挂掉的时候可以在之前的 Checkpoint 中将其恢复。继续以上 Process,当多个 Checkpoint 同时进行,Checkpoint barrier N 已经流到 job manager 2,Flink job manager ...
    文章 2019-08-05 5581浏览量
  • Apache Flink 零基础入门(一):基础概念解析

    分布式快照可以用来做状态容错,任何一个节点挂掉的时候可以在之前的 Checkpoint 中将其恢复。继续以上 Process,当多个 Checkpoint 同时进行,Checkpoint barrier N 已经流到 job manager 2,Flink job manager ...
    文章 2019-07-02 1948浏览量
  • 大数据存储的进化史-从 RAID 到 Hdfs

    Hadoop1.0 时候的 Hdfs 是用一个 namenode 管理元数据的,但显然,只有一个 namenode 来存储元数据有极大的风险,那就是 namenode 的可靠性无法保证,一旦这个 namenode 挂掉,整个集群就完蛋了。好在这些问题及时...
    文章 2018-12-18 985浏览量
  • Spark(二)-Spark简单介绍

    SparkStreaming:一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kdfka、Flume、Twitter、Zero和TCP 套接字)进行类似map、reduce、join、window等复杂操作 SharkSQL:可以将hive的sql...
    文章 2015-05-11 1011浏览量
  • 有赞实时任务优化:Flink Checkpoint 异常解析与应用...

    当自己的 Flink 实时任务 Checkpoint 失败时,用户可以先通过 Flink Web UI 进行快速定位 Checkpoint 失败的原因,如果在 Flink Web UI 上面没有看到异常信息,可以去看任务的具体日志进行定位,如下是 Flink Web UI...
    文章 2020-03-11 1303浏览量
  • 有赞实时任务优化:Flink Checkpoint 异常解析与应用...

    当自己的 Flink 实时任务 Checkpoint 失败时,用户可以先通过 Flink Web UI 进行快速定位 Checkpoint 失败的原因,如果在 Flink Web UI 上面没有看到异常信息,可以去看任务的具体日志进行定位,如下是 Flink Web UI...
    文章 2020-03-11 1338浏览量
  • Node.js之异常处理

    后来接触到Node.js web开发框架后感觉也不是那么轻易就让整个进程都挂掉的,于是便想研究下Node.js究竟是如何来处理各种异常从而避免整个进程挂掉的。当我们的程序运行在Node.js进程里不小心抛出一个异常时便会触发...
    文章 2016-01-20 2966浏览量
  • 什么是架构属性

    网络波动,请求超时,服务挂掉,硬件问题,用户体验等 灾难恢复 灾难恢复和容错性比较类似,只是程度上的区别。用户输入错误这样的问题,可能只是导致这个用户的流程无法走下去。而「灾难」会影响一部分甚至所有用户...
    文章 2018-10-24 951浏览量
  • 徐葳:生物医学影像处理、分布式系统与数据共享平台

    二是没有容错机制,挂掉一个进程,整个计算都失败了。以运行的更快呢?系统本身是并行化的,图中是运行的效果。下面蓝色的部分是互相等待的时间,上面橙色的部分是运算的时间,平均每个核算的时间和平均每个核等的...
    文章 2017-05-02 1067浏览量
  • JStorm-介绍

    容错:当Worker异常或起,会自动分配新的Worker去工作。数据精准:其包含Ack机制,规避了数据丢失的风险。使用事物机制,提高数据精度。JStorm处理数据的方式流程是基于流式处理,因此,我们会用它做以下处理: ...
    文章 2016-04-25 7921浏览量
  • JStorm-介绍

    容错:当Worker异常或起,会自动分配新的Worker去工作。数据精准:其包含Ack机制,规避了数据丢失的风险。使用事物机制,提高数据精度。JStorm处理数据的方式流程是基于流式处理,因此,我们会用它做以下处理: ...
    文章 2016-04-25 4380浏览量
  • 天天低头写代码,可你知道什么是代码级性能优化吗?...

    但是每次获取完最新的数据后都可以同步更新本地缓存,当单点的Redis挂掉后,应用程序至少还能从本地读取信息而不至于服务瞬间挂掉。有的缓存对时效性要求不高,允许有一定延迟,那么在这种情况下我采用的方案是,...
    文章 2017-05-02 1234浏览量
  • Flink 执行引擎:流批一体的融合之路

    另外一个更深层的原因是现有 DataSet 算子的实现,在流的场景完全无法复用,例如 Join 等。而对于 DataStream 则不然,可以进行大量的复用。那么如何在流批两种场景下复用 DataStream 的算子呢?Unified DataStream...
    文章 2021-03-25 2602浏览量
  • 为什么需要消息队列,及使用消息队列的好处?

    但是很可惜,十年前开始流行的C10K说法就是在讲:并发量上来之后,会造成chain reaction,大量的并发不会直接挂掉你的mysql节点,但是会拖慢速度,降低吞吐量,一个玩家的请求由于处理时间太长,导致玩家放弃重试,...
    文章 2018-07-05 7669浏览量
  • JStorm-介绍

    容错:当Worker异常或起,会自动分配新的Worker去工作。数据精准:其包含Ack机制,规避了数据丢失的风险。使用事物机制,提高数据精度。JStorm处理数据的方式流程是基于流式处理,因此,我们会用它做以下处理: ...
    文章 2017-11-16 1228浏览量
  • WSFC2016 VM弹性与存储容错

    但是这个阀值不易修改太久,原因,一个是因为这个值是针对整个群集级别,如果群集上面有很多应用则所有应用都将受到这个影响,其二是如果检测次数时间过长,会导致宕机时间很久才被发现,因此2012R2及之前,微软建议...
    文章 2017-11-12 1159浏览量
  • 分布式深度学习“神器”ElasticDL如何同时提升集群...

    此外,当 worker 数目很多时,作业在执行过程中有 worker 挂掉的概率也会变得很大。如果一个 worker 挂掉,则整个作业重启或者恢复到最近的 checkpoint(Fault Recovery),那么重启之后可能又会有 worker 挂掉导致...
    文章 2020-07-14 4379浏览量
  • ApsaraDB-HBase双集群和稳定性

    (1)支持强同步复制:保证主备集群写入强一致同步,一旦主集群挂掉了,可以在备份上读到最全的数据;(2)对同步和异步做到了同存:同步复制表不影响异步复制表的读写;(3)灵活切换模式:当主集群挂了或者异步集群...
    文章 2018-01-30 8385浏览量
  • Vertica:基于DBMS架构的列存储数据仓库

    商业和传统数据库通过日志记录和二阶段提交保证事务性的方式来做失败恢复,回滚之类的事情,Vertica通过备份k+1份实现,只要有一台没有挂掉,就可以从它那全份拷贝恢复,容错性是高的,而且基于压缩率高,我们也不...
    文章 2014-08-11 2443浏览量
  • 论代码级性能优化变迁之路(二)

    但是每次获取完最新的数据后都可以同步更新本地缓存,当单点的Redis挂掉后,应用程序至少还能从本地读取信息而不至于服务瞬间挂掉。有的缓存对时效性要求不高,允许有一定延迟,那么在这种情况下我采用的方案是,...
    文章 2016-06-14 723浏览量
  • 快手基于 Apache Flink 的优化实践

    一旦 task 挂掉重启就可以直接读取磁盘数据&xff0c;只有作业成功运行完了&xff0c;最终结果才对用户可见。这种设计的哲理就是你可以通过重复读取同一份数据来产生同样的结果&xff0c;可以很好的处理 failover。Flink 的...
    文章 2020-11-19 7619浏览量
  • Netflix如何在上万台机器中管理微服务?

    服务注册和发现都是写在配置文件里,一旦服务挂掉了,依赖于这个服务的其他服务都会受到影响,传统的办法只能新起一台服务器,然后去改变其他机器的配置文件,并重启关联的服务。在小的集群里这种方式或许可以忍受,...
    文章 2017-08-02 1164浏览量
  • 一起谈.NET技术,.Net Discovery系列之-深入理解平台...

    这就需要我们的代码有足够的容错能力,在代码运行失败时,及时、主动的处理这些异常。机制分析 Net 中基本的异常捕获与处理机制是由try…catch…finally块来完成的,它们分别完成了异常的监测、捕获与处理工作。一个...
    文章 1970-01-01 844浏览量
  • Net Discovery系列之-深入理解平台机制与性“.NET技术...

    这就需要我们的代码有足够的容错能力,在代码运行失败时,及时、主动的处理这些异常。机制分析 Net 中基本的异常捕获与处理机制是由try…catch…finally块来完成的,它们分别完成了异常的监测、捕获与处理工作。一个...
    文章 1970-01-01 961浏览量
  • HADOOP1.X中HDFS工作原理

    PS:NameNode和SecondaryNameNode两者没有关系,更加不是备份,NameNode挂掉的时候SecondaryNameNode并不能顶替他的工作。然而,由于NameNode单点问题,在Hadoop2中NameNode以集群的方式部署主要表现为HDFS Feration...
    文章 2017-08-03 1212浏览量
  • Spring Cloud面试题万字解析(2020面试必备)

    (2)Eureka保证 用性,Eureka各个节点是平等的,几个节点挂掉不会影响正常节点的工作,剩余的节点仍然可以提供注册和查询服务。而Eureka的客户端向某个Eureka注册或发现时发生连接失败,则会自动切换到其他节点,...
    文章 2020-05-12 826浏览量
1 2 3 4 ... 7 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化