• 阿里云栖开发者沙龙PHP技术专场-聊聊服务稳定性保障...

    第二步,如何保证后端数据库挂掉的数据时候能迁过去?下图可以看到,Nginx中使用lua脚本进行实现,它会检测后端服务返回的一些状态,使用计数器计算失败次数,如果频繁的达到一定程度的失败次数,就切换到从Vanish...
    文章 2019-04-25 2800浏览量
  • 2017QCon分享:从淘宝到云端的高可用架构演进

    比如在设计技术方案的时候,在最后一章单独有一个容灾设计,这个节点里任何服务挂掉的时候,你要保持什么样的方式保持这个服务是可用的。在容灾设计时有几点必须考虑,比如我引了一个新jar包或者调了一个新的RPC的...
    文章 2017-10-25 3042浏览量
  • 纯干货|从淘宝到云端的高可用架构演进

    比如在设计技术方案的时候,在最后一章单独有一个容灾设计,这个节点里任何服务挂掉的时候,你要保持什么样的方式保持这个服务是可用的。在容灾设计时有几点必须考虑,比如我引了一个新jar包或者调了一个新的RPC的...
    文章 2017-06-19 2324浏览量
  • 还在担心服务挂掉?Sentinel Go 让服务稳如磐石

    当这些“黑马”商品访问量激增时,大量的请求会击穿缓存,直接打到 DB 层,导致 DB 访问缓慢,挤占正常商品请求的资源池,最后可能会导致系统挂掉。这时候,利用 Sentinel 的热点参数流量控制能力,自动识别热点参数...
    文章 2020-09-22 4774浏览量
  • 聊聊服务稳定性保障这些事

    如何保证后端数据库挂掉的数据时候能迁过去&xff1f;下图可以看到&xff0c;Nginx中使用lua脚本进行实现&xff0c;它会检测后端服务返回的一些状态&xff0c;使用计数器计算失败次数&xff0c;如果频繁的达到一定程度的失败次数&...
    文章 2021-11-24 156浏览量
  • ElasticDL:蚂蚁金服开源基于TensorFlow的弹性分布式...

    “但是 TensorFlow runtime 应该是平台无关的,所以不应该包含访问特定集群管理系统,请它重启挂掉的进程的代码,所以不易实现弹性调度”,王益指出了二者的区别:“与之相对应的,通过调用 TensorFlow API 实现分布...
    文章 2019-09-11 1133浏览量
  • 阿里 双11 同款控降级组件 Sentinel Go 正式 GA,...

    当这些“黑马”商品访问量激增时,大量的请求会击穿缓存,直接打到 DB 层,导致 DB 访问缓慢,挤占正常商品请求的资源池,最后可能会导致系统挂掉。这时候,利用 Sentinel 的热点参数流量控制,自动识别热点参数并...
    文章 2020-12-07 5735浏览量
  • 流量暴增,掌门教育如何基于 Spring Cloud Alibaba ...

    当一台或者几台同步服务器挂掉后,采用 Zookeeper 临时节点的 Watch 机制监听同步服务器挂掉情况,通知剩余同步服务器执行 reHash,挂掉服务的工作由剩余的同步服务器来承担。通过一致性 Hash 实现被同步的业务服务...
    文章 2020-09-10 1045浏览量
  • Service Mesh 高可用在企业级生产中的实践

    本次分享将以 Service Mesh 与 Spring Cloud 应用互联互通共同治理为前提,着重介绍基于 Consul 的注册中心高可用方案,通过各种限流、熔断策略保证后端服务的高可用,以及通过智能路由策略(负载均衡、实例容错等)...
    文章 2020-06-03 587浏览量
  • 《吃透微服务》-服务容错之Sentinel

    限流方案限流就是限制系统的输入和输出流量已达到保护系统的目的。为了保证系统的稳固运行&xff0c;一旦达到需要限制的阈值&xff0c;就需要限制流量并采用少量措施完成限制流量的目的限流策略有很多&xff0c;后期也会考虑...
    文章 2022-05-28 72浏览量
  • SpringCloud Sentinel 使用

    当指定的接口达到限流条件时开启限流。上面案例使用的就是直接流控 模式。关联流控模式关联流控模式指的是&xff0c;当指定接口关联的接口达到限流条件时&xff0c;开启对指定接口开启限流。xff08;当与A关联的资源B达到阀...
    文章 2022-11-27 12浏览量
  • RocketMQ 千锤百炼-哈啰在分布式消息治理和微服务治理...

    ​1.RocketMQ 集群 CPU 毛刺​问题描述*RocketMQ 从节点、主节点频繁 CPU 飙高,很明显的毛刺,很多次从节点直接挂掉了。只有系统日志有错误提示2020-03-16T17:56:07.505715+08:00 VECS0xxxx kernel:[]?alloc_pages_...
    文章 2021-06-17 7659浏览量
  • 618大促来袭,浅谈如何做好大促备战

    缓存一旦失效数据库就挂掉&xff0c;因为数据库挡不住。这时要提前把数据预热到缓存里面。做数据的预热的目的是为了减少关键的数据的链路&xff0c;可以从内存读到的就没必要去缓存中读&xff0c;可以从缓存中读的就不应该...
    文章 2022-06-09 126浏览量
  • Flink 执行引擎:批一体的融合之路

    这里介绍的只是主要思路,在有限流的场景下如何保证 End to End 的一致性;如何对接 Hive、Iceberg 等外部生态,实际上还是存在一定挑战。四、流批一体 DAG SchedulerUnified DAG Scheduler 要解决什么问题原来 ...
    文章 2021-03-25 4609浏览量
  • 转 Kafka设计理念浅析

    又由于这一层缓存操作是在OS级的,也就意味着即便Kafka挂掉了重启,缓存也不会失效。减少JVM的GC触发。JVM中的对象会占用除实际数据外的较多空间(如类的信息等等),结构不够紧凑,浪费空间。而当内存中维护的消息...
    文章 2016-05-13 2487浏览量
  • Alibaba微服务组件Sentinel

    当服务器挂掉的时候首先想到什么原因&xff1f;1&xff0c;激增流量打卡 2&xff0c;被其他服务拖垮 3&xff0c;异常没有处理说白了&xff1a;系统缺乏高可用防护/容错机制尤其是针对流量的防护。科补&xff1a;在系统的高可靠性性里有...
    文章 2022-11-22 18浏览量
  • 双 11 猫晚直播:看阿里文娱如何“擒住”高并发、多...

    SRT 具备支持多种类型的特性,可以回传杜比的 e-ac3 音频,阿里云收到回传会进行云端解封装,视频部分通过 rtmp 协议内部传输、转码、切片,杜比音频部分则会透传方式进行传递。从用户的体验来看,用户听到的...
    文章 2020-05-27 802浏览量
  • 高可用系统常用解决手段浅述

    限流结合业务自定义配置,优先保证核心服务的正常响应,非核心服务可直接关闭。2.2 异步调用 系统进行拆分之后,会分成多个模块。模块之间的依赖有强弱之分。如果是强依赖的,那么如果依赖方出问题了,也会受到牵连...
    文章 2017-05-23 1622浏览量
  • 饿了么分布式服务治理及优化经验

    有个小插曲,我们上 DAL(数据库中间件)第一版的时候,有次一个业务怎么指标突然降了 50%,然后大家去查,原来 DAL 做了限流,你不能做限流,你把它给我打开,听你们的我打开了,打开了然后数据库的 QPS 瞬间飙到两...
    文章 2017-11-15 974浏览量
  • 618 大促来袭,浅谈如何做好大促备战

    缓存一旦失效数据库就挂掉&xff0c;因为数据库挡不住。这时要提前把数据预热到缓存里面。做数据的预热的目的是为了减少关键的数据的链路&xff0c;可以从内存读到的就没必要去缓存中读&xff0c;可以从缓存中读的就不应该...
    文章 2022-06-09 294浏览量
  • 计算引擎数据正确性的挑战

    下面一部分将会分析计算中导致数据处理不正确的原因&xff0c;以及为了得到正确结果所需要的充要条件。二、实现正确性的充要条件计算的本质是通过异步消息的方式进行分布式计算&xff0c;但由于时钟同步、网络延迟、...
    文章 2022-10-13 670浏览量
  • Apache Flink 零基础入门(一):基础概念解析

    而持久化存储,能够保证在整个分布式系统运行失败或者挂掉的情况下做到 Exactly-once,这是状态的另外一个价值。Time,分为 Event time、Ingestion time、Processing time,Flink 的无限数据是一个持续的过程,...
    文章 2019-08-05 6843浏览量
  • Apache Flink 零基础入门(一):基础概念解析

    而持久化存储,能够保证在整个分布式系统运行失败或者挂掉的情况下做到 Exactly-once,这是状态的另外一个价值。Time,分为 Event time、Ingestion time、Processing time,Flink 的无限数据是一个持续的过程,...
    文章 2019-07-02 2123浏览量
  • HBase实战|58HBase平台实践和应用-平台建设篇

    在一次排查HBase问题的时候发现RS进程存在大量的CLOSE_WAIT,最多的达到了6000+,这个问题虽然还没有直接导致RS挂掉,但是也确实是个不小的隐患。从socket的角度分析产生CLOSE_WAIT的原因:对方主动关闭连接或者网络...
    文章 2018-12-28 3332浏览量
  • 平台篇-58 HBase 平台实践和应用

    问题描述:在一次排查 HBase 问题的时候发现 RS 进程存在大量的 CLOSE_WAIT,最多的达到了 6000+,这个问题虽然还没有直接导致 RS 挂掉,但是也确实是个 不小的隐患。从 socket 的角度分析产生 CLOSE_WAIT 的原因:...
    文章 2019-01-14 2325浏览量
  • Flink 引擎在快手的深度优化与生产实践

    批一体中,特性是低延时,批的特性是高吞吐。针对批一体,我们期待系统既能处理 unfield batch 数据,也可以调整数据块的 shuffle 大小等来均衡作业的吞吐和时延。快手内部对流批一体进行了很多探索,我们为...
    文章 2022-07-08 715浏览量
  • Redis分布式锁

    有时候程序就是这么巧,比如说正好一个节点挂掉的时候,多个客户端同时取到了锁。如果你可以接受这种小概率错误,那用这个基于复制的方案就完全没有问题。否则的话,我们建议你实现下面描述的解决方案。单Redis实例...
    文章 2018-02-27 3200浏览量
  • 微服务与配置中心:别让您的微服务被配置管理“绊”了...

    那为什么是弱依赖呢,最基本的一个道理,当业务系统即依赖配置中心的这些系统当它们不需要调整系统行为能力的时候,它其实是不用care这个时候配置中心服务到底在不在的,所以当我的配置中心服务挂掉的时候,影响应该...
    文章 2018-02-12 8123浏览量
  • 详解 Kubernetes 的稳定性和可用性

    这个时候,就需要对 apiserver 做限流了,防止突发的压力增长导致集群不可用。处理异常 谈了很多异常的状态,那么有什么好的办法来处理这些异常呢?限于时间关系,以下图为例给大家简单讲讲如何处理异常。Symptom:...
    文章 2018-12-14 2072浏览量
  • The Log(分布式Log学习)

    最关键的一个支持异步的原因,是订阅系统可能会发生崩溃、因维护而下线,接着恢复上线,而在这种情况下,每个订阅者都以自己的步调消费数据。一个批处理系统,比如Hadoop,或者一个数据仓库,是以小时或天为单位消费...
    文章 2017-11-14 1293浏览量
1 2 3 4 ... 11 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化