• 阿里云栖开发者沙龙PHP技术专场-聊聊服务稳定性保障...

    第二步,如何保证后端数据库挂掉的数据时候能迁过去?下图可以看到,Nginx中使用lua脚本进行实现,它会检测后端服务返回的一些状态,使用计数器计算失败次数,如果频繁的达到一定程度的失败次数,就切换到从Vanish...
    文章 2019-04-25 2426浏览量
  • 2017QCon分享:从淘宝到云端的高可用架构演进

    比如在设计技术方案的时候,在最后一章单独有一个容灾设计,这个节点里任何服务挂掉的时候,你要保持什么样的方式保持这个服务是可用的。在容灾设计时有几点必须考虑,比如我引了一个新jar包或者调了一个新的RPC的...
    文章 2017-10-25 2947浏览量
  • 纯干货|从淘宝到云端的高可用架构演进

    比如在设计技术方案的时候,在最后一章单独有一个容灾设计,这个节点里任何服务挂掉的时候,你要保持什么样的方式保持这个服务是可用的。在容灾设计时有几点必须考虑,比如我引了一个新jar包或者调了一个新的RPC的...
    文章 2017-06-19 2151浏览量
  • 还在担心服务挂掉?Sentinel Go 让服务稳如磐石

    当这些“黑马”商品访问量激增时,大量的请求会击穿缓存,直接打到 DB 层,导致 DB 访问缓慢,挤占正常商品请求的资源池,最后可能会导致系统挂掉。这时候,利用 Sentinel 的热点参数流量控制能力,自动识别热点参数...
    文章 2020-09-22 2732浏览量
  • ElasticDL:蚂蚁金服开源基于TensorFlow的弹性分布式...

    “但是 TensorFlow runtime 应该是平台无关的,所以不应该包含访问特定集群管理系统,请它重启挂掉的进程的代码,所以不易实现弹性调度”,王益指出了二者的区别:“与之相对应的,通过调用 TensorFlow API 实现分布...
    文章 2019-09-11 947浏览量
  • 阿里 双11 同款控降级组件 Sentinel Go 正式 GA,...

    当这些“黑马”商品访问量激增时,大量的请求会击穿缓存,直接打到 DB 层,导致 DB 访问缓慢,挤占正常商品请求的资源池,最后可能会导致系统挂掉。这时候,利用 Sentinel 的热点参数流量控制,自动识别热点参数并...
    文章 2020-12-07 4415浏览量
  • 流量暴增,掌门教育如何基于 Spring Cloud Alibaba ...

    当一台或者几台同步服务器挂掉后,采用 Zookeeper 临时节点的 Watch 机制监听同步服务器挂掉情况,通知剩余同步服务器执行 reHash,挂掉服务的工作由剩余的同步服务器来承担。通过一致性 Hash 实现被同步的业务服务...
    文章 2020-09-10 724浏览量
  • Service Mesh 高可用在企业级生产中的实践

    本次分享将以 Service Mesh 与 Spring Cloud 应用互联互通共同治理为前提,着重介绍基于 Consul 的注册中心高可用方案,通过各种限流、熔断策略保证后端服务的高可用,以及通过智能路由策略(负载均衡、实例容错等)...
    文章 2020-06-03 296浏览量
  • RocketMQ 千锤百炼-哈啰在分布式消息治理和微服务治理...

    ​1.RocketMQ 集群 CPU 毛刺​问题描述*RocketMQ 从节点、主节点频繁 CPU 飙高,很明显的毛刺,很多次从节点直接挂掉了。只有系统日志有错误提示2020-03-16T17:56:07.505715+08:00 VECS0xxxx kernel:[]?alloc_pages_...
    文章 2021-06-17 7380浏览量
  • Flink 执行引擎:批一体的融合之路

    这里介绍的只是主要思路,在有限流的场景下如何保证 End to End 的一致性;如何对接 Hive、Iceberg 等外部生态,实际上还是存在一定挑战。四、流批一体 DAG SchedulerUnified DAG Scheduler 要解决什么问题原来 ...
    文章 2021-03-25 1880浏览量
  • 转 Kafka设计理念浅析

    又由于这一层缓存操作是在OS级的,也就意味着即便Kafka挂掉了重启,缓存也不会失效。减少JVM的GC触发。JVM中的对象会占用除实际数据外的较多空间(如类的信息等等),结构不够紧凑,浪费空间。而当内存中维护的消息...
    文章 2016-05-13 2345浏览量
  • 双 11 猫晚直播:看阿里文娱如何“擒住”高并发、多...

    SRT 具备支持多种类型的特性,可以回传杜比的 e-ac3 音频,阿里云收到回传会进行云端解封装,视频部分通过 rtmp 协议内部传输、转码、切片,杜比音频部分则会透传方式进行传递。从用户的体验来看,用户听到的...
    文章 2020-05-27 571浏览量
  • 高可用系统常用解决手段浅述

    限流结合业务自定义配置,优先保证核心服务的正常响应,非核心服务可直接关闭。2.2 异步调用 系统进行拆分之后,会分成多个模块。模块之间的依赖有强弱之分。如果是强依赖的,那么如果依赖方出问题了,也会受到牵连...
    文章 2017-05-23 1468浏览量
  • 饿了么分布式服务治理及优化经验

    有个小插曲,我们上 DAL(数据库中间件)第一版的时候,有次一个业务怎么指标突然降了 50%,然后大家去查,原来 DAL 做了限流,你不能做限流,你把它给我打开,听你们的我打开了,打开了然后数据库的 QPS 瞬间飙到两...
    文章 2017-11-15 892浏览量
  • Apache Flink 零基础入门(一):基础概念解析

    而持久化存储,能够保证在整个分布式系统运行失败或者挂掉的情况下做到 Exactly-once,这是状态的另外一个价值。Time,分为 Event time、Ingestion time、Processing time,Flink 的无限数据是一个持续的过程,...
    文章 2019-08-05 5257浏览量
  • Apache Flink 零基础入门(一):基础概念解析

    而持久化存储,能够保证在整个分布式系统运行失败或者挂掉的情况下做到 Exactly-once,这是状态的另外一个价值。Time,分为 Event time、Ingestion time、Processing time,Flink 的无限数据是一个持续的过程,...
    文章 2019-07-02 1898浏览量
  • HBase实战|58HBase平台实践和应用-平台建设篇

    在一次排查HBase问题的时候发现RS进程存在大量的CLOSE_WAIT,最多的达到了6000+,这个问题虽然还没有直接导致RS挂掉,但是也确实是个不小的隐患。从socket的角度分析产生CLOSE_WAIT的原因:对方主动关闭连接或者网络...
    文章 2018-12-28 3079浏览量
  • 平台篇-58 HBase 平台实践和应用

    问题描述:在一次排查 HBase 问题的时候发现 RS 进程存在大量的 CLOSE_WAIT,最多的达到了 6000+,这个问题虽然还没有直接导致 RS 挂掉,但是也确实是个 不小的隐患。从 socket 的角度分析产生 CLOSE_WAIT 的原因:...
    文章 2019-01-14 2082浏览量
  • Redis分布式锁

    有时候程序就是这么巧,比如说正好一个节点挂掉的时候,多个客户端同时取到了锁。如果你可以接受这种小概率错误,那用这个基于复制的方案就完全没有问题。否则的话,我们建议你实现下面描述的解决方案。单Redis实例...
    文章 2018-02-27 2949浏览量
  • 微服务与配置中心:别让您的微服务被配置管理“绊”了...

    那为什么是弱依赖呢,最基本的一个道理,当业务系统即依赖配置中心的这些系统当它们不需要调整系统行为能力的时候,它其实是不用care这个时候配置中心服务到底在不在的,所以当我的配置中心服务挂掉的时候,影响应该...
    文章 2018-02-12 7303浏览量
  • The Log(分布式Log学习)

    最关键的一个支持异步的原因,是订阅系统可能会发生崩溃、因维护而下线,接着恢复上线,而在这种情况下,每个订阅者都以自己的步调消费数据。一个批处理系统,比如Hadoop,或者一个数据仓库,是以小时或天为单位消费...
    文章 2017-11-14 1144浏览量
  • 2021 年云原生技术发展现状及未来趋势

    随机分区所谓的随机分区这块,其实质就是在混合服务请求,保证某个服务的请求可以走多通道【队列】,保证在某些通道挂掉的情况下不影响某个服务的请求处理,应用随机分区技术,将用户打散在多个 Cell 中,大幅度降低...
    文章 2021-08-17 89浏览量
  • 天天低头写代码,可你知道什么是代码级性能优化吗?...

    程序接口中没有限流策略,导致很多vip商户直接拿我们的生产环境进行压测,直接影响真正的服务可用性。没有故障降级策略,项目出了问题后解决的时间较长,或者直接粗暴的回滚项目,但是不一定能解决问题。没有合适的...
    文章 2017-05-02 1204浏览量
  • 面对大规模 K8s 集群,如何先于用户发现问题?

    比如,监控告警一般的告警可能如下:xx容器内存使用率 99%webhook 双副本全部挂掉了apiserver 三副本全部宕机了这些告警,往往内容中就包含了具体的故障点,而 KubeProbe 的链路探测告警就有很多不一样,比如:...
    文章 2021-04-25 2140浏览量
  • React18 有哪些变化?

    在 v17 之前,不同版本的 React 无法混用,很重要的一个原因是之前版本中事件委托是在document上的,v17 开始,事件委托挂载到了渲染 React 树的根 DOM 容器中,这使多 React 版本并存成为了可能。(意味着React ...
    文章 2021-08-19 155浏览量
  • 初次使用阿里云的体验

    (当然一两个页面偶尔不能访问和这个没关系,很多是上层应用的问题),相反,再看看京东、苏宁之,搞个小活动动不动服务器就瘫了,你有看到双11的时候,大家在0点疯抢天猫红包的时候,天猫有挂掉吗?我想没有吧。...
    文章 2021-10-22 3浏览量
  • 大促场景系统稳定性保障实践经验总结

    使用阿里云应用高可用服务(AHAS)实现限流降级,确保系统不被预期外的突发流量打。同时可配置热点规则,超过一定量的阈值后,系统会让购买热点商品的流量排队等待。例如购买同一商品,1s内调用超过100次请求后,则...
    文章 2020-11-12 6600浏览量
  • 分布式系统架构,回顾2020年常见面试知识点梳理(每次...

    一个可靠安全的系统,肯定要考虑数据的可靠性,尤其对于内存为主的 Redis,就要考虑一旦服务器挂掉,启动之后,如何恢复数据的问题,也就是说数据如何持久化的问题。AOF 就是备份操作记录。AOF 由于是备份操作命令,...
    文章 2020-12-30 229浏览量
  • 2021 年云原生技术发展现状及未来趋势

    保证在某些通道挂掉的情况下不影响某个服务的请求处理&xff0c;应用随机分区技术&xff0c;将用户打散在多个 Cell 中&xff0c;大幅度降低爆炸半径。与 K8s APF 公平限流算法中的洗牌分片&xff08;Shuffle Sharding&xff09;颇为...
    文章 2021-09-06 314浏览量
  • Flink 1.11 SQL 使用攻略

    指的是,定义了一个 DDL,在用的时候,DDL 属性找不到对应的 TableFactory 实现,可能的原因是: Classpath 下没有实现类,Flink SQL 是通过 Java SPI 的机制来发现 Factory;参数写错了。但是报的异常让人非常疑惑...
    文章 2020-07-28 3720浏览量
1 2 3 4 5 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化