• 搜狗BizCloud:基于Kubernetes的私有云实践

    Nginx会实时从服务管理中心获取服务对应关系,动态加载Nginx配置,将已经挂掉的Pod1从Nginx中摘除,新增加的PodN暴露给外部。而SOA服务的角色分为两种,一种是consumer,一种是provider。consumer和provider之间的...
    文章 2018-12-14 2266浏览量
  • DockOne微信分享(一四四):BizCloud:基于...

    Nginx会实时从服务管理中心获取服务对应关系,动态加载Nginx配置,将已经挂掉的Pod1从Nginx中摘除,新增加的PodN暴露给外部。而SOA服务的角色分为两种,一种是consumer,一种是provider。consumer和provider之间的...
    文章 2017-10-10 2380浏览量
  • 阿里云栖开发者沙龙PHP技术专场-聊聊服务稳定性保障...

    第二步,如何保证后端数据库挂掉的数据时候能迁过去?下图可以看到,Nginx中使用lua脚本进行实现,它会检测后端服务返回的一些状态,使用计数器计算失败次数,如果频繁的达到一定程度的失败次数,就切换到从Vanish...
    文章 2019-04-25 2663浏览量
  • 流量暴增,掌门教育如何基于 Spring Cloud Alibaba ...

    当一台或者几台同步服务器挂掉后,采用 Zookeeper 临时节点的 Watch 机制监听同步服务器挂掉情况,通知剩余同步服务器执行 reHash,挂掉服务的工作由剩余的同步服务器来承担。通过一致性 Hash 实现被同步的业务服务...
    文章 2020-09-10 929浏览量
  • 高可用系统常用解决手段浅述

    出现系统不可用的原因,一种是人为的,比如发布了有 bug 的代码、不规范的发布流程导致的宕机或者网站访问量过载造成的雪崩等;另一种则是非人为的,由于外部系统和环境的变化造成的,比如硬盘老化造成的故障、机房...
    文章 2017-05-23 1559浏览量
  • 聊聊服务稳定性保障这些事

    如何保证后端数据库挂掉的数据时候能迁过去&xff1f;下图可以看到&xff0c;Nginx中使用lua脚本进行实现&xff0c;它会检测后端服务返回的一些状态&xff0c;使用计数器计算失败次数&xff0c;如果频繁的达到一定程度的失败次数&...
    文章 2021-11-24 35浏览量
  • 对新思路项目的一些思考和总结

    其归根结底的原因还是因为大家的屁股不一样,对于业务同学来讲业务了那对个人来说必然会有很大的影响,而对中台来讲,你不是我的唯一。天猫比你重要太多了“缺乏对外完整的sop”:是的,中台缺少一份标准的对外...
    文章 2021-11-29 193浏览量
  • 如何做到全年配送 0 故障?盒马揭秘 12个关键技术

    幂等要返回成功,服务端自己吃异常。(4)服务缓存 服务提供者通过前置缓存提高系统支撑流量,可应用于返回值相对稳定的服务,服务缓存是否设置前置缓存可根据缓存命中率评估,有的为了支撑高qps流量但缓存命中率...
    文章 2020-02-18 941浏览量
  • 3+1保障:高可用系统稳定性是如何炼成的?

    做到每个环节使用相互独立的多台服务器进行分布式处理,要针对不同稳定性要求级别和成本能力做到不同服务器规模分布式,这样就避免单个服务器挂掉引发单点故障后进而导致服务整体挂掉的风险。可能涉及的环节有端动态...
    文章 2021-01-27 8685浏览量
  • 菜鸟积分系统稳定性建设-分库分表&百亿级数据迁移

    进行校验需要注意:校验任务注意不要影响线上运行的服务,通常校验任务会写很多批查询的语句,会出现批量扫表的情况,如果代码没有写好很容易导致数据库挂掉。对账标准:target数据库和source数据库中数据保持一致...
    文章 2021-09-13 729浏览量
  • 【转】聊聊高并发系统之降级特技

    还有有时候通过任务系统调用一些服务,但是服务依赖的数据库可能存在:网卡被打满了、挂掉了或者很多慢查询,此时需要暂停下任务系统让服务方进行处理;还有发现突然调用量太大,可能需要改变处理方式(比如同步转换...
    文章 2017-07-03 1714浏览量
  • 微服务与配置中心:别让您的微服务被配置管理“绊”了...

    那为什么是弱依赖呢,最基本的一个道理,当业务系统即依赖配置中心的这些系统当它们不需要调整系统行为能力的时候,它其实是不用care这个时候配置中心服务到底在不在的,所以当我的配置中心服务挂掉的时候,影响应该...
    文章 2018-02-12 7700浏览量
  • 惊魂48小时,阿里工程师如何紧急定位线上内存泄露?

    由于后端分布式一致性服务单元由5台Master机器组成,可以容忍同时2台机器挂掉,因此上述报警均没有发现对服务可用性产生影响。但是,在短时间之内频繁发生单个Master服务进程异常,这个对于服务稳定性是个极大隐患,...
    文章 2019-12-20 235浏览量
  • 惊魂48小时,阿里工程师如何紧急定位线上内存泄露?

    由于后端分布式一致性服务单元由5台Master机器组成,可以容忍同时2台机器挂掉,因此上述报警均没有发现对服务可用性产生影响。但是,在短时间之内频繁发生单个Master服务进程异常,这个对于服务稳定性是个极大隐患,...
    文章 2019-12-20 1795浏览量
  • 阿里万亿交易量级下的秒级监控

    这里面存在很多可能会出问题的点,因为集群非常庞大,跑着跑着机器可能就挂掉了,这对我们来说是很正常的,一天挂掉十几台机器也是常有的事。下面说一下怎么解决可靠性的问题。1.6、关键点 上面架构有两个关键点: ...
    文章 2017-12-07 6103浏览量
  • 触类旁通,从400错误看Nginx常见故障与修复

    可能的原因有两种: Nginx程序用户无权限访问web目录文件 Nginx需要访问目录,但是autoindex选项被关闭 修复方法: 授予Nginx程序用户权限读取web目录文件 设置autoindex目录为on 413错误 在上传时Nginx返回了413...
    文章 2017-05-16 3957浏览量
  • 高可用互联网系统稳定性建设实践指南

    这样就避免单个服务器挂掉引发单点故障后进而导致服务整体挂掉的风险。可能涉及的环节有端动态获取资源服务(html&js&小程序包等)、域名解析、多服务商多区域多机房IP入口、静态资源服务、接入路由层、服务...
    文章 2021-09-01 375浏览量
  • A微服务稳定性保障的“痛”(项目经验教训)

    EurekaServer之间通过复制的方式完成数据的同步,Eureka还提供了客户端缓存机制,即使所有的EurekaServer都挂掉,客户端依然可以利用缓存中的信息消费其他服务的API。综上,Eureka通过心跳检查、客户端缓存等机制,...
    文章 2022-02-24 30浏览量
  • 饿了么分布式服务治理及优化经验

    弱依赖要处理它,有一个异常出来的时候要把它干掉,不能把这个异常跑到最上面去,那整个服务就都挂掉了,但是大家并不知道到底它是弱依赖还是强依赖,这需要分析,我们去统计一下,它是一个强依赖还是弱依赖。...
    文章 2017-11-15 927浏览量
  • 总结

    例如雪崩,在微服务架构中,也有雪崩这个词,指的是依赖服务挂掉,导致上游服务失常,从而导致雪崩,需要有服务降级。但是考试中的雪崩,主要指如果ESB挂了,那所有依赖的系统都会崩溃,引起雪崩。最好是多看一下...
    文章 2017-12-23 2217浏览量
  • 专访腾讯徐汉彬:架构、优化环环相扣,日请求8亿只是...

    实现流量控制的过载保护,防止第三方的接口因为过载而直接挂掉,进而导致接口全面超时和不可用。我们认为:虽然流量限制模式会主动拒绝一些用户请求,但与整个服务不可用相比仍然是相对比较好的一个体验。InfoQ:...
    文章 2017-11-27 771浏览量
  • gig:自带负载均衡和降级功能的高可用RPC解决方案

    往往希望能够获得与生产系统完全一致的流量,包括流量大小和组成成分,gig支持将生产流量copy到一个完全独立的集群,copy功能会增加在线系统的网络带宽,但copy集群的结果不会服务在线流量,copy集群自身挂掉也不会...
    文章 2018-01-30 5757浏览量
  • 做到这几点,你也能成为 BAT 的抢手人才(下)

    你基于 Grafana 和 Prometheus 做了一个环境可用的监控报表,使用后,发现环境在工作日整体可用率只有35%左右,主要原因是:几个核心热点应用经常了没人管。你拉了整个 Team,明确了部署责任人,约定了部署规则:...
    文章 2020-07-19 488浏览量
  • 阿里移动|《蚂蚁金服移动端高可用技术实践》

    为了实现这一点,我们利用了一些小技巧,比如对于Android系统而言,支付宝通过独立的轻量级进程来单独上报埋点,即便主进程已经挂掉了,但是埋点也能够实时上报上来;对于ios系统而言,采取在线上hold住进程使其报完...
    文章 2017-12-07 1837浏览量
  • 高可用的本质

    假设单点的可靠性假设是99.99%,它要提升到99.999%是非常困难的,但是如果无单点而是依赖2个(1个挂掉没有关系,只要不同时挂就行),那整体可靠性就是99.999999%会有质的提升。单点故障会导致无法快速止血,拉长...
    文章 2021-02-22 1137浏览量
  • 美团分布式服务通信框架及服务治理系统OCTO

    这也是它被叫做“八爪鱼”的原因之一。和内核团队&xff0c;OCTO进行深度定制&xff0c;比如链接复用、链接保护、原生异步支持。和HULK(容器团队&xff0c;参见&xff1a;欧阳老师的美团点评容器平台HULK的调度系统)团队的合作也...
    文章 2022-04-26 20浏览量
  • 超全总结|阿里如何应对电商故障?...

    系统改造验收:对于分布式系统,至少应该做到运行态中不会因为我依赖的系统出现故障,而引起当前应用出现可用性的问题,比如进程挂掉,频繁FullGC,负载飙高等,何时何地都具备快速止血的能力。限流降级参考:对于弱...
    文章 2017-06-19 4043浏览量
  • 阿里云EMR Remote Shuffle Service在小米的实践

    5 混乱测试框架对于服务来说,仅依靠UT、集成测试、e2e测试等无法保证服务可靠性,因为这些测试无法覆盖线上复杂环境,如坏盘、CPU过载、网络过载、机器挂掉等。RSS要求在出现这些复杂情况时保持服务稳定,为了模拟...
    文章 2022-01-17 267浏览量
  • 解读数据传输DTS技术架构及最佳实践

    这时候就会涉及到一些问题,比如断点是如何解决的,另外如果表在全量迁移的过程中挂掉了,是否能连接起来之后从挂掉的地方继续运行,这样尽可能节约时间和计算成本,除此之外还会涉及到无主键表所造成的困难,而这些...
    文章 2017-09-01 11789浏览量
  • 从零开始入门 K8s|有状态应用编排-StatefulSet

    通过这样的方式,来达到灰度升级的目的。二、用例解读 StatefulSet 范例创建 上图左侧是一个 Service 的配置,我们通过配置 headless Service,其实想要达到的目标是:期望 StatefulSet 里面的 Pod 有独立的网络标识...
    文章 2020-02-12 1120浏览量
1 2 3 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化