• 3+1保障:高可用系统稳定是如何炼成的?

    做到每个环节使用相互独立的多台服务器进行分布式处理,要针对不同稳定要求级别和成本能力做到不同服务器规模分布式,这样就避免单个服务器挂掉引发单点故障后进而导致服务整体挂掉的风险。可能涉及的环节有端动态...
    文章 2021-01-27 8333浏览量
  • 2017QCon分享:从淘宝到云端的高可用架构演进

    比如在设计技术方案的时候,在最后一章单独有一个容灾设计,这个节点里任何服务挂掉的时候,你要保持什么样的方式保持这个服务是可用的。在容灾设计时有几点必须考虑,比如我引了一个新jar包或者调了一个新的RPC的...
    文章 2017-10-25 2946浏览量
  • 纯干货|从淘宝到云端的高可用架构演进

    比如在设计技术方案的时候,在最后一章单独有一个容灾设计,这个节点里任何服务挂掉的时候,你要保持什么样的方式保持这个服务是可用的。在容灾设计时有几点必须考虑,比如我引了一个新jar包或者调了一个新的RPC的...
    文章 2017-06-19 2145浏览量
  • 大促场景系统稳定保障实践经验总结

    江煵在分享中提到,今年我们在新闻里听到了很多比较大的宕机事件,宕机的原因其实都很典型,删库跑路、被攻击、没有做好容量规划或者弹性能力不足、系统更改等。宕机后果还是比较严重,比如某SaaS服务商直接经济损失...
    文章 2020-11-12 6218浏览量
  • 高可用互联网系统稳定建设实践指南

    这样就避免单个服务器挂掉引发单点故障后进而导致服务整体挂掉的风险。可能涉及的环节有端动态获取资源服务(html&js&小程序包等)、域名解析、多服务商多区域多机房IP入口、静态资源服务、接入路由层、服务...
    文章 2021-09-01 56浏览量
  • 阿里研究员:线下环境为何不稳定?...

    架构上的投入(契约化、可测性);通过多环境、数据库隔离等手段减少相互打扰;通过持续集成尽早暴露问题,降低问题的影响和修复成本。IaC(Infrastructure-as-Code)是解题的一个关键点。线下环境是一个场景。要...
    文章 2021-02-09 3512浏览量
  • Amazon Aurora 读后感

    Aurora对容错的目标是:a)如果一个AZ挂了,不影响写(除了挂掉的AZ外,另外2AZ的读当然也不影响);b)如果一个AZ挂了,同时剩余2个AZ中又有一个机器/磁盘等挂了,不丢数据。如何保证这个目标呢?其做法是3AZ,每个AZ...
    文章 2017-10-23 2627浏览量
  • 分布式系统的设计几个要注意的地方

    不要将服务的实际地址暴漏给用户方:这台服务器终有一天会挂掉。尤其是对于C++等需要编译的api来说,这个接口就更加重要了。毕竟api的修改对于应用方来说意味着要重新编译;重新编译意味着要重新走一下发布流程:至少...
    文章 2014-12-25 1338浏览量
  • 消息队列在测试开发中的应用思路

    在压服务系统的设计中,为了增加吞吐和并发能力,需要架设压集群,这时数据处理和性能统计会出现单点问题(如jmeter的设计,当分布式集群过大时,master压力过大而死机),在压执行机和性能统计机器之间架设...
    文章 2017-03-17 1031浏览量
  • 浅说《测试用例》-给测试新手的

    基于经验和直觉推测出系统可能存在的错误,从而有针对设计测试用例的方法。其它 设计测试用例的方法有很多,我们常用就上面几种,其它的方法还有:状态迁移图、流程分析法、正交验证法等等。四、测试用例的格式...
    文章 2017-07-03 1027浏览量
  • 浅说测试用例-给测试新手的

    基于经验和直觉推测出系统可能存在的错误,从而有针对设计测试用例的方法。5、其它 设计测试用例的方法有很多,我们常用就上面几种,其它的方法还有:状态迁移图、流程分析法、正交验证法等等。四、测试用例的...
    文章 2017-07-03 1071浏览量
  • 从JAVA多线程理解到集群分布式和网络设计的浅析

    就我个人的经验来说还没遇到过,但并非绝不可能,我想在常规的同一个JVM内部操作的线程会死掉的概率只有系统挂掉,不然SUN的java虚拟机也太不让人信任了;至少从这一点上我们可以决定在绝大部分情况下线程阻塞的主要...
    文章 2011-04-29 1900浏览量
  • GFS架构启示|Google File System

    画外音:当有chunk-server挂掉,master能检测到,并且知道哪些文件存储在chunk-server上,就可以启动新的实例,并复制相关文件。(3)文件存储高可用:每一份文件会存三份,冗余文件;GFS的高性能是怎么保证的?多个...
    文章 2019-08-08 549浏览量
  • 如何做好一名稳定SRE-业务团队系统稳定的思与行

    2.自动化、系统化、数据化SRE不是在做一种收尾型、擦屁股的工作,而是在做一种探索、前瞻的工作,但SRE不避免的,会面对很多重复的工作,所以除了要在组织和机制上做好分工,让恰当的人做恰当的事之外,SRE...
    文章 2020-10-26 4034浏览量
  • 浅说《测试用例》-给测试新手的

    基于经验和直觉推测出系统可能存在的错误,从而有针对设计测试用例的方法。5.其它 设计测试用例的方法有很多,我们常用就上面几种,其它的方法还有:状态迁移图、流程分析法、正交验证法等等。四、测试用例的...
    文章 2016-04-27 2242浏览量
  • 《Oracle数据库性能优化方法论和最佳实践》——1.4 ...

    某关键进程住或死。1.4.4 突然变慢,持续一段时间后又恢复正常的业务系统优化本书介绍的发生的现象虽然与1.4.3节介绍的类似,但其形成原因往往不同。这种业务系统性能降低的场景通常是周期发作,维持时间从几...
    文章 2017-05-02 1603浏览量
  • 想染指系统架构?你绝对不错过的一篇

    扩展,可用,稳定和模式 延迟与吞吐量 延迟是执行操作或运算结果所花费的时间。吞吐量是单位时间内(执行)此类操作或运算的数量。通常,你应该以接受级延迟下最大化吞吐量为目标。来源及延伸阅读 理解...
    文章 2017-10-17 2243浏览量
  • [译]系统设计入门|掘金翻译计划

    扩展,可用,稳定和模式 延迟与吞吐量 延迟是执行操作或运算结果所花费的时间。吞吐量是单位时间内(执行)此类操作或运算的数量。通常,你应该以接受级延迟下最大化吞吐量为目标。来源及延伸阅读 理解...
    文章 2017-10-16 1766浏览量
  • 如何做到全年配送 0 故障?盒马揭秘 12个关键技术

    简单的一致问题比如DB和缓存,db更新成功后多增加几个通道保证db执行成功后发出消息,缓存做好幂等,考虑系统了的情况可以依赖db变更的精卫消息或者binlog消息做数据对账。我们遇到的一致问题比较隐蔽,某个...
    文章 2020-02-18 619浏览量
  • 创业者谈360路由失败:懒惰和自以为是的产品设计

    如果不是高通的工艺过关,这路由器在内的时候已经挂掉千百次了。估计做这个的ID工程师根本就没听过热分析和热仿真。再说后面的网线接口,确实是少了。红衣教主也一针见血的指出,用户根本就觉得少了网口的路由器是...
    文章 2017-09-20 1168浏览量
  • 饿了么技术往事(下)

    系统了可以恢复,各数据中心节点间数据发生不一致的话,数据订正的成本很高。多数据中心架构实施后的几年里面,发生过一次 DRC(我们的数据复制服务)变更引入的bug,导致同步出错,好在影响的数据库实例范围控...
    文章 2020-11-26 3561浏览量
  • 转 Kafka设计理念浅析

    又由于这一层缓存操作是在OS级的,也就意味着即便Kafka挂掉了重启,缓存也不会失效。减少JVM的GC触发。JVM中的对象会占用除实际数据外的较多空间(如类的信息等等),结构不够紧凑,浪费空间。而当内存中维护的消息...
    文章 2016-05-13 2339浏览量
  • 超全总结|阿里如何应对电商故障?...

    系统改造验收:对于分布式系统,至少应该做到运行态中不会因为我依赖的系统出现故障,而引起当前应用出现可用的问题,比如进程挂掉,频繁FullGC,负载飙高等,何时何地都具备快速止血的能力。限流降级参考:对于弱...
    文章 2017-06-19 3674浏览量
  • 【Java开发者专场】阿里专家梁笑:2018双十一下单成功...

    弱依赖过程则不同,例如根据历史数据得知某消费者经常使用某一个自提站点,如果在大促中,自提站点的链路挂掉,分配的不是这个自提点,虽然这可能会导致消费者的愉悦感下降,但下单过程不会产生太大的问题。...
    文章 2018-12-26 4702浏览量
  • ENode 1.0-框架的总体目标

    那如果断电了,那理论上这100毫秒的数据不是就丢了,没关系,我们还可以同时把数据写入到多台mongodb server,也就是我们可以部署一个MongoDB server的集群,一般整个集群的所有机器都同时挂掉的可能是很低的,...
    文章 2016-05-27 1586浏览量
  • 一文读懂架构整洁之道(附知识脉络图)

    任何一个软件模块,都应该有且只有一个被修改的原因,“被修改的原因“指系统的用户或所有者,翻译一下就是,任何模块只对一个用户的价值负责。该原则指导我们如何拆分组件。举个例子,CTO 和 COO 都要统计员工的...
    文章 2019-06-11 17302浏览量
  • 设计师是不是真正的用户

    另外,我发现设计师还比较喜欢说服自己,比如刚开始可能出于某种原因做了一个自己也不是很满意的方案,总觉得有些问题,但也说不上来。但是渐渐地,自己就习惯了这个东西。于是,就开始在内心帮助这个方案做辩解,...
    文章 2017-06-04 976浏览量
  • DDD CQRS架构和传统架构的优缺点比较

    这些特性可以保证即便前端Controller在高峰时瞬间发送大量的Command过来,也不会导致后端处理Command的应用挂掉,因为我们是根据自己的消费能力拉取Command。这点也是CQRS C端在可用方面的优势,其实本质也是分布...
    文章 2017-08-01 993浏览量
  • DDD CQRS架构和传统架构的优缺点比较

    这些特性可以保证即便前端Controller在高峰时瞬间发送大量的Command过来,也不会导致后端处理Command的应用挂掉,因为我们是根据自己的消费能力拉取Command。这点也是CQRS C端在可用方面的优势,其实本质也是分布...
    文章 2016-05-27 4313浏览量
  • 浅谈系统实现层面稳定保障

    这一切,除得益于人为保护之外,最主要原因是建筑自身主体结构具备较高的稳定可靠。而相比传统建筑工程,软件工程有两个显著特点,一是具备规模化快速复制扩散的能力,二是在竣工之后依然可以被改造并保持高速进化...
    文章 2021-09-23 12浏览量
1 2 3 4 ... 12 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化