• 关于

    系统验证方法挂掉的原因

    的搜索结果
  • 我们雇佣了一只大猴子...

    验证核心系统的同城一个机房挂掉的情况下,是否还可以正常工作。2015年因为一次宕机事故,公司内部得出一个结论:任何基础设施、生产系统、任何流程都可能出现问题,没有经过重大灾难验证的容灾设施都是耍流氓。启动...

    文章 中间件小哥 2019-02-28 1954浏览量

  • 2017QCon分享:从淘宝到云端的高可用架构演进

    比如在设计技术方案的时候,在最后一章单独有一个容灾设计,这个节点里任何服务挂掉的时候,你要保持什么样的方式保持这个服务是可用的。在容灾设计时有几点必须考虑,比如我引了一个新jar包或者调了一个新的RPC的...

    文章 王晨纯 2017-10-25 2927浏览量

  • 纯干货 | 从淘宝到云端的高可用架构演进

    比如在设计技术方案的时候,在最后一章单独有一个容灾设计,这个节点里任何服务挂掉的时候,你要保持什么样的方式保持这个服务是可用的。在容灾设计时有几点必须考虑,比如我引了一个新jar包或者调了一个新的RPC的...

    文章 技术小能手 2017-06-19 2088浏览量

  • 阿里云试用中心,为您提供0门槛上云实践机会!

    100+款试用云产品,最长免费试用12个月!拨打95187-1,咨询专业上云建议!

    广告

  • 阿里云栖开发者沙龙PHP技术专场-聊聊服务稳定性保障这些事

    第二步,如何保证后端数据库挂掉的数据时候能迁过去?下图可以看到,Nginx中使用lua脚本进行实现,它会检测后端服务返回的一些状态,使用计数器计算失败次数,如果频繁的达到一定程度的失败次数,就切换到从Vanish...

    文章 PHP小能手 2019-04-25 2357浏览量

  • 如何做到全年配送 0 故障?盒马揭秘 12个关键技术

    配送批次组相似度打分服务上预调度功能时,预估增加0.5倍批次,两两计算的笛卡尔积是2.25,估计全量开预调度增加3倍以内流量,当前系统在不增加机器情况下可以扛住洪峰,实际开启预调度后验证无问题。3.3 HSF服务...

    文章 檸,铮 2020-02-18 554浏览量

  • 阿里如何做好双11技术保障?大队长霜波分享4点经验

    一旦哪个系统有问题,大家就叫一下什么系统出问题,压的时候大家也还比较紧张,因为随着峰值越来越上去的时候,我们特别想看到究竟是哪个系统第一个挂掉,大家就想着我不要做第一个挂掉的系统。全链路压测 整体上来...

    文章 开发者小助手 2021-01-06 327浏览量

  • 阿里如何做好双11技术保障?大队长霜波分享4点经验

    一旦哪个系统有问题,大家就叫一下什么系统出问题,压的时候大家也还比较紧张,因为随着峰值越来越上去的时候,我们特别想看到究竟是哪个系统第一个挂掉,大家就想着我不要做第一个挂掉的系统。全链路压测整体上来说...

    文章 开发者小助手_LS 2021-01-06 2417浏览量

  • 超全总结 | 阿里如何应对电商故障?神秘演练细节曝光

    系统改造验收:对于分布式系统,至少应该做到运行态中不会因为我依赖的系统出现故障,而引起当前应用出现可用性的问题,比如进程挂掉,频繁FullGC,负载飙高等,何时何地都具备快速止血的能力。限流降级参考:对于弱...

    文章 技术小能手 2017-06-19 3556浏览量

  • 浅说《测试用例》----给测试新手的

    这里是我们认为最重要的一点,假如我们测试的项目大而复杂,我们可以把项目功能细分,根据每一个功能通过编写用例的方式来整理我们测试系统的思路,避免遗漏要测试的功能点。跟踪测试进展 通过编写测试用例,执行...

    文章 寒凝雪 2017-07-03 995浏览量

  • Vmware vSphere常见问题汇总(一)

    解决方法:查看系统日志,有可能是杀毒软件的原因,将杀毒软件卸载重装。11、使用FT功能需同时具备以下条件 解决方法:1 所有ESX必须为4.0以上,Build版本相同,以及在同一个HA Cluster中 2 服务器的CPU要求是同一...

    文章 科技小能手 2017-11-22 1717浏览量

  • zookeeper OOM问题排查

    最近折腾的数据库同步项目中,大量使用了zookeeper(版本3.3.3),可以说是强依赖,但是最近频频出现zookeeper内存使用率达到100%,而且是GC不,直接导致整个系统挂起,伤不起阿 分析 因为大部分的情况都是无法GC...

    文章 愤怒的苹果 2016-03-30 3498浏览量

  • 浅说测试用例----给测试新手的

    这里是我们认为最重要的一点,假如我们测试的项目大而复杂,我们可以把项目功能细分,根据每一个功能通过编写用例的方式来整理我们测试系统的思路,避免遗漏要测试的功能点。跟踪测试进展 通过编写测试用例,执行...

    文章 寒凝雪 2017-07-03 1050浏览量

  • ElasticDL: Kubernetes-native 弹性分布式深度学习系统

    这种“非 Kubernetes-native”的 容错方式颇为被动,只能接受资源紧张时一些进程被抢占而挂掉的事实,而不能 在其他作业释放资源后增加进程充分利用空闲资源。TensorFlow 2.0 如上文解释,为了保证 TensorFlow 最...

    文章 缪克卢汉 2019-09-12 6195浏览量

  • 浅说《测试用例》----给测试新手的

    这里是我们认为最重要的一点,假如我们测试的项目大而复杂,我们可以把项目功能细分,根据每一个功能通过编写用例的方式来整理我们测试系统的思路,避免遗漏要测试的功能点。跟踪测试进展 通过编写测试用例,执行...

    文章 虫师2016 2016-04-27 2199浏览量

  • 带你读《More Effective C#:改善C#代码的50个有效方法》之二:API设计

    C#语言的设计者提供这项特性当然不是为了故意给编程制造困难,而是基于一定的原因,而且,它确实有一些合理的用法。例如,把命名参数与可选参数相结合,能够让许多 API 变得清晰,尤其是给 Microsoft Office 设计的...

    文章 温柔的养猫人 2019-10-31 660浏览量

  • 断网故障时Mtop触发tomcat高并发场景下的BUG排查和修复(已被apache采纳)

    由于在Tomcat源码中看不出问题所在,我们决定在JDK层面打patch,在JDK层面,所有可能修改keys的地方只有两处,sun.nio.ch.EpollSelectorImpl的implRegister方法以及implDereg方法(注意,不同操作系统下的实现类可能...

    文章 中间件小哥 2016-01-14 14684浏览量

  • 你真的了解Docker吗?——Docker插件机制详解

    Docker之所以这么火并且有很多人愿意使用它,其中涉及到很多方面的因素,例如功能性以及隔离性等各种各样的原因。其中Docker的开箱即用功能是一个非常具有特色的优点,Docker安装后即可使用,无需再做其他的配置;...

    文章 场景研读 2016-08-25 10375浏览量

  • 【Java开发者专场】阿里专家梁笑:2018双十一下单成功率99.9%!供应链服务平台如何迎接大促

    弱依赖过程则不同,例如根据历史数据得知某消费者经常使用某一个自提站点,如果在大促中,自提站点的链路挂掉,分配的不是这个自提点,虽然这可能会导致消费者的愉悦感下降,但下单过程不会产生太大的问题。...

    文章 李博 bluemind 2018-12-26 4681浏览量

  • 微服务架构的理论基础 - 康威定律

    解决方法不是消灭这些问题,而是容忍这些问题,在问题发生时,能自动回复,微服务组成的系统,每一个微服务都可能挂掉,这是常态,我们只有有足够的冗余和备份即可。即所谓的 弹性设计(Resilience)或者叫高可用...

    文章 肥侠 2016-03-22 90135浏览量

  • 阿里搜索事业部故障快速恢复实践

    第一种处理方法已经在实践中越来越少的出现,因为现在大原则是先恢复后查问题,除非出现多个机房同时挂掉的情况,否则不是首选。第三种看起来也是一个不错的方向,不过在实践中这个方案的要求极高,需要系统具备:...

    文章 卢占一十力 2018-03-16 2534浏览量

  • SystemCenter2012SP1实践(25)VMM下HyperV的高可用(上)

    当某一台物理机挂掉的时候,虚拟机可以快速的迁移到另外一台运行正常的物理机上。下图是我做的一个很正常的实时迁移,耗时11秒,期间ping只丢了一个包。(下一章我们将介绍如何使用VMM快速创建HyperV群集,以及创建...

    文章 技术小阿哥 2017-11-21 1099浏览量

  • ORACLE的EXPDP与ORA-31626、ORA-31637、ORA-06512、ORA-31635

    总结:本次的expdp备份失败故障处理,是由于数据库的备份进程dm00起导致的,结束该进程,清理数据库的expdp备份主作业表即可,数据库的expdp备份就能恢复;dm00起的具体原因,在metalink上没有查到相关的资料...

    文章 kissweety 2015-06-03 2661浏览量

  • 大促场景系统稳定性保障实践经验总结

    江煵在分享中提到,今年我们在新闻里听到了很多比较大的宕机事件,宕机的原因其实都很典型,删库跑路、被攻击、没有做好容量规划或者弹性能力不足、系统更改等。宕机后果还是比较严重,比如某SaaS服务商直接经济损失...

    文章 中间件小哥 2020-11-12 5272浏览量

  • 如何带领团队“攻城略地”?优秀的架构师这样做

    2.SRP(单一职责原则):任何一个软件模块,都应该有且只有一个被修改的原因,“被修改的原因“指系统的用户或所有者,翻译一下就是,任何模块只对一个用户的价值负责,该原则指导我们如何拆分组件。举个例子,CTO ...

    文章 技术小能手 2019-07-03 16109浏览量

  • 血泪总结!创业公司CTO要避免哪些坑?

    幸亏运气好,重启服务器没有异常,如果重启失败,那意味着所有系统全部挂掉。所以,作为技术管理者,一定要清楚地对下属表达自己的意见,否则,一旦出现操作上的“歧义”,后患无穷。必须百分百确保系统可控 运维是...

    文章 云市场转载 2017-06-12 34185浏览量

  • 如何制作好一个提交按扭---我是个爱折腾的人

    这里我试验了一下,通过鼠标右键粘贴了东西到输入框后,这个看似能解决问题的keyup()也挂掉了,提交还是没有自动激活,需要我们点击其他地方来移除焦点。图9 后来我研究了一下,还是找到了一个完美的解决办法,那...

    文章 刘哇勇 2012-09-19 812浏览量

  • Netflix的牛逼是如何炼成的?

    自由与责任最好的体现是Netflix的休假制,任何人任何时间都可以修长的假期,这也是我站在这里的原因之一,休假是你的自由,但是你相应的责任是什么,你休假之前要把你该做的事情做好。而且你的休假不能给公司带来...

    文章 行者武松 2017-08-01 4241浏览量

  • 阿里内核月报2014年3月

    Tracepoint机制不支持被强制加载的module是因为在不匹配的模块中使用tracepoint很容易挂掉内核。Tracepoint允许TAINT_CRAP与 TAINT_OOT_MODULE,但是如果有其它任何一个“taint”标记,模块中的tracepoint是默认被...

    文章 场景研读 2017-06-05 2404浏览量

  • 《尽在双11——阿里巴巴技术演进与超越》| 每天读本书

    有人由于身体或者家庭的原因申请离开。但庆幸的是,每年都会有更多的人加入进来,带着新的热情和梦想,明知路难行,明知山有虎,但总需要有那样一群人,咬着牙,红着眼,在再大的压力下,在再苦的环境下,在已经通宵...

    文章 地町你好 2019-06-20 544浏览量

  • Java基础总结

    移动智能终端用户通常觉得iOS的系统比Android系统有更好的用户体验,其中一个深层次的原因就在于Android系统中垃圾回收的不可预知性。补充:垃圾回收机制有很多种,包括:分代复制垃圾回收、标记垃圾回收、增量垃圾...

    文章 iolo 2020-04-30 372浏览量

1 2 3 4 6 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化