• 好玩又实用,阿里巴巴开源混沌工程工具 ChaosBlade

    衡量微服务的容错能力通过模拟调用延迟、服务不可用、机器资源满载等,查看发生故障的节点或实例是否被自动隔离、下线,流量调度是否正确,预案是否有效,同时观察系统整体的 QPS 或 RT 是否受影响。在此基础上可以...
    文章 2019-03-28 12881浏览量
  • 阿里开源混沌工程工具 ChaosBlade

    通过模拟调用延迟、服务不可用、机器资源满载等,查看发生故障的节点或实例是否被自动隔离、下线,流量调度是否正确,预案是否有效,同时观察系统整体的 QPS 或 RT 是否受影响。在此基础上可以缓慢增加故障节点范围...
    文章 2019-03-28 10210浏览量
  • 混沌工程|你所知道的 ChaosBlade 那些事

    ChaosBlade 下的项目遵循此混沌实验模型设计,需要注意的是此模型定义了混沌实验场景如何设计,但是实验场景的具体实现每个领域各相同,所以将 ChaosBlade 依据领域实现封装成各自独立的项目,每个项目根据各领域...
    文章 2020-01-21 4703浏览量
  • 分布式服务架构下的混沌工程实践

    本文来自阿里巴巴高可用架构团队高级开发工程师肖长军(花名穹谷)在 GIAC(全球互联网架构大会)上的分享,包含三部分内容:(阿里巴巴中间件公众号对话框发送“混沌工程”,获取分享PPT) 混沌工程的定义、价值、...
    文章 2019-07-04 17959浏览量
  • ChaosBlade 在工商银行混沌工程体系中的应用实践

    我们通过对历史生产问题的排查经验进行总结,并结合在大量混沌测试实践中归纳得到的高可用测试模型,建立了工行混沌工程故障演练平台高可用专家库,共包含六大类一百多种测试案例,涵盖了应用层、数据库层、平台层、...
    文章 2021-01-04 1638浏览量
  • ChaosBlade:从混沌工程实验工具到混沌工程平台

    10.0.0.1 机器上挂载的 A 磁盘满造成了服务不可用&xff1b;所有节点上的 B dubbo 服务因为执行缓慢造成上游 A dubbo 服务调用延迟&xff0c;从而造成用户访问缓慢&xff1b;Kubernetes A 集群中 B 节点上 CPU 所有核使用率...
    文章 2021-08-18 115浏览量
  • ChaosBlade:从混沌工程实验工具到混沌工程平台

    10.0.0.1 机器上挂载的 A 磁盘满造成了服务不可用&xff1b;所有节点上的 B dubbo 服务因为执行缓慢造成上游 A dubbo 服务调用延迟&xff0c;从而造成用户访问缓慢&xff1b;Kubernetes A 集群中 B 节点上 CPU 所有核使用率...
    文章 2021-08-13 375浏览量
  • 面对可避免的故障,我们造了一个“上帝视角”的控制...

    从中可以发现,他们都存在因服务依赖不合理,导致一个服务故障影响多个服务不可用,缺少应急预案,整个故障恢复时间比较长,监控告警系统不完善等问题,Google 故障发生几十分钟后才感知故障的发生,AWS 的 ...
    文章 2021-03-26 654浏览量
  • ChaosBlade:从零开始的混沌工程(一)

    当服务不可用时的不正确回滚设置 不当的超时设置导致的重试风暴 由于下游依赖的流量过载导致的服务中断 单点故障时的级联失败等 在这些弱点通过生产环境暴露给用户之前,必须主动的发现这些重要的弱点。并需要一种...
    文章 2020-06-05 2103浏览量
  • Kubernetes 上的最佳实践—高可用混沌工程)

    所以说混沌工程面向的仅仅是开发、测试,拥有最好的客户体验是每个人的目标 所以实施混沌工程,可以提早发现生产环境上的问题,并且可以以战养战,提升故障应急效率和可以使用体验,逐渐建设高可用的韧性系统。...
    文章 2020-09-02 1475浏览量
  • Kubernetes 上的最佳实践—高可用混沌工程)

    所以说混沌工程面向的仅仅是开发、测试,拥有最好的客户体验是每个人的目标,所以实施混沌工程,可以提早发现生产环境上的问题,并且可以以战养战,提升故障应急效率和可以使用体验,逐渐建设高可用的韧性系统。...
    文章 2020-09-22 949浏览量
  • 使用Grab的实验平台进行混沌实验编排

    归功于我们与Grab-Kit的集成,Grab工程师需要直接使用混沌SDK。当Grab-Kit处理进入的请求时,它先使用ExP SDK进行检查。如果请求“应该失败”,它将产生适合的失败类型。然后它被转发到特定endpoint的处理器。我们...
    文章 2019-03-05 5938浏览量
  • 模拟驾驶能力输出,赋能客户提升稳定性信心

    2.1.2模拟驾驶工具包实验注入工具-Apsara Chaos PlatformApsara Chaos Platform(简称ACP)是混合云一款遵循混沌工程原理和混沌实验模型的实验注入工具,帮助企业提升分布式系统的冗余容错能力、故障隔离能力、可...
    文章 2020-10-28 12217浏览量
  • 浩鲸科技基于ChaosBlade的混沌工程实践

    避免了持续不可用&xff1b;2.namesrv 路由服务主动将 broker 失效信息推送至客户端&xff0c;减少故障恢复时长。浩鲸混沌工程实践基于混沌工程实践&xff0c;我们意识到&xff0c;故障演练属于稳定性建设中的一环&xff0c;而要...
    文章 2021-08-30 207浏览量
  • 应用高可用 AHAS 一键提升云上的业务可用

    在消息削峰填谷、集群流量控制、实时熔断下游不可用应用等场景中,也得到了广泛的应用。故障演练 故障演练是一款遵循混沌工程实验原理并融合了阿里巴巴内部实践的产品,提供丰富故障场景实现,能够帮助分布式系统...
    文章 2019-07-04 11417浏览量
  • 【阿里云一周要闻第二期】杭州云栖大会敲定,9月正式...

    阿里巴巴高可用架构团队高级开发工程师肖长军(花名穹谷)在 GIAC(全球互联网架构大会)上从混沌工程的定义、价值、原则和流程、混沌工程如何在企业中落地,以及 ChaosBlade 和混沌实验平台 AHAS Chaos 架构设计和...
    文章 2019-07-08 5427浏览量
  • ChaosBlade x SkyWalking 微服务高可用实践

    ChaosBlade 将场景按领域实现封装成一个个单独的项目,不仅可以使领域内场景标准化实现,而且非常方便场景水平和垂直扩展,通过遵循混沌实验模型,实现 chaosblade cli 统一调用。2.SkyWalking SkyWalking 是一个...
    文章 2020-12-09 10424浏览量
  • 阿里高可用架构建设实践经验

    后端服务的服务规模化问题更是复杂和难以评估检验,这其中任何一个节点出现问题都会导致服务不可用。如何能有效地全面检验服务端吞吐能力、发现所有问题甚至是做好容量规划,具备对峰值的流控调度能力是所有企业都...
    文章 2020-06-02 28729浏览量
  • 某二手交易平台大数据平台从 0 到 1 演进与实践

    漏斗透传机制:这个属于日志埋点问题,如果解决,一些通用的数据模型如漏斗分析就无法进行,因此我们设计了一套 Session 级别的透传机制,确保用户每个页面或动作的访问能够被串联分析,追溯来源入口,精细化分析...
    文章 2020-06-06 651浏览量
  • 内容流量管理的关键技术:多任务保量优化算法实践

    传统的统计预测模型无法阐述外部环境的各种干扰因素以及系统的混沌特性,即无法从机理上描述系统本质。针对此问题,我们首先通过分析新热内容的历史曝光点击日志,使用常微分方程建立了新热内容曝光敏感模型,即pv-...
    文章 2020-06-12 578浏览量
  • Kubernetes 上的最佳实践 —— 高可用(容量评估)

    从上图示意中可以看出,应用生命周期的整个过程中,都有相应的高可用策略,如前面 2 篇文章介绍的流量防护即为线上运行时的线上管控相关策略,混沌工程即为系统演练的相关策略,而全链路压测即为规划阶段的重要策略...
    文章 2020-09-27 1459浏览量
  • 如果故障选择了你……

    在分布式系统架构下,服务间的依赖日益复杂,很难评估单个服务故障对整个系统的影响,并且请求链路长,监控告警的完善导致发现问题、定位问题难度增大,同时业务和技术迭代快,如何持续保障系统的稳定性和高可用性...
    文章 2020-09-11 1251浏览量
  • Kubernetes 上的最佳实践—高可用(容量评估)

    从上图示意中可以看出,应用生命周期的整个过程中,都有响应的高可用策略,如前面2期介绍的 流量防护即为线上运行时的线上管控相关策略,混沌工程即为系统演练的相关策略。而全链路压测即为规划阶段的重要策略,其...
    文章 2020-11-06 2652浏览量
  • 疫情期,APP 崩了怎么办...阿里工程师公开高可用架构笔记

    5 个,后端服务的服务规模化问题更是复杂和难以评估检验,这其中任何一个节点出问题都会导致服务不可用,给最终用户一个“崩”的感觉。同样的问题在专有云、混合云和自建 IDC 都有。如何能有效的全面检验服务端吞吐...
    文章 2020-02-18 4893浏览量
  • 从容器到云原生 – 服务网格

    通过arena命令,我们可以轻松实现模型训练,上线以及流量切换的模型持续优化全过程,由数据科学家通过arena submit提交分布式模型训练,该训练可以使用GPU或者CPU。当训练出新的模型后,通过arena serve命令将新的...
    文章 2018-12-18 3978浏览量
  • Kubernetes 上的最佳实践—高可用(容量评估)

    从上图示意中可以看出,应用生命周期的整个过程中,都有响应的高可用策略,如前面2期介绍的 流量防护即为线上运行时的线上管控相关策略,混沌工程即为系统演练的相关策略。而全链路压测即为规划阶段的重要策略,其...
    文章 2020-09-25 6987浏览量
  • 当 Messaging 遇上 Jepsen

    其中红色小三角形表示入队失败,如果一段时间内存在大量的红色小三角形则表示该时间段系统不可用,从图中可以发现在故障注入(灰色区域)初期存在一些系统不可用的时间段,这是故障引发集群重新选举造成的,一段时间...
    文章 2019-11-22 4918浏览量
  • 大促场景系统稳定性保障实践经验总结

    所以通过流量洪峰场景来尽可能多的识别确定因素,通过长期稳态场景常态化监测系统的确定因素,然后分析解决确定因素,达到对系统稳定性和高可用性的优化。在施压方面,阿里云PTS产品基于全国边缘节点、CDN模拟...
    文章 2020-11-12 6218浏览量
  • Cisco网络设备互连(ICND1)(第4版)...节OSI参考模型

    此外,OSI参考模型还对数据从应用程序(例如,电子表格)经过网络介质传输到另一台计算机中的应用程序的方式进行了描述,即便发送人和接收人通过不同的网络介质连接也受影响。将网络分为七层可以实现以下优势。...
    文章 2017-05-02 1328浏览量
  • 深度|大数据算法应用的测试发展之路

    简单来说就是把需要上线的模型,在线下测试环境利用线上流量通过在线服务的组件打分模块进行一个提前的预打分,在这个打分过程中出现任何错误都算校验通过,打分正常的模型再对分数进行均值和分布的校验,打分校验...
    文章 2020-04-30 7638浏览量
1 2 3 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化