• 浩鲸科技基于ChaosBlade的混沌工程实践

    故障节点将被排除出可用节点列表。短暂 tps 下降后&xff0c;消息发送恢复正常 tps。演练中稳定性异常&xff1a;节点 hang 住后&xff0c;tps 骤降为 0&xff0c;不符合预期&xff1b;改进成果&xff1a;1.客户端引入熔断机制&xff0c;...
    文章 2021-08-30 232浏览量
  • 饿了么交付中心语言栈转型总结

    可能无法给到一个精确的数学描述,但是可以做定性的分析:恢复时长因子与系统可用度成正相关,故障间隔因子与系统可用度成逆相关。也即:_问题出现时恢复时长要尽可能的短,尽可能降低故障频率以增大故障间隔。基于...
    文章 2019-11-08 2448浏览量
  • 双11 背后的全链路可观测性:阿里巴巴鹰眼在“云原生...

    某用户反馈订单异常,业务同学首先通过该用户的 UserId 检索下单入口的业务日志,然后根据该日志中关联的链路标识 TraceId 将下游依赖的所有业务流程、状态与事件按实际调用顺序进行排列,快速定位了订单异常的...
    文章 2019-12-20 1003浏览量
  • Docker EE 2.0 版本尝鲜测评,带给您无与伦比的容器...

    对于想要对编排系统进行调整和故障排除的高级用户来说,他们可以使用所有的核心 Kubernetes 组件及其本机 API、CLI 和接口。详情请从以下渠道观看完整视频: Docker官方入口:http://t.cn/RuU2alR 腾讯视频入口:...
    文章 2018-04-23 4969浏览量
  • 一文读懂分布式架构知识体系(内含超全核心知识大图)

    Durabilit:事务处理结束后,对数据的修改就是永久的,即便系统故障也不会丢失。分布式一致性 CAP 分布式环境下,我们无法保证网络的正常连接和信息的传送,于是发展了 CAP/FLP/DLS 这三个重要的理论: CAP:分布...
    文章 2019-10-16 6106浏览量
  • 浅谈云原生架构的 7 个原则

    监控数据的呈现形式应该不仅仅是指标趋势图表、柱状图等,还需要结合复杂的实际应用场景需要,让视图具备下钻分析和定制能力,以满足运维监控、版本发布管理、故障排除等多场景需求。​随着云原生技术的发展,基于...
    文章 2021-08-13 44浏览量
  • 浅谈云原生架构的 7 个原则

    监控数据的呈现形式应该不仅仅是指标趋势图表、柱状图等,还需要结合复杂的实际应用场景需要,让视图具备下钻分析和定制能力,以满足运维监控、版本发布管理、故障排除等多场景需求。​随着云原生技术的发展,基于...
    文章 2021-07-16 7433浏览量
  • 无所不能,传感器黑科技层出不穷

    传感器是数据的采集入口,是物联网、智能设备、无人驾驶等的“心脏”,将迎来巨大的发展空间。传感器的种类和应用多样,可以说是无处不在,传感器的数量往往代表着智能化的水平。如今,现代化工业生产向着大型、快速...
    文章 2017-07-03 1613浏览量
  • 如何定位性能瓶颈

    在日志中,我们可以由一些关键字直接推断出系统的问题所在,比如: Too many open files Linux下存在句柄数限制,系统的默认值较小,在测试前应该优化,另外还要怀疑是否程序存在打开句柄却在某些情况下没有关闭。...
    文章 2017-03-19 1450浏览量
  • 《一起学sentinel》四、Slot的子类及实现之LogSlot和...

    SystemSlot 则通过系统的状态,例如 load1 等,来控制总的入口流量;下面是关系结构图 二、LogSlot分析 1.LogSlot介绍 官方文档是这样描述LogSlot的:用于记录块异常,为故障排除提供具体的日志 2.源码解读 Override ...
    文章 2020-09-25 184浏览量
  • 《一起学sentinel》五、Slot的子类及实现之...

    LogSlot则用于记录用于记录块异常,为故障排除提供具体的日志 StatisticSlot 则用于记录、统计不同纬度的 runtime 指标监控信息;FlowSlot 则用于根据预设的限流规则以及前面 slot 统计的状态,来进行流量控制;...
    文章 2020-09-25 341浏览量
  • 玩转ECS-2020修炼手册(第2季)

    ECS控制台临时带宽升级页面增加一键直达OOS功能的入口。ROS可视化编辑器发布 提供便捷的图编辑交互,可见即所得的图-ROS模板联动,具备widget集成能力。支持验证模板、模板自动保存和恢复,支持从编辑器转到ROS控制...
    文章 2020-09-23 96浏览量
  • 一次线上JVM问题的排查——一把无人持有的锁

    本文将系统性地介绍如何解决这个问题,并找问题背后的原因。2 问题分析 在实际解决这个问题的时候,我们发现不仅问题本身显得不合常理,其周边环境也相对来说不友善,给问题的分析与解决带来了较大的困难。集群中...
    文章 2020-06-02 548浏览量
  • 5 个快速的 Node.js 应用性能提示

    接下来,观察你的产品故障排除模式,然后判断 AppDynamics 捕获的进程快照数在你当前状况下是否合适。如果你发现每分钟捕获 2 个快照太多了,那么你可以配置 AppDynamics 来调整快照间隔。尝试配置 AppDynamics 让...
    文章 2017-08-01 1051浏览量
  • 5 个快速的 Node.js 应用性能提示

    接下来,观察你的产品故障排除模式,然后判断 AppDynamics 捕获的进程快照数在你当前状况下是否合适。如果你发现每分钟捕获 2 个快照太多了,那么你可以配置 AppDynamics 来调整快照间隔。尝试配置 AppDynamics 让其...
    文章 2017-06-05 1069浏览量
  • 企业安全管理的“六脉神剑”

    首先,监测活动告知系统管理员系统的操作方式,系统故障在哪里,在什么地方性能是一个问题,什么类型的负载系统在任何给定的时间负荷着大量负载。这些细节允许被适当的维护和发现性能瓶颈,并且指出进一步调查的领域...
    文章 2017-05-02 1250浏览量
  • 当红架构Cloud Native,怎么搭建才能成为上云助攻手?

    有些公有云出入口的带宽很大,甚至有些互联网大厂的公有云平台,用的基础设施跟公司整体业务是一体的;带宽大的另一个好处是可以抵御DDoS和CC攻击;其次,公有云有更强的排障能力。国内的国情,网络故障是非常难以...
    文章 2017-05-16 2300浏览量
  • 基于LVS的Linux负载均衡技术实现(第一篇:基本原理)

    一般来说,调度器的可靠性较高,因为调度器上运行的程序较少而且大部分程序早已经遍历过,但我们不能排除硬件老化、网络线路或者人为误操作等主要故障。为了避免调度器失效而导致整个系统不能工作,我们需要设立一个...
    文章 2017-11-12 993浏览量
  • 阿里云ECS七天训练营-SLB负载均衡

    尽可能地减少终端时间为目标,确保服务的连续性,达到高可用(HA)的容错效果,例如,“故障切换”、“双机热备”、“多机热备”等都属于高可用群集技术,HA的工作方式第一层:负载调度器:这是访问整个群集系统的唯一入口,...
    文章 2020-09-25 253浏览量
  • 数据库运维工具化:一切从“简”,只为DBA更轻松

    众所周知,数据库的运维既是个技术活儿也是个苦...对数据库系统架构具有深刻的理解,并在数据库诊断、故障排除、优化、架构设计等方面具有丰富的经验。本文来自云栖社区合作伙伴"DBAplus",原文发布时间:2016-01-14
    文章 2017-05-02 1427浏览量
  • 在阿里,我们如何管理测试环境?

    增加多套测试环境副本能够有效控制故障的影响范围,然而企业的资源终归有限,降低测试环境成本和提高测试环境稳定性成为了矛盾的两面。为解决这个问题,独具匠心的阿里研发效能团队设计了一种服务级复用的虚拟化技术...
    文章 2019-04-30 13558浏览量
  • 带你读《计算机网络问题与解决方案:一种构建弹性现代...

    在电子产品的设计和故障排除方面仍有一些艺术,但总体来说,这些创作更加专注在工程原理上。问题从“如何做电子产品”转换到“做电子产品的最廉价方式是什么”,或者“如何把它们做到最小”,或者其他一些在早期被...
    文章 2019-11-07 751浏览量
  • 《虚拟化安全解决方案》一2.2 配置VMware ESXi

    6)下一个界面允许你明确地排除某些补丁,为管理员提供了另一级别的粒度,控制推出什么补丁。单击“下一步”。7)最后的配置页允许你在基线中包含额外的补丁,可能是一个或若干不满足之前指定的标准的。再次,这就是...
    文章 2017-05-02 3247浏览量
  • 在阿里,我们如何管理测试环境

    增加多套测试环境副本能够有效控制故障的影响范围,然而企业的资源终归有限,降低测试环境成本和提高测试环境稳定性成为了矛盾的两面。在这个领域里,独具匠心的阿里研发效能团队设计了一种服务级复用的虚拟化技术,...
    文章 2019-01-25 21617浏览量
  • 如何设计可靠的灰度方案

    最后,对可灰度的用户或单据,应当宽进严,适当提升灰度准入的门槛,这样做有利于将大部分数据快速的排除到灰度范围之外。因为总体而言,当我们决定采用灰度方案去推动变更时,我们总是抱着对系统悲观的态度,防止...
    文章 2021-08-20 277浏览量
  • 《一起学sentinel》六、Slot的子类及实现之FlowSlot和...

    LogSlot则用于记录用于记录块异常,为故障排除提供具体的日志 StatisticSlot 则用于记录、统计不同纬度的 runtime 指标监控信息;AuthoritySlot 则根据配置的黑白名单和调用来源信息,来做黑白名单控制;SystemSlot ...
    文章 2020-10-14 333浏览量
  • 时延敏感业务低概率超时问题分析

    尤其在网络排查的领域,通常为了性能和控制资源消耗,不会将每一个数据包的情况都一一记录下来,对于一次偶发的应用层记录的超时,网络层通常没有明确的对应此次应用层调用的包交互记录,因此排查起来非常困难。...
    文章 2019-06-17 5951浏览量
  • 时延敏感业务低概率超时问题分析

    尤其在网络排查的领域,通常为了性能和控制资源消耗,不会将每一个数据包的情况都一一记录下来,对于一次偶发的应用层记录的超时,网络层通常没有明确的对应此次应用层调用的包交互记录,因此排查起来非常困难。...
    文章 2020-03-31 132浏览量
  • 高德服务单元化方案和架构实践

    措施2:通过记录用户和单元关系的路由表来划分用户所属单元,这个关系是通过系统日志分析出来的,用户经常从哪个单元入口进来,就会把用户划分到哪个单元,从而保证请求入口和单元划分的相对一致,从而减少跨单元...
    文章 2019-11-25 7955浏览量
  • 2016年人工智能领域的总结与思考:未来将面临的五大...

    并能够实时感知网络状况,及时排除故障。而人工智能会使得未来的通信网络越来越不需要人,整个网络的控制基本是全自动的,只需要很少的专家参与就可以把整个通信网络的事情全部搞定。2、医疗领域 李彦宏在介绍百度...
    文章 2017-08-01 896浏览量
1 2 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化