• 面向失败的设计-故障与攻防演练锤炼容灾应急能力

    初期:可以选择故障覆盖率这个指标(即发生并改进过故障系统,要能够免疫同样原因故障)。此时实验场景数就近似等同于故障覆盖率的分母。中期:可以选择监控发现率这个指标。此时实验场景数与实验次数是分母,...
    文章 2019-11-08 1254浏览量
  • 超全总结|阿里如何应对电商故障?神秘演练细节曝光

    今天的分享,主要还是回归故障发生的本质,故障原因角度切入。看是否有一些方法论和通用性的手段可以沉淀出来。希望可以对大家有所帮助。今天演讲的主要包括两个部分:第一部分会从分布式系统经典依赖故障出发,剖析...
    文章 2017-06-19 3724浏览量
  • 云计算简介

    定位故障原因:配置、版本是否变更 查看日志 4.后续完善响应监控 5.制定应急方案 运维的分类 系统运维:管理服务器、基础服务搭建、负载均衡、高可用、CDN、系统优化 桌面运维:管理客户端、企业桌面维护、办公设备...
    文章 2018-12-10 1254浏览量
  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的...

    对可疑故障链路进行标红处理,通过庖丁可视化界面,轻松判断故障的发生原因。在故障发现、探测的最终结果可以对具体的用户呈现,也可以通过API形式对业务系统进行主动的信息推送。这意味着上层业务网络查询更加开放...
    文章 2018-01-05 4857浏览量
  • 从底层技术来看,GSLB 究竟难在哪儿

    当某个集群出现故障时,该集群对外通告的 VIP 会被撤回,路由更新之后,之前该集群服务的用户请求会被自动路由到次优集群,这对用户来说都是透明的,但是如果提供的服务是有状态的,会导致状态丢失,比如 youtube ...
    文章 2017-03-23 6377浏览量
  • 基础设施助力双11(十):百万级物理和虚拟网络设备的...

    对可疑故障链路进行标红处理,通过庖丁可视化界面,轻松判断故障的发生原因。在故障发现、探测的最终结果可以对具体的用户呈现,也可以通过API形式对业务系统进行主动的信息推送。这意味着上层业务网络查询更加开放...
    文章 2019-07-31 946浏览量
  • 130 秒揭秘 EDAS 3.0 如何平滑应对突发流量高峰,为您...

    通过三个维度指标检测最终会给出故障可能的原因,在复杂的微服务系统中可以很好的辅助运维人员对故障进行排查和复盘。在完成根因分析以后,EDAS3.0智能运维系统会根据分析结果进行相应的修复建议、运维自动化处理,...
    文章 2020-10-12 4841浏览量
  • 轻松应对双11,百万级物理和虚拟网络设备的网络智能化...

    对可疑故障链路进行标红处理,通过庖丁可视化界面,轻松判断故障的发生原因。在故障发现、探测的最终结果可以对具体的用户呈现,也可以通过API形式对业务系统进行主动的信息推送。这意味着上层业务网络查询更加开放...
    文章 2017-12-14 1857浏览量
  • 深入剖析数据库内核之事务的本质|附下一代分布式数据...

    计算机系统在其发展的历程中经历了多重要的事件&xff0c;而上个世纪 60 年代迎来一次重大变革&xff0c;为计算机系统带来了巨变&xff0c;自那之后&xff0c;计算机就开始以数字化的方式重塑整个世界的进程。这次变革就是...
    文章 2021-07-28 73浏览量
  • 云服务器 ECS 监控:监控ECS实例

    一般来说,在本地数据中心我们会对基础设施进行监控,其中包括对主机实例的监控,以便系统地和随时地了解资源使用情况和性能变化,在出现性能瓶颈的时候合理地调配资源,或者在发生故障时追溯原因等等。在阿里云上,...
    文章 2017-08-14 4799浏览量
  • 智能、互联时代的应用运维——《应用智能运维实践...

    对应智能网联汽车就是引擎控制系统、下雨感知自动车窗控制系统、车载娱乐系统和汽车辅助驾驶系统。连接模块包括天线、接口、通信协议和信道等&xff0c;其中&xff0c;通信方式通常包含三种&xff1a;一对一通信&xff0c;即单个...
    文章 2021-07-06 343浏览量
  • 云开雾散——阿里云工业大数据应用解决方案

    阿里云提供的方案基于对于大数据的分析,系统故障预测,监控预警系统还有工艺调,最后的预期提升了1.2%的良品率。下一个案例是新能源方面的。这个方案是阿里云提供给新能源行业的制造风力发电机的客户的,风力发电...
    文章 2016-11-29 5721浏览量
  • Facebook TSDB论文翻译

    我们希望当系统的运行状况发生重大变化时能够在第一时间发现问题,例如新版本发布、某个线上变更引发异常、网络故障,或者其它一些原因。因此我们的TSDB需要具备在很短的时间内细粒度聚合计算的能力。这种在几十秒内...
    文章 2017-08-18 2178浏览量
  • 一文读懂分布式架构知识体系(内含超全核心知识大图)

    Durabilit:事务处理结束后,对数据的修改就是永久的,即便系统故障也不会丢失。分布式一致性 CAP 分布式环境下,我们无法保证网络的正常连接和信息的传送,于是发展出了 CAP/FLP/DLS 这三个重要的理论: CAP:分布...
    文章 2019-10-16 6154浏览量
  • 如何有效运维管理光伏电站?

    3、光伏电站发生事故的预兆:相对于危险化学品仓库和化工厂而言,光伏电站的安全系数还是非常高的,只要在前期系统方案设计充分考虑到气候因素,选用优质设备和重视施工质量,可以把事故发生率控制到最少。...
    文章 2017-07-03 1628浏览量
  • 浅谈云原生架构的 7 个原则

    面对这样的挑战,在传统架构中,通常是开发人员、运维人员疲于调优系统性能,但是,即使他们使出浑身解数,也未必能够完全解决系统的瓶颈问题,最终因系统无法应对不断涌入的海量用户而造成应用瘫痪。​除了面临业务...
    文章 2021-08-13 45浏览量
  • 浅谈云原生架构的 7 个原则

    面对这样的挑战,在传统架构中,通常是开发人员、运维人员疲于调优系统性能,但是,即使他们使出浑身解数,也未必能够完全解决系统的瓶颈问题,最终因系统无法应对不断涌入的海量用户而造成应用瘫痪。​除了面临业务...
    文章 2021-07-16 7456浏览量
  • 带你读《HikariCP数据库连接池实战》之一:阿里中间件...

    这个例子是我在阿里巴巴多年间对一款中间件调的真实经历,这款中间件经历过很多打磨,比如全链路压测、3年双十一大促、多种监控系统接入、数整体结构重构改造、重大问题修复等。这款中间件是纯TCP的,再回首,我...
    文章 2019-11-08 1960浏览量
  • 车联网上云最佳实践(二)

    我们公司运维大部分时间还是处于人肉运维,脚本运维时代,运维自动化程度低,原因一是公司业务发展太快,运维人员每天大部分时间不是在处理应用升级就是在解决系统故障,根本没有时间去做运维自动的工作。...
    文章 2018-08-22 2591浏览量
  • 为什么这个92年的小哥从实习生到P8级技术Leader只用了...

    云原生弹性容量技术架构主要由画像系统和AutoScaler的组成的多层封闭负反馈控制系统,画像系统通过大数据技术和机器学习算法实现了应用的最规划,AutoScaler根据画像分析的应用画像来执行多级HPA变更和VPA变更。...
    文章 2020-07-09 3653浏览量
  • 【工业智能】人工智能真的无所不能吗?

    都是针对一个静态的控制过程,并且参数往往基于安全值控制的角度来进行,那么,这并非是最的,而是最安全可靠的,而在动态的变化中,如加速、减速过程、快速工艺切换的过程中,这些都会造成浪费,如何在系统中为...
    文章 2020-04-15 449浏览量
  • Java应用性能调

    图 2 中 15 分钟负载已经高达 57.18,1 分钟负载是 63.66(系统为 16 核),说明系统出现负载问题,且存在进一步升高趋势,需要定位具体原因了。通过 vmstat 命令可以查看 CPU 的上下文切换次数,如图 3 所示:图 3....
    文章 2018-06-28 831浏览量
  • DevOps发布策略简介

    优势:用户体验影响比较小,不需要停机发布能够控制发布风险劣势:发布时间会比较长需要复杂的发布系统和负载均衡器需要考虑新旧版本共存时的兼容性适用场景:适合可用性较高的生产环境发布4 蓝绿发布蓝绿部署是指有...
    文章 2021-07-06 3590浏览量
  • 《NX-OS与Cisco Nexus交换技术:下一代数据中心架构...

    很多原因都可能会导致多个物理端口之间出现非等价流量分发,如配置了次优负载均衡算法或者链路条数不是2的整数次幂(如3条)。因而一种好的处理方式是,经常验证流量是否在所有可用成员上实现了负载均衡。此时,可以...
    文章 2017-05-02 1494浏览量
  • Service Mesh 高可用在企业级生产中的实践

    当整个系统中某些服务产生故障时,如果不及时采取措施,这种故障就有可能因为服务之间的互相访问而被传播开来,最终导致故障规模的扩大,甚至导致整个系统奔溃,这种现象我们称之为“雪崩”。熔断降级其实不只是服务...
    文章 2020-06-03 312浏览量
  • 核桃编程:前端可观测性建设之路

    这样通过调用的时间轴,可以知道是网络传输还是后端调用导致请求耗时时间过长,进一步通过后端应用的线程剖析功能,可以洞察每次请求后端的完整调用链路,对于排查系统故障和性能瓶颈带来了非常大的帮助。...
    文章 2021-01-22 4172浏览量
  • 大促场景系统稳定性保障实践经验总结

    第三位分享嘉宾是阿里云智能解决方案架构师鹿玄,他经历过大型分布式系统的开发和维护,并在云计算、云原生等领域有多年从业经验,对系统架构选型,问题排查和性能调有着丰富的实战经验,致力于通过云原生架构转型...
    文章 2020-11-12 6669浏览量
  • 阿里巴巴DevOps实践指南(二十二)|发布策略

    优势:用户体验影响比较小,不需要停机发布能够控制发布风险劣势:发布时间会比较长需要复杂的发布系统和负载均衡器需要考虑新旧版本共存时的兼容性适用场景:适合可用性较高的生产环境发布蓝绿发布蓝绿部署是指有两...
    文章 2021-07-06 317浏览量
  • 大数据相关术语(2)

    36.数据冗余(data redundancy)数据冗余是指同一个数据在系统中多重复出现。在文件系统中,由于文件之间没有联系,有时一个数据在多文件中出现;而数据库系统则克服了文件系统的这种缺陷,但仍然存在数据冗余问题。...
    文章 2015-04-28 1117浏览量
  • 数据中心发电机组的选择标准

    因此发电机组生产商必须有一个经验丰富的工程团队,设计通过中间冷却器和二回路的方法,在更高的楼层或屋顶安装远程冷却系统。如在阿里巴巴集团数据中心,HIMOINSA公司提供24 MW备用电源,设计有一个远程冷却系统...
    文章 2017-07-03 2646浏览量
1 2 3 4 ... 9 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化