• 阿里巴巴DevOps实践指南(二十)|业务系统安全工程

    5 月 13 日,特斯拉服务系统宕机,市值一夜间蒸发 2800 亿。6 月 3 日苹果 iCloud 云存储服务器故障,用户无法登录。8 月 27 日,思科员工删除虚拟机,导致思科损失 1600 万。12 月 25 日,谷歌服务全球性宕机。频发...
    文章 2021-07-06 333浏览量
  • 智能、互联时代的应用运维——《应用智能运维实践...

    汽车的电子车身稳定装置、加速防滑控制系统、防抱死制动系统、刹车辅助系统等可实现车端控制&xff0c;简化用户的操控&xff1b;某些高端车提供的通过手机App控制锁车、开关车窗和空调等的控制能力提升了用户体验&xff1b;...
    文章 2021-07-06 441浏览量
  • 蚂蚁智能监控

    compute-space(cspace)为一个抽象的计算能力资源池,负责对gs投递过来的任务拓扑进行解析执行以产出数据,写入存储系统,并将任务状态反馈给 gs,cspace 并不与具体的数据计算资源池绑定,底层的实现可以是任意...
    文章 2021-09-07 214浏览量
  • 饿了么交付中心语言栈转型总结

    上表格是业界服务高可用的几个级别的衡量标准,例如:服务可用性是3个9时,全年宕机时长约为8.76天的统计概率。另外,我们需要明确的是不同的系统,不同的场景以及不同的用户规模对系统可用性要求是不一样的。如:...
    文章 2019-11-08 2800浏览量
  • 一文看懂 kafka 机制

    或选择第一个“活”过来的Replica(不一定是ISR中的)作为Leader),这个broker宕机的事情,kafka controller也会通知zookeeper,zookeeper就会通知其他的kafka broker。如果这个kafka broker controller宕机了,在...
    文章 2018-07-09 8160浏览量
  • Uber是如何使用MySQL设计可扩展性数据存储的?

    所有的三个系统都可以通过在线增加节点线性扩容,只有一对系统可以在宕机时收到写操作。所有的解决方案中都没有内置的方式将变化通知下游依赖,因此可能需要在应用层实现该功能。它们都有索引功能,但是如果你想索引...
    文章 2017-05-02 1924浏览量
  • 主动出击+协同对敌 CA教你如何打赢用户体验保卫战

    CA应用体验分析工具基于一个开放、灵活、大规模的分析平台,以独特的方式将用户行为与运营表现结合,协助组织通过简单易用的单一控制面板,提供解决方案的热点图、应用流以及宕机分析,有助于组织快速区分表现较差的...
    文章 2017-09-02 1376浏览量
  • 数百万台车联网设备同时在线0故障,中瑞集团的云原生...

    但在这种情况下,RocketMQ集群处于一种比较脆弱的状态,需要使用者想办法进行系统性的补救,以确保在下一次出现节点宕机的时候,RocketMQ集群依然能够稳定得运行。比如当一个Master Broker节点出现故障后,虽然Slave...
    文章 2020-10-28 7470浏览量
  • 带你读《智能制造之卓越设备管理与运维实践》之一:...

    内燃机的发明解决了交通工具的发动机问题,运输类设备迎来了巨大的发展空间。在20世纪50年代之前,设备主要依靠电力或内燃机提供动力。随着技术的改良和进步,设备效率不断提升,加工速度不断提高。但制造过程中,...
    文章 2019-11-08 2023浏览量
  • DevOps发布策略简介

    因为部署间隔时间长,将会导致每次的部署包含更多的代码变更,结果就是出现更多缺陷和宕机的风险。这种情况下,人们为了降低发布风险,会倾向于增加更多的评审,事实上这除了大大增加部署时间外,对降低发布风险的...
    文章 2021-07-06 3853浏览量
  • 读书笔记 之《软件架构设计:大型网站技术架构与业务...

    但这个内存只是一个"逻辑地址",实际读写的是 内核缓冲区2)零拷贝零拷贝(Zero Copy)又是提升 I/O 效率的一大利器,在平时有问到 Kafka 是如何做到读写那么快的时候,其中一个很大的原因便是 Kafka 用到了零拷贝...
    文章 2022-06-05 36浏览量
  • 数百万台车联网设备同时在线 0 故障,中瑞集团的云...

    以确保在下一次出现节点宕机的时候&xff0c;RocketMQ集群依然能够稳定得运行。比如当一个Master Broker节点出现故障后&xff0c;虽然Slave Broker节点依然可以承担消息收发的任务&xff0c;而且RocketMQ的消息同步机制确保了...
    文章 2021-09-08 314浏览量
  • 蚂蚁超大规模分布式系统稳定性体系实践

    这就需要我们的核心系统具备在单数据库宕机的情况下快速恢复的能力&xff0c;我们称之为failover能力&xff0c;每个核心系统都基于数据中间件研发了一套适配自己业务的应用层failover能力&xff0c;可以在一个数据库故障的...
    文章 2022-04-12 229浏览量
  • Zookeeper笔记3——原理及其安装使用

    4.集群管理:应用集群中,我们常常需要让每一个机器知道集群中(或依赖的其他某一个集群)哪些机器是活着的,并且在集群机器因为宕机,网络断链等原因能够不在人工介入的情况下迅速通知到每一个机器。或者有新的机器...
    文章 2018-01-25 1280浏览量
  • 带你读《C++代码整洁之道:C++17 可持续软件开发模式...

    试想一下,一旦飞机的控制系统出现异常,很可能导致成百上千的人死于空难,而引发事故的原因可能只是飞机自动巡航系统的if语句条件判断错误。在这种复杂的控制系统中,软件的质量是没有任何商量余地的,完全没有商量...
    文章 2019-11-01 1387浏览量
  • DDD战略篇:架构设计的响应力

    比如Netflix公司采用的Chaos Monkey机制随机主动关停线上服务而不会造成整个服务生态宕机的作法更多的是在测试系统的健壮性,保证不会因为某个局部的问题而造成全身瘫痪。然而架构的健壮性却比较难于定义和测试,以...
    文章 2017-10-31 5374浏览量
  • 阿里云基础产品技术月刊 2019年3月

    阿里云日志服务是面向日志类数据的智能化一站式平台,针对AIOps场景,新增面向趋势预测、异常发现、智能聚类、根因分析(推导)等4个高频场景系列函数,从异常的识别、分析的过程到最后的原因定位均有涉及,通过这些...
    文章 2019-04-11 4650浏览量
  • Kafka 分区

    宕机的重新恢复时,会把之前commit的数据清空,重新从leader⾥pull数据。全部副本宕机当全部副本宕机了有两种恢复⽅式等待ISR中的⼀个恢复后,并选它作为leader。(等待时间较⻓,降低可⽤性)选择第⼀个恢复的...
    文章 2022-05-30 24浏览量
  • 阿里10年:一个普通技术人的成长之路

    我接手后首先建设了一个资源生命周期管理系统,使所有新资源的申请全部经过系统,并且对已有资源发起盘点和认领,所有资源设置有效期,到期后可以续租或释放,系统还会定期巡检资源的使用情况,再配合宕机回收、闲置...
    文章 2020-12-09 11349浏览量
  • 阿里 10 年:一个普通技术人的成长之路

    我接手后首先建设了一个资源生命周期管理系统,使所有新资源的申请全部经过系统,并且对已有资源发起盘点和认领,所有资源设置有效期,到期后可以续租或释放,系统还会定期巡检资源的使用情况,再配合宕机回收、闲置...
    文章 2020-12-21 1232浏览量
  • 不可见世界的掘金者,如何改变中国机床行业下半生?

    从而减少意外宕机、提高产品良率、降低刀具成本。但问题在于&xff0c;中国机床行业单靠自身力量实现智能化转型&xff0c;极为乏力&xff0c;这也是在为曾经的历史支付代价。早期的机床行业基于专业分工思路&xff0c;诞生了当时...
    文章 2021-12-02 40浏览量
  • kafka、zookeeper 集群(一)

    kafka的设计初衷是希望作为一个统一的信息收集平台,能够实时的收集反馈信息,并需要能够支撑较大的数据量,且具备良好的容错能力. 1、持久性 kafka使用文件存储消息,这就直接决定kafka在性能上严重依赖文件系统的本身...
    文章 2017-11-26 1205浏览量
  • 6位大咖坐在一起聊了聊:龙蜥社区做了什么、以及能...

    怎么能够减少宕机时间&xff0c;对每个用户都非常重要。传统上来说&xff0c;大家可能通过一些软件公司的方法来减少做操作系统或者做其他任何软件的故障率。现在的操作系统这么复杂&xff0c;而且在一个不同的环境有各种各样...
    文章 2021-11-17 179浏览量
  • 云栖回顾|龙蜥论坛圆桌环节都有哪些精彩观点?

    怎么能够减少宕机时间&xff0c;对每个用户都非常重要。传统上来说&xff0c;大家可能通过一些软件公司的方法来减少做操作系统或者做其他任何软件的故障率。现在的操作系统这么复杂&xff0c;而且在一个不同的环境有各种各样...
    文章 2021-11-01 66浏览量
  • 应用运维智能化的关键技术——《应用智能运维实践...

    其中包括用于主动发现图4-1 常见的应用智能运维场景潜在风险的应用运行期风险主动探伤、用户数字体验保障与优化、风险定位与根源问题分析&xff0c;以及应用运行期负载趋势预测与容量规划等。围绕这些场景&xff0c;我们...
    文章 2021-07-06 593浏览量
  • Pinterest架构:两年内月PV从零到百亿

    集群管理算法是一个 SPOF 单点故障,如果有个 bug 影响每个节点,这可能会宕机 4 次。集群管理器编码复杂,有如下一些失败的模式: 数据重新均衡中断:当一个新机器加入然后数据开始复制,它被卡住了。你做什么工作?...
    文章 2017-05-02 1956浏览量
  • 如何建设移动 DevOps?

    3)高标准的SLA,实时在线,永不宕机高标准SLA既是对客户的承诺,也是对阿里云品牌的敬畏。可扩展性1)应用架构多样化导致的构建流程差异大专有云客户数量有限,而且有完善的KA客户技术支持服务,所以应用的差异有限...
    文章 2020-11-27 1987浏览量
  • 独家专访阿里云存储负责人吴结生:我经历的三个重大...

    客户把身家性命都放到了阿里云上面,我们肯定要通过技术和服务给他提供一个永不宕机的系统,这是我们的责任。哪怕是3年后的今天,整个阿里云存储团队都对这个月份记忆犹新。他们甚至会反复将这些案例告诉新来的同学...
    文章 2022-02-17 636浏览量
  • EMAS 移动 DevOps 解决方案 —— Mobile DevOps

    高标准的SLA,实时在线,永不宕机高标准SLA既是对客户的承诺,也是对阿里云品牌的敬畏。3)可扩展性 应用架构多样化导致的构建流程差异大专有云客户数量有限,而且有完善的KA客户技术支持服务,所以应用的差异有限且...
    文章 2020-11-27 7098浏览量
  • 独家专访阿里巴巴高级研究员吴结生:我经历的三个重大...

    客户把身家性命都放到了阿里云上面,我们肯定要通过技术和服务给他提供一个永不宕机的系统,这是我们的责任。哪怕是 3 年后的今天,整个阿里云存储团队都对这个月份记忆犹新。他们甚至会反复将这些案例告诉新来的...
    文章 2022-04-19 101浏览量
1 2 3 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化