• UPS系统的创新研发要契合数据中心供电架构的发展变化

    根据艾默生网络能源发布的《2016年数据中心宕机成本报告》显示,单个数据中心宕机的平均成本从2010年的505502美元增加到2013年的690204美元,再到现在的740357美元,增长率达到38%。同时,最高宕机成本增长更快,从...
    文章 2017-07-03 888浏览量
  • 阿里如何做到百万量级硬件故障自愈?

    对于宕机的机器而言,无法进无盘(ramos)才开【无故宕机】维修工单,这样能够大量地减少误报,减少服务台同学负担。无盘中的压测可以完全消除当前版本的kernel或软件的影响,真实地判断出硬件是否存在性能问题。b....
    文章 2018-11-24 3419浏览量
  • 《Ansible权威指南》一 第一篇 Part 1 基础入门篇

    其主要功能是帮忙运维实现IT工作的自动化、降低人为操作失误、提高业务自动化率、提升运维工作效率,常用于软件部署自动化、配置自动化、管理自动化、系统化系统任务、持续集成、零宕机平滑升级等。它丰富的内置模块...
    文章 2017-05-02 1484浏览量
  • 阿里如何做到百万量级硬件故障自愈?

    对于宕机的机器而言,无法进无盘(ramos)才开【无故宕机】维修工单,这样能够大量地减少误报,减少服务台同学负担。无盘中的压测可以完全消除当前版本的kernel或软件的影响,真实地判断出硬件是否存在性能问题。b....
    文章 2018-11-19 2921浏览量
  • 多维防护:虚拟化安全挑战的破解之道

    成为H3Cloud CAS虚拟化软件的Hypervisor层的标准化安全模块,通过病毒防护、访问控制、入侵检测/入侵防护、虚拟补丁等功能,实现宿主机和虚拟机的全面防护,从而构建CAS虚拟化平台的全方位综合防护,并满足信息系统...
    文章 2018-04-16 1490浏览量
  • 架构设计基础:单服务.集群.分布式,基本区别和联系

    絮叨一句:所谓Java架构师,基本就是看被单服务,集群,分布式不断暴打的频率,架构师因为被虐频率高,自然做出来的系统架构坑少,新手不能做架构的原因,所以你该懂的。言归正传,分布式架构对于Java开发来说基本...
    文章 2020-04-17 881浏览量
  • 阿里巴巴DevOps实践指南(二十)|业务系统安全工程

    5 月 13 日,特斯拉服务系统宕机,市值一夜间蒸发 2800 亿。6 月 3 日苹果 iCloud 云存储服务器故障,用户无法登录。8 月 27 日,思科员工删除虚拟机,导致思科损失 1600 万。12 月 25 日,谷歌服务全球性宕机。频发...
    文章 2021-07-06 203浏览量
  • 《架构师》反思:系统可靠性

    但是可能会导致“单点错”,即系统中某一部件或某个应用程序发生故障时,导致所有系统全部宕机。如磁盘阵列如果出错,可能会导致存储的数据全部丢失。特点:性能较高、可能导致单点错误。(3)光纤通道双机双控集群...
    文章 2016-05-05 4831浏览量
  • 数百万台车联网设备同时在线0故障,中瑞集团的云原生...

    但在这种情况下,RocketMQ集群处于一种比较脆弱的状态,需要使用者想办法进行系统性的补救,以确保在下一次出现节点宕机的时候,RocketMQ集群依然能够稳定得运行。比如当一个Master Broker节点出现故障后,虽然Slave...
    文章 2020-10-28 5018浏览量
  • 万字长文剖析AliSQL X-Cluster|基于X-Paxos的高性能...

    如上图所示,一个三节点的X-Cluster集群,左边的Case是原Leader A节点宕机,因此B节点和C节点会在较长的时间内收不到Leader的心跳,因此在一个选举超时周期后,B节点开始尝试推选自己为Leader,并且C节点同意,那么B...
    文章 2017-08-10 5919浏览量
  • 读《大型网站技术架构》

    2)服务器越多,宕机的概率越大 常用的分布式方案: 1)分布式应用和服务;2)分布式静态资源;3)分布式数据和存储;4)分布式计算;5)分布式配置、分布式锁、分布式文件系统。集群,即多台服务器部署相同的应用,...
    文章 2017-04-09 969浏览量
  • 微服务(Microservices)—Martin Flower【翻译】...

    把服务当成组件(而不是组件库)的一个主要原因是,服务可以独立部署。如果你的应用程序是由一个单独进程中的很多库组成,那么对任何一个组件的改变都将导致必须重新部署整个应用程序。但是如果你把应用程序拆分成很...
    文章 2016-05-05 4331浏览量
  • 企业级自动化运维工具方案设计

    自动化运维是基于流程化的框架,将事件与IT流程相关联,一旦被监控系统发现性能超标,超过预先配置的阀值或宕机,就会触发相关事件以及事先定义好的流程,可自动启动故障响应和恢复机制。自动化工作平台还可帮助运维...
    文章 2019-12-13 1978浏览量
  • 系列文章:云原生Kubernetes日志落地方案

    环境的动态性变强,在Kubernetes中,机器的宕机、下线、上线、Pod销毁、扩容/缩容等都是常态,这种情况下日志的存在是瞬时的(例如如果Pod销毁后该Pod日志就不可见了),所以日志数据必须实时采集到服务端。...
    文章 2019-09-08 10859浏览量
  • 《Spark大数据分析:核心概念、技术及实践》一 第1章 ...

    HDFS基于通常机器可能宕机这个假设而设计,所以可以处理集群中一台或多台机器的宕机问题。一个HDFS集群包含两种类型的节点:NameNode和DataNode(见图1-3)。Name-Node管理文件系统的命名空间,存储一个文件的所有元...
    文章 2017-05-02 1083浏览量
  • 数百万台车联网设备同时在线 0 故障,中瑞集团的云...

    以确保在下一次出现节点宕机的时候&xff0c;RocketMQ集群依然能够稳定得运行。比如当一个Master Broker节点出现故障后&xff0c;虽然Slave Broker节点依然可以承担消息收发的任务&xff0c;而且RocketMQ的消息同步机制确保了...
    文章 2021-09-08 246浏览量
  • 6 个 K8s 日志系统建设中的典型问题,你遇到过几个?

    环境的动态性变强,在 Kubernetes 中,机器的宕机、下线、上线、Pod销毁、扩容/缩容等都是常态,这种情况下日志的存在是瞬时的(例如如果 Pod 销毁后该 Pod 日志就不可见了),所以日志数据必须实时采集到服务端。...
    文章 2019-09-18 4442浏览量
  • 走近伏羲,谈5000节点集群调度与性能优化

    从伏羲Master的角度,在故障恢复时刚刚读取的Checkpoint内容在Nuwa服务器端是不会发生改变的,因此读取Checkpoint后没有必要回写到服务器端,只需要通知本地的Nuwa Agent让其代理即可,Agent会负责服务器宕机重启时...
    文章 2016-12-18 4313浏览量
  • 服务器建设选择阿里云

    还有,遇到宕机的时候,我们还需要为每个硬件准备冗余,部署与维护成本成本就上去了。同时,增减硬件也是挺麻烦的,带宽也是。有时候需要临时搞活动,硬件需要购置时间。带宽也不能提升,因为我这边的ISP服务商签约...
    文章 2020-07-03 308浏览量
  • 硅谷独角兽公司的监控系统长啥样?

    我们的运维指标总体想达到99.9%,意味着一个月之内最多有43分钟的时间是宕机的。为了达到这个指标,我们的运维团队和软件开发人员要使用很多工具,我所在的团队目标就是给他们开发这类工具的。组成与衍变 接下来讲...
    文章 2018-01-23 2994浏览量
  • 五分钟学后端技术:一篇文章告诉你什么是云计算!

    所以一台服务器上的容器是共享操作系统内核的,容器在不同机器之间的迁移不带内核,这也是很多人声称容器是轻量级的虚拟机的原因。轻不白轻,自然隔离性就差了,一个集装箱把船压漏水了,所有的集装箱一起沉。另一个...
    文章 2020-04-02 2500浏览量
  • 带你读《企业私有云建设指南》之二:企业云计算涉及的...

    高可用性即在硬件出问题时保证虚拟机的正常工作,当然如果真的出错了,则只能在不同的ESXi主机上启动虚拟机,这也可能造成服务的中断。FT(容错)的主要功能就是保证在出现故障时用户的应用不会出现中断。其原理就是...
    文章 2019-10-31 2684浏览量
  • 评审技术在高质量软件开发中的应用分析(下)

    五个九(99.999%)意味着一个系统的宕机时间一年不超过5分26秒。因此高质量软件项目是一种对可用性、可靠性、稳定性要求非常高的软件项目,要求软件能够每周7*24工作。因此高质量软件开发一般采用严格的软件开发过程...
    文章 2017-07-03 1822浏览量
  • 评审技术在高质量软件开发中的应用分析(下)

    五个九(99.999%)意味着一个系统的宕机时间一年不超过5分26秒。因此高质量软件项目是一种对可用性、可靠性、稳定性要求非常高的软件项目,要求软件能够每周7*24工作。因此高质量软件开发一般采用严格的软件开发过程...
    文章 2017-07-03 893浏览量
  • 走近华佗,解析自动化故障处理系统背后的秘密

    也可能Kernel出现类似208天的问题(Linux Kernel著名的一个Bug:系统连续运行208.5天自行重启),引起机器大批量的宕机。基于以上考虑,结合华佗自我保护机制,华佗引入Quota管理和手工驾驶,即当故障率超过华佗预设...
    文章 2016-12-18 4668浏览量
  • 流量暴增,掌门教育如何基于 Spring Cloud Alibaba ...

    节点宕机:其中某个节点宕机,其任务转移到其它节点,因为有虚拟节点的缘已经故,所以此节点的任务会均衡 ReSharding 到其它节点,那么,集群在任何时候,任务处理都是分片均衡的,如上图 2 中,B 节点宕机,#1、#2 ...
    文章 2020-09-10 692浏览量
  • Spring Cloud Alibaba发布第二个版本,Spring 发来...

    不管是 SchedulerX 服务端还是客户端都是分布式架构设计,任务可以在多台客户端机器里的任何一台机器执行,如果客户端出现宕机的情况,服务端会自动选择正常运行的客户端去执行 Job,每个 Job 在服务端的不同机器均...
    文章 2018-12-28 3794浏览量
  • 【内含干货PPT下载】DTCC 2020|阿里云王涛:阿里巴巴...

    使用ECS还可以在宕机后,10分钟内原地拉起一台数据库,迁移恢复。基于下图中几方面的考虑,在对比了物理机,虚拟机KVM,裸金属服务器ECS之后,阿里巴巴选择了裸金属服务器。运维自动化方面裸金属服务器支撑分钟级...
    文章 2021-01-06 2023浏览量
  • 饿了么交付中心语言栈转型总结

    上表格是业界服务高可用的几个级别的衡量标准,例如:服务可用性是3个9时,全年宕机时长约为8.76天的统计概率。另外,我们需要明确的是不同的系统,不同的场景以及不同的用户规模对系统可用性要求是不一样的。如:...
    文章 2019-11-08 2430浏览量
  • 读《SRE:Google运维解密》一点思考

    SRE在Google不负责某个服务的上线、部署,SRE主要是保障服务的可靠性和性能,同时负责数据中资源分配,为重要服务预留资源,SRE并不负责某个业务逻辑的具体编写,主要负责在服务出现宕机等紧急事故时,可以快速作出...
    文章 2019-12-16 2807浏览量
1 2 3 4 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化