• 如何设计高可用系统故障隔离

    减少或不要对低级别系统的依赖这个是一种依赖原则,因为高级别系统的可用性标准(可用率、性能等)一般是高用于低级别系统的,如果依赖于低级别系统,当它发生故障时,高级别系统会故障。这样本本质上是将高级将系统...
    文章 2019-08-06 1072浏览量
  • 阿里搜索事业部故障快速恢复实践

    一个故障一般是由一连串的问题导致,每个环节都出了问题才导致一个严重的故障。我们选择做故障的action时有时候有个倾向,就是加监控。这几乎是个万能的action,但是这背后其实有个隐含的依赖,就是人处理这些...
    文章 2018-03-16 2663浏览量
  • 数据中心“容灾”和“备份”的区别

    数据容灾是最基础的手段,指通过建立异地容灾中心,做数据的远程备份,在灾难发生之后要确保原有的数据不会丢失或者遭到破坏,但在数据容灾这个级别,发生灾难时应用是中断的。可以简单的把这种容灾方式理解成...
    文章 2019-12-17 5186浏览量
  • 硬盘故障巧维修

    总的来说,硬盘一般不会轻易出现什么故障,但一旦出现就是不可估量的损失。因此希望朋友们还是平时注意系统的备份和维护,同时加强病毒监测,最大限度的保证硬盘工作的稳定性。本文转自 song8575 51CTO博客,原文...
    文章 2017-11-12 968浏览量
  • 这些常见的网络故障,你都知道如何解决吗

    一般情况下,网卡出现故障的可能性比较小,因此将重点放在对集线器的排除方面。故障解决 更换集线器,网络恢复正常。故障 4:升级至千兆网络之后,服务器连接时断时续 故障现象 原先服务器采用10/100Mbit/s网卡,...
    文章 2018-10-25 1427浏览量
  • 高可用系统设计精要:定个能达到的小目标,比如先读完...

    系统级故障 – 包括主机、操作系统、中间件、数据库、网络、电源以及外围设备;数据和中介的故障 – 包括人员误操作、硬盘故障、数据乱了;还有:自然灾害、人为破坏、以及供电问题。有计划的 日常任务:备份,...
    文章 2017-05-02 1417浏览量
  • 云计算网络基础架构的实践和演进——打造云计算网络...

    标号3:汇聚交换机的故障一般情况下汇聚交换机采用堆叠的方式,可能会出现堆叠的分裂以及单台设备的故障,也可能出现整个端口流量上行的带宽减半或者是分裂以后导致等一些不可预期的后果,因此需要及时检测出一些...
    文章 2017-04-24 18745浏览量
  • 《架构师》反思:系统可靠性

    故障的级别有:逻辑级故障、数据结构级故障、软件故障和差错故障系统级故障。可靠性模型 与故障模型想对应的,就是系统的可靠性模型。常用的有以下三种:时间模型、故障植入模型和数据模型。这三种模型暂时还没有...
    文章 2016-05-05 4854浏览量
  • golang 服务大量 CLOSE_WAIT 故障排查

    【tcpdump 包分析】我们准备好 tcpdump 脚本,定期抓取 tcp 包,现在就在等故障出现了,因为故障一定还会出现。果然在30号下午又出现了,我们一阵激动准备分析dump文件,但是端口抓错了,_sidecar_和程序都是本机...
    文章 2020-01-26 1096浏览量
  • IBM和SAP合力打造美国的物联网时代

    在弹性方面,IBM Power Systems的默认架构支持一系列企业可靠性功能,包括可在系统出现故障时实现高效故障转移的虚拟化开箱即用。主动警告企业的问题,以便他们可以在故障发生前启动纠正措施。在分析物联网应用...
    文章 2017-07-03 865浏览量
  • 没有服务台,就没有ITSM

    IT运维管理软件通过提供服务台,帮助IT部门建立系统而全面的服务台处理机制,在IT也业务之间搭建起一座沟通的桥梁,首先为所有的故障处理提供了一个统一的入口,然后在通过服务台对故障请求进行有有效有序的分发,...
    文章 2017-11-12 1144浏览量
  • 阿里双11网络技术揭秘:百万物理和虚拟网络设备的...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2018-01-05 4849浏览量
  • 利用AX产品提升DNS服务器可用性和安全性的一种有效...

    通常在服务器或网络层设备上启用IP anycast是无法做到应用层的健康监测的,只要网络层可达,IP anycast的OSPF路由就有效,这样就会出现当DNS进程或应用层出现问题时,依然会有DNS请求被分配到这些有问题的服务器上,...
    文章 2017-11-14 1096浏览量
  • Linux系统的中断、系统调用和调度概述【转】

    版权声明:本文为博主原创文章...一般,为了保证系统的性能,临界区都很小,并且不会经常出现。本文转自张昺华-sky博客园博客,原文链接:http://www.cnblogs.com/sky-heaven/p/5746732.html,如需转载请自行联系原作者
    文章 2017-11-14 949浏览量
  • 阿里云文件存储(NAS)助力业务系统承载双十一尖峰...

    多台ECS通过NFSv4挂载同一个文件系统,每个ECS使用到一个文件系统里的多个子目录作为消息文件的存储空间,虽然解决了前述的容灾问题,但这个架构的问题是过于依赖单点的存储,万一单文件系统发生故障,所有消息...
    文章 2018-11-27 2032浏览量
  • 基础设施助力双11(十):百万物理和虚拟网络设备的...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2019-07-31 933浏览量
  • 轻松应对双11,百万物理和虚拟网络设备的网络智能化...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2017-12-14 1853浏览量
  • 有货:六层混合云架构打造中国最潮生态圈

    如果没有命中,网关层调用后端服务,从服务中返回数据,在这个过程中如果服务出现故障无法访问时,网关访问二缓存,因为二缓存是用于容灾处理,所以二缓存的时间非常长,数据保存24小时。图六 服务层 服务...
    文章 2016-03-31 13946浏览量
  • 阿里如何做好双11技术保障?大队长霜波分享4点经验

    我回去之后想了解为什么在2011年的时候会出现这样的情况,必须在零点的时候通知商品下架,后来知道了那一年出现了一个功能性的错误。虽然之前我们做了很多的验证操作,但是在那天晚上8点的时候,收到商家反馈,说他...
    文章 2021-01-06 370浏览量
  • 《Akka应用模式:分布式应用程序设计实践指南》读书...

    可用性则要求在出现故障时可以找到缓解故障的方法,尽可能快的恢复系统。微服务和单体式应用 应用程序一般由两种构建方法:单体式架构、微服务架构。一般处于二者中间状态。单体式应用程序是指把所有组件都部署为...
    文章 2018-06-14 1724浏览量
  • 阿里如何做好双11技术保障?大队长霜波分享4点经验

    我回去之后想了解为什么在2011年的时候会出现这样的情况,必须在零点的时候通知商品下架,后来知道了那一年出现了一个功能性的错误。虽然之前我们做了很多的验证操作,但是在那天晚上8点的时候,收到商家反馈,说他...
    文章 2021-01-06 2586浏览量
  • 万亿数据洪峰下的分布式消息引擎

    对于前者,通过运维管控系统推送应用自身QoS数据,一般会输出如下表格。而引擎组件的服务QoS,如服务于消息问题追溯的链路轨迹组件,对于核心功能来说,定级相对较低,可在洪峰到来之前提前关闭。谈到熔断,不得不提...
    文章 2017-02-07 7075浏览量
  • 首次揭秘!​春晚活动下快手实时链路保障实践

    重要作业实现多集群的部署,出现问题秒切换。(实时大屏详细介绍) 最后一个就是工程的管理。工程管理的关键是时间线预案,主要是指导我们在什么时间点该做什么事情,贯穿整个项目开发。下面简单描述了下春晚的...
    文章 2020-06-29 524浏览量
  • 云原生时代,企业多活容灾体系构建思路与最佳实践

    第二,5 分钟定位,原来同城的比如冷备容灾技术,往往做决策非常费劲,或者谁做切换要承担后果,我们更希望基于这个平台能直观看到今天故障影响的情况,相关对应出现什么问题干系人需要做什么样的动作,或者做什么...
    文章 2021-07-02 5360浏览量
  • 【双11背后的技术】万亿数据洪峰下的分布式消息引擎

    对于前者,通过运维管控系统推送应用自身QoS数据,一般会输出如下表格。而引擎组件的服务QoS,如服务于消息问题追溯的链路轨迹组件,对于核心功能来说,定级相对较低,可在洪峰到来之前提前关闭。谈到熔断,不得不提...
    文章 2017-01-12 5726浏览量
  • HBase可用性分析与高可用实践

    由于分布式系统中必然存在网络分区,所以对于分布式系统而言,一般分为CP系统和AP系统。也就是说,如果出现故障了,到底是选择可用性优先(AP)呢?还是选择一致性优先(CP)?2.HBase的CAP权衡 HBase作为分布式数据库...
    文章 2020-04-27 677浏览量
  • 为数据保驾护航,BIWIN佰维断电保护企业SSD

    会出现固态硬盘无法被系统识别,只能通过返厂维修,而返厂后是通过重新开卡(初始化硬盘)的方式进行维修,用户数据全部丢失是必然的。如何实现断电保护 断电保护愈加成为企业用户关注重点,通过断电保护架构,在...
    文章 2017-07-03 1322浏览量
  • Windows XP \Windows 2003启动过程的学习及故障分析...

    如果你已经安装了一个高版本的操作系统,那么如果再想安装一个低版本的操作系统,那么低版本的操作系统在安装后会出现无法进入原来高版本的操作系统故障。问题的原因高版本的引导文件被低版本的覆盖了,这样顺序是...
    文章 2017-11-14 1058浏览量
  • 小白如何选择阿里云服务器配置【新手指南】

    选择带宽一般网站访问量不是很大的,比如日均最多只有两三百人的,推荐选择3M左右带宽就足够了,这里重点说下,假如我们网站在每天特殊时间段访问量很高,我们可以选择按量付费,这样我们网站就不会出现因为带宽...
    文章 2020-05-15 896浏览量
  • 小白如何选择阿里云服务器配置【新手指南】

    选择带宽一般网站访问量不是很大的,比如日均最多只有两三百人的,推荐选择3M左右带宽就足够了,这里重点说下,假如我们网站在每天特殊时间段访问量很高,我们可以选择按量付费,这样我们网站就不会出现因为带宽...
    文章 2020-05-15 693浏览量
1 2 3 4 ... 46 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化