• 如何快速处理线上故障【转】

    故障定位的初期,一般会先通过邮件+电话的方式进行沟通,如果几分钟之后事态变糟糕,且没有眉目,则需要紧急启动会议形式的联合排障,所有相关人员需要放下手头事情,集中到一个特定会议室进行联合排障。这样的好处...
    文章 2017-11-16 1536浏览量
  • 浅析单点故障以及云上高可用和容灾

    这里的可用性,我们通常用平均无故障时间来度量,可以说平均运行多长时间才发生一次故障,也可以以平均一个周期内非故障时间与总时间的比例来表示。容灾 DR(Disaster Recovery)。字面意思是灾难恢复。在云上环境...
    文章 2017-09-27 4886浏览量
  • 分布式监控系统Zabbix3.2给异常添加邮件报警

    在邮件发送时,按上面的sendmail.sh中的写可能会出现zabbix邮件内容为附件和zabbix图中出现中文乱码问题。下面是参考园友的解决方法: 安装zabbix之后,设置邮件脚本报警的时候,发送的报警内容变成了tcmime.1278....
    文章 2017-11-14 1132浏览量
  • 高可用系统设计精要:定个能达到的小目标,比如先读完...

    这个方案一般会伴随着节点间的“心跳机制”,而且还会动用到SAN(Storage Area Network)或是本地的分布式存储系统,还会动用虚拟化技术来做虚拟机的迁移以降低宕机时间的概率。这个解决方案完全就是一个“全栈式的...
    文章 2017-05-02 1484浏览量
  • Linux 服务器故障排除的前五分钟(First 5 Minutes ...

    故障影响的特定用户群是什么样的(已登录的,退出的,某个地域的…)?基础架构(物理的、逻辑的)的文档是否能找到?是否有监控平台可用?(比如Munin、Zabbix、Nagios、New Relic…什么都可以) 是否有日志可以查看?...
    文章 2017-11-07 1190浏览量
  • 《架构师》反思:系统可靠性

    一说到集群,一般会想到使用它来为应用程序提供一种可扩展的高性能设计。但是集群同时还可以为应用程序提供较高的容错能力。以下是集群的分类: 高性能计算科学集群、负载均衡集群、高可用性集群 在实际应用中,这三...
    文章 2017-11-08 1017浏览量
  • 《架构师》反思:系统可靠性

    一说到集群,一般会想到使用它来为应用程序提供一种可扩展的高性能设计。但是集群同时还可以为应用程序提供较高的容错能力。以下是集群的分类: 高性能计算科学集群、负载均衡集群、高可用性集群 在实际应用中,这三...
    文章 2016-05-05 4907浏览量
  • checking file system on win7开机自检

    前一次使用没有正常关机计算机,再次从启会出现硬盘检查 硬盘问题引起 或系统问题引起 解决方法: 出现checking file system on 提示时 一直连按S键 可进入电脑桌面 打开注册表的方法 点击“开始”→“运行”菜单项...
    文章 2016-03-10 2506浏览量
  • 万亿级数据洪峰下的分布式消息引擎

    对于前者,通过运维管控系统推送应用自身QoS数据,一般会输出如下表格。而引擎组件的服务QoS,如服务于消息问题追溯的链路轨迹组件,对于核心功能来说,定级相对较低,可在洪峰到来之前提前关闭。谈到熔断,不得不提...
    文章 2017-02-07 7157浏览量
  • 硬盘SMART参数解释

    Disk Shift 盘体偏移,通常由强烈的撞击或坠落造成.-_-|*一般来说,大家只要注意红色的记录看上去正常,那么硬盘将来一段时间一般就不会有什么问题。似乎有的硬盘厂家的盘(好像是WD)一开始用就有 Raw Read Error,...
    文章 2017-11-08 978浏览量
  • MySQL-高可用性:少宕机即高可用?

    在开始这个话题之前,我们先来认识下什么是“故障转移”。有些人用“回退”表示,也有人使用“切换”,以表明一次计划中的切换而不是故障后的应对措施。我们在这里使用“故障恢复”来表示故障转移的反面。如果系统...
    文章 2019-04-29 1105浏览量
  • 【双11背后的技术】万亿级数据洪峰下的分布式消息引擎

    对于前者,通过运维管控系统推送应用自身QoS数据,一般会输出如下表格。而引擎组件的服务QoS,如服务于消息问题追溯的链路轨迹组件,对于核心功能来说,定级相对较低,可在洪峰到来之前提前关闭。谈到熔断,不得不提...
    文章 2017-01-12 5756浏览量
  • linux高可用集群(HA)原理详解

    其中crm由于配置文件是XML格式的,大多数人如果不懂其语法格式的话,可能会出现配置错误。因此crm提供了一个监听端口,可以用其它GUI工具来配置管理集群 Heartbeat V3 版后资源管理器独立出来,而不是作为Heartbeat...
    文章 2017-10-10 1205浏览量
  • 去除高清视频锯齿几个方法

    在使用DV拍摄制作视频时,经常被网友问到一个问题——为什么我拍出的视频在电脑上播放时会出现锯齿现象?有人认识是电脑配置太低,有人认为是摄像机出了故障,有人认为是播放软件有问题。其实这些都不是根本原因,想...
    文章 2018-01-22 1532浏览量
  • 硬盘SMART参数解释

    Disk Shift 盘体偏移,通常由强烈的撞击或坠落造成.-_-|*一般来说,大家只要注意红色的记录看上去正常,那么硬盘将来一段时间一般就不会有什么问题。似乎有的硬盘厂家的盘(好像是WD)一开始用就有 Raw Read Error,...
    文章 2014-12-02 659浏览量
  • NAT环境无法访问云端的深层次分析

    以前从来没有遇到过这种场景,这次故障基于业务线的url监控,系统层级的监控全部没有发现医院出现的访问故障。这个问题也一直持续了很长一段时间,如果这是一个高频,高价值的生产线出现这种故障必定是致命的。未来...
    文章 2019-01-30 5425浏览量
  • 无效告警优化实践总结

    以及为什么会故障。其中“什么东西出故障了”即为现象&xff0c;“为什么”则代表了原因&xff08;可能是中间原因&xff09;现象和原因的区分是构建信噪比高的监控系统时最重要的概念。在实践中&xff0c;想绝对做到这两点几乎...
    文章 2021-11-12 31浏览量
  • 重学计算机组成原理(十二)-异常和中断

    1 概览 完好的程序都满足以下特征 ...它们和我们今天说的中断、陷阱、故障以及中止又有什么关系呢?欢迎留言和我分享你的疑惑和见解。你也可以把今天的内容,分享给你的朋友,和他一起学习和 进步。参考 ...
    文章 2019-10-21 820浏览量
  • Windows Azure HandBook(1)IaaS相关技术

    当客户部署了2台 Azure Virtual Machine,但是没有设置可用性集的时候,Microsoft Azure可能会把这2个Azure Virtual Machine部署在同一个RACK上,这样就可能会出现单点故障。因为这1个RACK宕机了,上面运行的2个...
    文章 2017-10-04 841浏览量
  • Spring Cloud面试题万字解析(2020面试必备)

    除此之外,Eureka还有自我保护机制,如果在15分钟内超过85%的节点没有正常的心跳,那么Eureka就认为客户端与注册中心发生了网络故障,此时会出现以下几种情况: ①、Eureka不在从注册列表中移除因为长时间没有收到...
    文章 2020-05-12 811浏览量
  • Hadoop HDFS概念学习系列之HDFS Block(八)

    然后,客户端把文件名和Block索引发送给Master节点,Master节点将相应的Block标识和副本的位置信息返回给客户端,客户端用文件名和Block索引作为key缓存这些信息,之后客户端发送请求到其中的一个副本,一般会选择...
    文章 2017-11-21 1189浏览量
  • RAC集群简介(原创)

    什么是集群 集群(Cluster)是由两台或多台节点机(服务器)构成的一种松散耦合的计算节点集合,为用户提供网络服务或应 用程序(包括数据库、Web服务和文件服务等)的单一客户视图。集群系统一般通过两台或多台节点...
    文章 2016-05-24 1709浏览量
  • 对分布式事务及两阶段提交、三阶段提交的理解

    在数据有多份副本的情况下,如果网络、服务器或者软件出现故障导致部分副本写入成功,部分副本写入失败。这就造成各个副本之间的数据不一致,数据内容冲突。造成事实上的数据不一致。(2)CAP定理 CAP理论认为在...
    文章 2017-11-15 1450浏览量
  • Heartbeat使用梳理

    如果热备服务器在指定时间内为监听到来自主服务器的心跳,就启动故障转义程序,并取得主服务器上的相关资源服务的所有权,接替主服务器继续不间断的提供服务,从而达到资源以及服务高可用的目的。以上的描述...
    文章 2017-10-31 766浏览量
  • 阿里巴巴基于 Nacos 实现环境隔离的实践

    当某个环境的服务出现问题之后,可以快速通过下发配置,改变用户请求的路由方向,把请求路由到另一套环境,实现秒级故障恢复。当然,这需要一个强大的分布式系统支持,尤其是一个强大的配置中心(如Nacos),需要...
    文章 2019-03-13 3876浏览量
  • 关于Redis的常见面试题解析

    自动故障迁移(Automatic failover):当一个主服务器不能正常工作时,Sentinel 开始一次自动故障迁移操作。特点: 1、保证高可用 2、监控各个节点 3、自动故障迁移 缺点:主从模式,切换需要时间丢数据 没有解决 ...
    文章 2019-04-26 1338浏览量
  • 最大的Redis集群:新浪Redis集群揭秘

    1.COST,对于有一定吞吐需求的应用来说,肯定单独申请DB、Cache资源,很多担心DB写入性能的同学还主动将DB更新记入异步队列,而这三块的资源的利用率一般都不会太高。资源算下来,你惊异的发现:反而纯内存的...
    文章 2017-08-27 1246浏览量
  • 最大的Redis集群:新浪Redis集群揭秘

    1.COST,对于有一定吞吐需求的应用来说,肯定单独申请DB、Cache资源,很多担心DB写入性能的同学还主动将DB更新记入异步队列,而这三块的资源的利用率一般都不会太高。资源算下来,你惊异的发现:反而纯内存的...
    文章 2017-05-28 735浏览量
  • MongoDB高可用集群配置的方案

    当一台存储出现故障时,另一台备用的存储可以快速切换,达一存储不停机的目的。MongoDB的高可用集群配置 高可用集群,即High Availability Cluster,简称HA Cluster。集群(cluster)就是一组计算机,它们作为一个...
    文章 2017-11-15 1512浏览量
  • 最大的Redis集群:新浪Redis集群揭秘

    1.COST,对于有一定吞吐需求的应用来说,肯定单独申请DB、Cache资源,很多担心DB写入性能的同学还主动将DB更新记入异步队列,而这三块的资源的利用率一般都不会太高。资源算下来,你惊异的发现:反而纯内存的...
    文章 2017-05-02 1608浏览量
1 2 3 4 ... 19 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化