• DNS高可用设计-软件高可用

    利用了数据库团队的X-Cluster产品,实现数据的高可用,消除了运维误操作等原因导致的数据丢失:数据库采用三地五副本,同城强同步方案部署;数据库各个节点间采用Paxos 协议选主,在任意阶段出现问题后,数据内部自选...
    文章 2020-03-25 863浏览量
  • CPU静默数据错误:存储系统数据不丢不错的设计思考

    本文重点讨论数据的不丢不错故障原因,以及数据存储系统如何防控设计,不对数据库事务深入讨论。1 常见的磁盘、内存、网络数据翻转(Bit Flip)对于计算机系统来说,不管是计算还是存储,不管是电子部件还是机械部件...
    文章 2021-07-01 3042浏览量
  • 故障处理方式

    2、验证故障(排除潜在可能的故障原因) 3、定义故障(验证推断,不是网络问题) 4、分配故障(确定责任,提交相应的工程师排查,假设应用问题) 5、收集故障(建立故障文档) 6、上报故障(硬件故障、软件故障...
    文章 2017-11-15 1084浏览量
  • Istio-TrafficManagement-Fault Injection

    Istio 故障注入与其他在网络引入错误&xff08;例如延迟数据包或者直接杀死 Pod&xff09;的机制不同&xff0c;Istio 允许在应用程序注入故障。这使得可以注入更多相关的故障&xff0c;比如 HTTP 错误代码等。注入故障类型...
    文章 2021-09-11 11浏览量
  • 如何在阿里云上构建高可用应用

    这一方面做的比较好的是AWS和Azure,在每次出现故障后,他们都会提出故障公告,诚恳的说明故障原因和解决方案,让用户明白故障的问题所在。这一方面,国内阿里云在完善故障通报机制,可以看到同一个故障出来阿里云...
    文章 2017-01-05 3111浏览量
  • 前浪:传统数据中心的网络模型

    为了保障网络的高可靠性,传统的二架构在应用于数据中心场景中,网络设计上往往采用二冗余链路,而由于传统二协议没有任何防环机制,这样的做法容易引发二环路和广播风暴。为了解决环路问题,我们采用了两种...
    文章 2020-10-10 1569浏览量
  • 线上操作零差错,优秀的DBA就该这么做!

    线上故障,直接受影响的就是用户,究其原因,用户层、接入层、逻辑层和数据层每一层都有可能有问题。处理故障之前,不是无谓的试错,一次不行,下次依然如故的概率相当高,然后时间就这样不知不觉地浪费了。此时应该...
    文章 2017-05-02 1168浏览量
  • 高可用系统常用解决手段浅述

    数据层的冗余比较复杂,增加一份备份数据,需要考虑一致性的问题。按照分布式系统的 CAP 理论三者不可用同时满足的原理,为了满足可用性和分区容错性,就必须牺牲一致性,因此考虑使用弱一致性、最终一致性的解决...
    文章 2017-05-23 1468浏览量
  • 有货:六层混合云架构打造中国最潮生态圈

    最下面一层是数据层,主要的数据存储在MySQL中,同时进行数据双活操作,保证数据的一致性。六层结构的左侧是垂直运维平台,平台在每一层都有相关的运维监控工作,右边是基于大数据平台的数据分析系统。图三 客户端 ...
    文章 2016-03-31 13946浏览量
  • 网络丢包究竟为何

    网络丢包是我们在使用ping对目站进行询问时,数据包由于各种原因在信道中丢失的现象。ping使用了ICMP回送请求与回送回答报文。ICMP回送请求报文是主机或路由器向一个特定的目的主机发出的询问,收到此报文的机器必须...
    文章 2017-11-15 1028浏览量
  • Apache Flink 在快手的过去、现在和未来

    如图所示,整个数据流从左到右共分为 4 ,分别是 ODS 、采样、指标逻辑计算数据服务。最开始是原始的 ODS 层数据,通过客户端,服务端,或者是 DB 直接打到 Kafka 的 topic 中形成一个 ODS ,这一的...
    文章 2021-02-26 1058浏览量
  • 云场景实践研究第12期:有货

    最下面一层是数据层,主要的数据存储在MySQL中,同时进行数据双活操作,保证数据的一致性。图中六层结构的左侧是垂直运维平台,平台在每一层都有相关的运维监控工作,右边是基于大数据平台的数据分析系统。2)客户端 ...
    文章 2018-02-03 1465浏览量
  • 我们雇佣了一只大猴子.

    如果对故障整体做初步画像,故障整体可以分为IaaS、PaaS、SaaS故障,每一都可能有很多故障出发原因和表现。图片来源于 QCon·北京 故障如此之多,让人摸不着头脑,我们试着把维度降低一下,换一个视角来看...
    文章 2019-02-28 2023浏览量
  • CCNP-CIT中文笔记

    用于纠正网络故障原因。从最象故障源处,想出处理方法 每完成一个步骤,检查故障是否解决 6、观察行动计划执行结果(Observe Results) 7、如有行动计划不能解决问题,重复上述过程(Iterate as Needed) 三、记录所...
    文章 2017-11-15 834浏览量
  • 135学习指南》——2.2节排障案例:基于结构化故障检测...

    排除潜在故障原因:Armando断定物理数据链路没有故障。提出推断:Armando怀疑Ariana的IP编址信息全部都是手工配置的,或者基本的IP编址信息是通过DHCP获得的,但DNS服务器地址等信息则是手工输入的(而且输入...
    文章 2017-05-02 1638浏览量
  • 某网络专业人士笔记(超级珍藏)

    Half Troubleshooting)3、考虑可能情形(Consider Possibilities)考虑引起故障的可能原因 4、建立一份行动计划(Create the Action Plan)5、部署行动计划(Implement the Action Plan)用于纠正网络故障原因。...
    文章 2017-11-17 1195浏览量
  • Linux内核I/O系统报错日志与硬盘故障对应关系

    出现Medium Error的主要原因是硬盘坏,或者硬盘的数据无法读写。(1)硬盘扇区坏 或(2)硬盘与磁盘控制器连接信号质量不稳定,导致数据出现异常 mptbase:ioc1:IOCStatus=804b LogInfo=31080000 Originator={PL},...
    文章 2017-12-04 1488浏览量
  • 阿里巴巴DevOps实践指南(二十一)|全景监控

    全景监控直击传统监控平台缺失业务监控能力、各监控数据及报警分散、监控配置成本较高等痛点,基于阿里巴巴强大的监控技术积累和应急故障处理的最佳实践,为阿里巴巴经济体提供一体化、一站式的监控解决方案,是...
    文章 2021-07-06 239浏览量
  • 带你读《智能制造之卓越设备管理与运维实践》之三:运...

    数据资源管理方面,需要信息化系统提供基于工业大数据数据采集、整合、归档、分析和应用能力,实现设备全生命周期的数据管理,为提升管理水平提供数据化支撑。卓越设备资产管理与运维管理体系紧抓人员、技术、备件...
    文章 2019-11-08 1195浏览量
  • 【内含干货PPT下载】DTCC 2020|阿里云张鑫:阿里云云...

    阿里云制定了三个维度的单元保护措施,第一个是日常态,针对接入层、应用层和数据层提供相应的方法多写操作的多活分流规则进行路由逻辑校验,如果非本单元流量,则在接入层和应用层将流量转走,但如果在数据层,则...
    文章 2021-01-07 1462浏览量
  • 一个专业网管的工作笔记(超级珍藏)

    用于纠正网络故障原因。从最象故障源处,想出处理方法每完成一个步骤,检查故障是否解决 6、观察行动计划执行结果(Observe Results) 7、如有行动计划不能解决问题,重复上述过程(Iterate as Needed) 三、记录所...
    文章 2017-11-07 1114浏览量
  • OB有问必答|OceanBase如何保证数据可靠性?

    这个检查点选在了OceanBase的“每日合并”点,主要的原因是每日合并动作本身就要对大量数据做归并和重新写入,刚好可以利用这个时机做数据的一致性检查。通过这个检查,进一步在存储确保了多个副本之间的数据一致...
    文章 2020-07-22 365浏览量
  • 生产环境JVM内存溢出案例分析

    发生内存泄露,通常情况下是由于代码的原因造成的,一般无法立即对代码进行修复,很容易会发送连锁反应造成应用服务器一台一台接连宕机,故障面积会慢慢扩大,针对此种情况,应快速定位发生内存泄露的原因,将该服务...
    文章 2019-03-27 2325浏览量
  • 云效助力新零售运维效能提升之路

    其次,门店的数据库到中央机房的数据库可能会因为网络不稳定、数据库拥塞、数据库的磁盘满载而出现故障。再次,研发部门在写代码的时候可能没有让某部分应用是成组vip待遇而出现问题。最后,有可能链路端点出现问题...
    文章 2018-05-14 1572浏览量
  • EVA 4400存储硬盘故障导致数据丢失怎么恢复?

    四、故障分析 1、分析故障原因 由于前两个步骤并没有检测到磁盘有物理故障或者是坏道,由此推断可能是由于某些磁盘读写不稳定导致故障发生。因为EVA控制器检查磁盘的策略很严格,一旦某些磁盘性能不稳定,EVA控制...
    文章 2017-05-12 2583浏览量
  • 超全总结|阿里如何应对电商故障?神秘演练细节曝光

    今天的分享,主要还是回归故障发生的本质,故障原因角度切入。看是否有一些方法论和通用性的手段可以沉淀出来。希望可以对大家有所帮助。今天演讲的主要包括两个部分:第一部分会从分布式系统经典依赖故障出发,剖析...
    文章 2017-06-19 3717浏览量
  • 数据中心虚拟化技术权威指南》一2.2 数据中心网络...

    但是此拓扑的上行链路和汇聚层故障很复杂,因为服务器流量会产生“黑洞”。在决定使用哪种拓扑时,需要设计师仔细权衡数据中心网络中最重要的因素。我觉得这不是个轻松的工作。注意:我会在下面几个章节讨论生成树...
    文章 2017-05-02 2241浏览量
  • 带你读《企业数据湖》之二:数据湖概念概览

    为了支持近实时处理,需要数据层支持某些类型的索引数据存储。表2-2 Hadoop存储层对批处理和近实时处理模式的适用情况 Lambda架构的典型功能如下所列: 同时支持串行读写及随机读写。针对用户的使用情况,提供合适...
    文章 2019-10-19 1330浏览量
  • VMware SDS 之四:VSAN的技术细节

    下图意指每个机柜设置成一个故障域,VMDK的两份副本一定会自动化分放在不同的机柜里,这样即使机架A出现故障(如断电),也不会停机或数据丢失。VSAN支持机架感知(Rack Awareness) VSAN故障域功能将使VSAN副本分散...
    文章 2017-11-15 1493浏览量
  • 表格存储如何实现跨区域的容灾

    原因一方面是三份副本是保障强一致性的,如果跨度太大,写数据时的网络延迟将会很大,这会对整个系统的性能造成较大影响,另一方面是这种模式下整个系统是一个整体,如果做到完全跨地域,相当于实现一套全局容灾的...
    文章 2017-11-08 6193浏览量
1 2 3 4 ... 58 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化