• 架构师速成8.3-可用性

    我方发生故障,导致系统不可用,当然会出现单机的不可用及n多机器群的全部不可用。程序故障 功能错误、程序退出 系统故障 CPU超负荷、内存超负荷、网络超负荷 物理故障 机器死机 断电 断网 不可恢复故障 地震、海啸...
    文章 2015-08-07 990浏览量
  • 如何设计高可用系统之故障隔离

    比如基于 user_id 的后 2 路由到库表,这个不能随意变更,不然导致数据大量错乱,可能导致大量的跨库事务问题和恢复后数据无法回查的问题。这个方案类似于例子 2 的思路。不同点在于它是多个节点都是活跃的,...
    文章 2019-08-06 1072浏览量
  • 硬盘修复

    除此之外,并没出现什么使用上的问题。请问怎么解决?答:从你谈到的现象看,你遇到的问题有可能是硬盘存在硬件故障导致,比如硬盘的机械控制部分或传动臂有问题,或者盘片有严重损伤。也可能是因为IDE电缆线有问题...
    文章 2017-11-12 935浏览量
  • Facebook TSDB论文翻译

    大型互联网服务一般出现故障及时响应和保持高可用性为目标。为了提供正常稳定的服务,通常要每秒从大量系统中监控和分析数以千万计的数据(性能数据和业务数据)。一个特别高效的解决方案是用TSDB对这些数据进行...
    文章 2017-08-18 2177浏览量
  • 阿里:千亿交易背后的0故障发布

    召回率方面,我们已经做到了90%,这个90%是指出现了一次故障我们没有报出来,我们有效拦截了9次,这9次中可能引起故障,也可能只是有问题,但是不会造成故障,但是因为及时发现了,都没有造成故障,很难明确说这9...
    文章 2018-04-20 5069浏览量
  • 无人值守时代,运维如何保障发布质量?

    召回率方面,我们已经做到了90%,这个90%是指出现了一次故障我们没有报出来,我们有效拦截了9次,这9次中可能引起故障,也可能只是有问题,但是不会造成故障,但是因为及时发现了,都没有造成故障,很难明确说这9...
    文章 2018-04-18 3740浏览量
  • DBA亲,你们的RAID5阵列有保障吗?

    从统计角度来说也比较少见,一般来说是指读取多少会出现一次读取错误。随着硬盘容量增加,驱动器读取数据的误读率就会增加,而硬盘容量暴涨,误码率的比例一直保持相对增加。一个1TB的驱动器是需要更多读取整个...
    文章 2017-11-26 1866浏览量
  • Memcached,Redis,MongoDB区别

    2、redis具备binlog功能,可以将所有操作写入日志,当redis出现故障,可依照binlog进行数据恢复。3、redis支持virtual memory,可以限定内存使用大小,当数据超过阈值,则通过类似LRU的算法把内存中的最不常用数据...
    文章 2014-04-15 759浏览量
  • 炉石传说罕见数据库事故!丢失30%数据,疑似误操作?

    所以从运营和稳定安全的角度来说,其实出现这种故障,如果增量恢复有问题,应急策略还是更倾向于回档。游戏行业相对来说还是挺激进的,很多游戏都会大规模开始部署云服务(云服务器或者RDS),如果大家用过一些云...
    文章 2017-05-15 2198浏览量
  • 深入解析:由SQL解析失败看开发与DBA的性能之争

    还有就是查询一些底层的视图比如 x$ksmsp 在某些版本下高并发的系统中直接查询这些视图会出现大量的 latch 竞争 还有就是 SGA 大量抖动或者模拟调整的时候也会导致此问题 ...
    文章 2017-06-14 986浏览量
  • 《深入理解Hadoop(原书第2版)》——2.3Hadoop系统的...

    如果此时其访问的数据节点出现故障,就访问存放备份数据块的数据节点。3)读取数据块的时候计算该数据块的校验和,并将该校验和与写入文件时的校验和作比较。如果检验失败,则从其他数据节点获取备份数据块。...
    文章 2017-05-02 1399浏览量
  • 基础 RAID 介绍

    由于在一个硬盘阵列中,多于一个硬盘同时出现故障率的几率很小,所以一般情况下,使用 RAID3,安全性是可以得到保障的。RAID 3数据的写入操作分散到多个磁盘上进行,不管是向哪一个数据盘写入数据,都需要同时...
    文章 2017-05-02 1198浏览量
  • 计算机网络(四)——交换机与路由器

    这种方式在小的网络架构中也许不会出现多大的问题,但在大的网络架构中,几十台甚至几百台交换机在一起时,这种方式就产生广播风暴,可能使一个IP数据报由源主机发送到目的主机后产生多个结果;而在源主机不知道...
    文章 2017-11-12 789浏览量
  • 内存数据库Tokyo Cabinet在电子商务网站中的应用

    如果活动Tokyo Tyrant出现故障,那么客户端从服务器池中调用备份Tokyo Tyrant的连接,经备份Tokyo Tyrant来完成相应的操作。而在这种模式中,两台Tokyo Cabinet的数据是自动同步的,所以相对于应用程序来说,是...
    文章 2017-11-15 1498浏览量
  • 自动化测试最佳实践 连载五

    5)使用我们自己的数据库来收集统计数据,这样就可以在真实的产品环境中拥有自己的数据,并且有可能遇到在其他没有发现的故障(用你自己的方法来解决)。6)使测试场景不可能手动运行。7)使场景维持几天。8)使...
    文章 2017-07-10 1596浏览量
  • 双硬盘RAID 0全攻略

    要写入到数组的数据会先划分为区块再把数据区块写入到数组中的不同的成员磁盘每一个数据区块产生一个同检测数据这个同检测数据数据写入时写到专属磁盘在数据读出时用来确定数据的正确性。RAID 3 需要...
    文章 2014-08-12 2349浏览量
  • Docker不适合部署数据库的7大原因

    在一次Docker应用的十大难点专场上,某国有银行的一架构师也曾提出过:“数据库的性能瓶颈一般出现在IO上面,如果按 Docker 的思路,那么多个docker最终IO请求又会出现在存储上面。现在互联网的数据库多是share ...
    文章 2020-07-09 617浏览量
  • 【机器学习调查】脏数据最棘手,逻辑回归最常用

    但是究竟什么是脏数据,为什么会出现这样的问题呢?数据是数字经济的新石油,这是不言而喻的,但在机器学习之类的领域尤其如此。现代的人工智能系统一般都是通过示例来学习的,也就是说如果你展示给AI系统一大堆“猫...
    文章 2017-11-06 1347浏览量
  • 如何检测 Web 服务请求丢失问题

    我们可以这样来解释这个问题,客户端流量进入 Web 服务器,如果 Web 服务器处理不过来(超出可承受的最大流量或者 Web 服务器本身可能出现 FullGC,OOM,死锁,线程池慢问题),那客户端设置超时的请求将会出现 499...
    文章 2019-09-16 2005浏览量
  • 《自动化测试最佳实践:来自全球的经典自动化测试案例...

    2.4.3 测试报告这个内部工具创建了网站来记录测试报告,所有的结果在一个数据库中也进行了详细存档,这有利于我们建立详细的度量,比如下面的度量:1)在哪些平台上有一些什么样的bug及其出现的频率(可以帮助...
    文章 2017-08-02 1151浏览量
  • 万亿级数据洪峰下的分布式消息引擎

    对于前者,通过运维管控系统推送应用自身QoS数据一般会输出如下表格。而引擎组件的服务QoS,如服务于消息问题追溯的链路轨迹组件,对于核心功能来说,定级相对较低,可在洪峰到来之前提前关闭。谈到熔断,不得不提...
    文章 2017-02-07 7075浏览量
  • 【双11背后的技术】万亿级数据洪峰下的分布式消息引擎

    对于前者,通过运维管控系统推送应用自身QoS数据一般会输出如下表格。而引擎组件的服务QoS,如服务于消息问题追溯的链路轨迹组件,对于核心功能来说,定级相对较低,可在洪峰到来之前提前关闭。谈到熔断,不得不提...
    文章 2017-01-12 5726浏览量
  • 阿里云弹性计算研发团队如何从0到1自建SRE体系

    可参考以下思路:在设计阶段时定义该依赖的性质,是强依赖还是弱依赖对方提供的SLO/SLA是什么,依赖方可能会出现什么问题以及对我们服务的影响是什么?如果依赖方出现了预期/非预期的异常,我们的策略是什么?如何...
    文章 2021-06-08 605浏览量
  • DBA很忙—MySQL的性能优化及自动化运维实践

    第五就是磁盘调度设置,一般会有几个算法,比如说NOOP算法、CFQ或者是Deadline算法,比如说这NOOP算法用在我们数据库上有什么问题?就会有饿死读操作的方式存在,如果两个写操作,第一个写操作进来不需要等这个结束...
    文章 2018-11-16 4301浏览量
  • AI赋能DevOps:数据驱动的全栈工程师实践

    假如说说我们对99分感兴趣,只需要过滤出来99分以上的数据,通过这种方式减少数值类型数据的体量。但是这种排除法不一定可以帮助我们找到所有我们所关心的问题,因为我们现在的业务实在是太复杂了,维度太多了。...
    文章 2019-11-04 9309浏览量
  • Redis主从复制与优化

    redis在删除key时有两种策略,一种是懒惰型策略,即只有当redis操作这个key时才将key删除,第二种是定期采样key删除-当key数据非常多时,采样速度比不上key生成速度造成很多过期数据没有删除,因为redis一般都是...
    文章 2020-10-13 1880浏览量
  • 首度公开!OceanBase存储系统架构的演进历程及工程...

    一般情况下,OceanBase 0.5版本的部署模式是三副本,当有一个副本出现问题时,另外两个副本补齐日志并重新选出一个主提供服务,我们可以做到单点故障下不丢失任何数据,同时故障恢复时间小于30s。同时为了更好地...
    文章 2019-11-25 2917浏览量
  • HBase设计的实践经验(全)——《我的Java打怪日记》

    优化原理:在解释这个问题之前,首先需要解释什么是scan缓存,通常来讲一次scan返回大量数据,因此客户端发起一次scan请求,实际并不会一次就将所有数据加载到本地,而是分成多次RPC请求进行加载,这样设计一方面...
    文章 2021-07-27 43061浏览量
  • DataFlux」关键事件,助你掌控IT监控的“蝴蝶效应”

    举个例子来说,当一个运维工程师发现系统出现异常,如数据出现了异常的IOPS,往往需要花非常多得时间去找到原因,但实际上的原因可能是开发工程师刚刚发布更新了一个错误的代码。所以当这个关键事件不被掌握的时候...
    文章 2020-06-01 633浏览量
  • 利用AX产品提升DNS服务器可用性和安全性的一种有效...

    通常在服务器或网络层设备上启用IP anycast是无法做到应用层的健康监测的,只要网络层可达,IP anycast的OSPF路由就有效,这样就会出现当DNS进程或应用层出现问题时,依然会有DNS请求被分配到这些有问题的服务器上,...
    文章 2017-11-14 1096浏览量
1 2 3 4 ... 18 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化