• CPU静默数据错误:存储系统数据不丢不错的设计思考

    本文重点讨论数据的不丢不错故障原因,以及数据存储系统如何防控设计,不对数据库事务深入讨论。1 常见的磁盘、内存、网络数据翻转(Bit Flip)对于计算机系统来说,不管是计算还是存储,不管是电子部件还是机械部件...
    文章 2021-07-01 3062浏览量
  • 稳定性思考-强弱依赖2

    正常情况RT这个说应该是一个相对固定的,因为代码的逻辑是一样的,干活的量也是一样的,好比一个卖票的窗口,卖一张票所需要的时间是固定的。那为什么有时候我们买票需要花更的时间呢?原因是由于需求的QPS...
    文章 2016-04-08 1381浏览量
  • [数据恢复答疑]RAID真的安全吗?

    相对而言,当部分硬盘损坏(可能是逻辑故障)后离线,控制器便会工作在一个比较吃力的状态,这也是好多中低端的RAID控制器在一块盘离线后读写性能急速下降的原因。控制器的负载太重便会极大地增加数据吞吐时出现IO滞留...
    文章 2017-11-22 1280浏览量
  • 云计算设计模式(二十)——调度程序代理管理者模式

    如果FailureCount超过特定阈值时,对故障原因被假定为非瞬态。监事设置为错误的状态,并引发了警报操作,如前所述的事件。注意:在这个例子中,管理者是在一个单独的工作任务落实。您可以使用各种策略来安排监理...
    文章 2014-11-10 924浏览量
  • 《Effective Debugging:软件和系统...使故障更加突出

    如果应用程序在客户的计算机上运行并处理其生产数据时总是发生故障,而在你自己的开发计算机上运行时却不会发生故障,那么这个技巧或许能够帮你找到原因。模糊测试可以通过zzuf这样的工具用来执行。要点 迫使软件去...
    文章 2017-07-04 1045浏览量
  • 如何快速处理线上故障【转】

    时候无法及时找到故障原因,必须直接进入故障排除,这时候的思路就在于:尽最大可能降低线上服务影响了。可以采用的手段有如下几项: 服务降级——定位到某些服务有异常,但不清楚异常出现的原因,直接将这些服务...
    文章 2017-11-16 1536浏览量
  • 《云数据管理:挑战与机遇》-2.1分布式数据管理

    分区失效的原因可能包括由于网关故障而引起的连接故障和节点故障。分布式系统也可以分为同步系统和异步系统。在异步分布式系统中,消息传递的时间、处理器处理时间和本地时钟漂移时间的界限是未知的。在同步系统中,...
    文章 2017-05-19 1139浏览量
  • 《云数据管理:挑战与机遇》一第二章

    分区失效的原因可能包括由于网关故障而引起的连接故障和节点故障。分布式系统也可以分为同步系统和异步系统。在异步分布式系统中,消息传递的时间、处理器处理时间和本地时钟漂移时间的界限是未知的。在同步系统中,...
    文章 2017-05-22 996浏览量
  • 云计算设计模式(十八)——重试模式

    对于处理故障是不因瞬时故障,如在应用程序的业务逻辑引起错误的内部的异常。作为一种替代解决系统中的可扩展性问题。如果一个应用程序有频繁的“忙”的故障,这是通常指示被访问的服务或资源应相应加大。例子 本...
    文章 2014-11-07 753浏览量
  • Java基本类型与对象类型的区别导致的Bug剖析

    在一个线上产品故障的排查过程中发现根本原因在于开发同学把数据库DO对象的一个字段从int 改成了Integer引起的,因为int 类型可以正常的初始化,而Integer 对象的时候不能正常插入,导致了线上产品故障。正是由于...
    文章 2017-07-03 874浏览量
  • Windows 2003自带性能监控工具的使用

    如 果使用 RAID 设备,%Disk Time 计数器会指示大于 100%的(出现这种现象的原因是处理器允许操作系统使用重叠的I/O,磁盘性能计数器使用一个100纳秒精度的计数器来度量磁盘时间,再按照采样频率显示出 来。...
    文章 2017-11-15 860浏览量
  • 闲鱼神探——线上问题定位与快速解决

    神探具备下游依赖、DB、容器(CPU、LOAD、线程池满)、单机异常、多原因综合定位,满足日常绝大部分故障、日常定位需求。实际案例 XXXX年X月XX日*引起的故障 XXXX年X月XX日全站交易下跌超过20%,闲鱼也受影响。报警...
    文章 2020-07-28 1542浏览量
  • 从一个 SAP CRM 软件实际的故障处理出发,谈谈企业...

    故障横跨企业管理软件的个模块3.故障只能在客户生产系统重现4.故障只能在后台作业模式下重现&xff0c;在 online 模式运行时一切正常5.故障只能在软件正常运行模式时才能重现&xff0c;单步调试时&xff0c;软件工作一切...
    文章 2021-12-02 3浏览量
  • 如何做到全年配送 0 故障?盒马揭秘 12个关键技术

    DB依赖主要分析依赖DB的稳定性,首先,DB有没有慢SQL,盒马早期大多数故障原因是慢sql导致,后来对DB的集中治理才使得这块不稳定因素被逐步瓦解,但是慢SQL治理是长期的事情,不管是上新业务的sql事前分析,还是流量...
    文章 2020-02-18 715浏览量
  • VMware SDS 之四:VSAN的技术细节

    前面次提到的副本数为2,表示的就是最允许一台主机出故障,也即FTT为1,此时主机数最少为3。截止VSAN 6.1版,FTT的最大为 3,也即最4份副本。为虚拟机分配存储资源时,如果未选择存储策略,则VSAN将使用...
    文章 2017-11-15 1516浏览量
  • 全链路压测的必经之路:自定义http头

    自定义标头有很用途&xff0c;它们非常常用。即使您没有使用CDN或未在源服务器上专门定义任何自定义HTTP标头&xff0c;您仍可能使用自定义标头发送响应。例如&xff0c;WordPress发送以下标头&xff08;但是可以禁用它们&xff09...
    文章 2021-07-15 71浏览量
  • 分布式系统的烦恼-《Designing Data-Intensive ...

    这种故障通常是不确定的:如果你想做涉及个节点和网络的东西,可能甚至不知道某个消息是否成功,因为消息穿越网络所需的时间也是不确定的。这种故障的不确定性,使得分布式系统的变得复杂而脆弱。一个系统越大,它...
    文章 2018-02-15 1062浏览量
  • 《云数据管理:挑战与机遇》分布式数据管理

    分区失效的原因可能包括由于网关故障而引起的连接故障和节点故障。分布式系统也可以分为同步系统和异步系统。在异步分布式系统中,消息传递的时间、处理器处理时间和本地时钟漂移时间的界限是未知的。在同步系统中,...
    文章 2017-05-19 1806浏览量
  • 涨姿势|如何修复硬盘,以及如何避免硬盘损坏

    磁头组件损坏的原因也有很,主要还是磁头变脏、磨损、悬臂变形、磁线圈受损、移位等。控制电路损坏:主要是指硬盘的电子线路板上,某一部分的线路断路或者短路,以及某些电气元件或者IC芯片损坏,从而导致了硬盘...
    文章 2017-11-30 2917浏览量
  • 10款常见MySQL高可用方案选型解读

    逻辑较为复杂,发生故障后排查问题,定位问题更加困难 数据一致性仍然靠原生半同步复制保证,仍然存在数据不一致的风险 可能因为网络分区发生脑裂现象。ZooKeeper+Proxy ZooKeeper使用分布式算法保证集群数据的一致...
    文章 2017-05-16 5878浏览量
  • 微信故障,算不算是小事?

    而对于媒体来说,这个故障的大小,完全取决于影响到用户的数量,而这个数量媒体考虑的是绝对,而不是相对,即虽然可能小Bug影响了几万用户,占微信总用户的不过万分之几,但这几万用户受到影响,本身就不是一件...
    文章 2017-07-05 1118浏览量
  • MySQL数据库的几种常见高可用方案

    逻辑较为复杂,发生故障后排查问题,定位问题更加困难;数据一致性仍然靠原生半同步复制保证,仍然存在数据不一致的风险;可能因为网络分区发生脑裂现象;(2)zookeeper+proxy Zookeeper使用分布式算法保证集群数据的...
    文章 2017-04-25 12802浏览量
  • Oracle 白皮书-Oracle Data Guard 快速启动故障切换...

    备用数据库可以是物理的或逻辑的,可以有个备用数据库,但只有一个备用数据库可作为随时进行故障切换的目标。以下段落将描述受支持的可用性模式。最高可用性模式(Oracle 数据库 10g 第 2 版及更高版本) 在最高...
    文章 2017-11-08 1199浏览量
  • 高可用系统常用解决手段浅述

    线网出现了故障,查故障原因,一个常用的办法就是追查下最近是否有发过版本,比较下发布前后的代码。使用灰度发布策略,发布并且验证没问题后再全量发布。灰度发布的策略,包括搭建预发布环境,有专用的预发布机器...
    文章 2017-05-23 1493浏览量
  • 怎样配置MySQL数据库超时设置?

    JDBC的socket timeout在数据库被突然停掉或是发生网络错误(由于设备故障原因)时十分重要。由于TCP/IP的结构原因,socket没有办法探测到网络错误,因此应用也无法主动发现数据库连接断开。如果没有设置socket ...
    文章 2017-11-15 2477浏览量
  • 触类旁通,从400错误看Nginx常见故障与修复

    对Linux运维、虚拟化和网络安全防护等研究颇,目前专注于网络安全自动化检测、防御系统构建。众所周知,Nginx是目前最流行的Web Server之一,也广泛应用于负载均衡、反向代理等服务,使用过程中可能因为对Nginx...
    文章 2017-05-16 3779浏览量
  • 《叶问》第8期

    全索引扫描 3、没有利用到覆盖索引,造成大量回表 4、查询字段过多,并且包含大字段 5、索引字段数据分布太随机,回表不也会引起大量随机io 6、统计信息不准 7、表的单行数据很大,需要较io 8、表中包含个...
    文章 2018-11-29 1140浏览量
  • DTCC 2019|深度解码阿里数据库实现 数据库内核——...

    这说明了为什么现在的分布式和互联网+结合在一起比较火,一个很重要的原因是分布式降低了单点故障对业务带来的的可用性的影响。不仅仅是互联网公司,包括金融类的银行也想往分布式走,一个方面是为了解决容量和扩展...
    文章 2019-05-24 7190浏览量
  • 分布式锁的实现

    以第二种为例,一旦发现lock_key的已经小于当前时间了,说明该key过期了,然后对该key进行getset设置,一旦getset返回是原来的过期,说明当前客户端是第一个来操作的,代表获取到了锁,一旦getset返回不是...
    文章 2016-09-18 27576浏览量
  • 如何配置MySQL数据库超时设置

    JDBC的socket timeout在数据库被突然停掉或是发生网络错误(由于设备故障原因)时十分重要。由于TCP/IP的结构原因,socket没有办法探测到网络错误,因此应用也无法主动发现数据库连接断开。如果没有设置socket ...
    文章 2017-11-01 1801浏览量
1 2 3 4 ... 35 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化