• 兹事体大,DataWorsk消息中心发布啦!

    2.由于非正常原因导致的一些故障提前预警与排障处理未及时通知到用户,导致用户错过了故障最佳处理时间。我们秉着尽量不打扰用户的前提下,确定了以下原则:推送规则:除了故障等重要、必传通知,我们一个月推送不...
    文章 2020-07-29 567浏览量
  • redis性能问题和解决方案

    5.单点故障问题,由于目前Redis的主从复制还不够成熟,所以存在明显的单点故障问题,这个目前只能自己做方案解决,如:主动复制,Proxy实现Slave对Master的替换等,这个也是Redis作者目前比较优先的任务之一,作者的...
    文章 2017-11-12 1786浏览量
  • Office 365 Azure AD 与本地AD同步故障

    其实Azure AD的同步也是一次从Local AD 主动向O365 推送的一次同步,我们可以在计划任务中找到这个计划。我们点进去详细看一看 在这里我看到一个非常奇怪的账号,这个账号从字面上理解应该是Office365 AD同步系统...
    文章 2017-11-02 1438浏览量
  • 大众点评账号业务高可用进阶之路

    比如手机快捷登录流程里的某个关键服务挂了,我们可以在返回的失败文案上做优化,并且在登录入口挂小黄条提示,让用户主动去其他登录途径,这样对于那些设置过密码或者绑定了第三方的用户还有其他选择。具体的做法是...
    文章 2018-06-14 1452浏览量
  • 难以置信,MySQL也可以无损自由切换

    与此不同,3节点是可以自己正确识别故障,并进行主动切换,原因在于,故障需要多数派确认,然后再进行相应的切换操作。当leader发生故障后,其它2个节点很快就能发现leader失去联系,然后会自发的进入选举leader阶段...
    文章 2018-06-16 5035浏览量
  • OceanBase高可用实践

    而为了预防数据中心故障,则需要在另外一个地区预备冗余的数据中心,在故障时由于通信距离等原因,基本上无法做到无损切换。OceanBase虽然在设计之初就考虑到了硬件和软件的不可靠,但OceanBase的高可用并非一蹴而就...
    文章 2019-07-28 1604浏览量
  • golang 服务大量 CLOSE_WAIT 故障排查

    查看机器监控,发现故障期间 socket fd 升高到了3w多,随着fd升高内存也在持续占用,但是远没有到系统瓶颈,_DB_、_redis_还是出现故障窗口期间 qps 同步下掉的情况。这个程序是两台机器,出故障只有一台机器,周五...
    文章 2020-01-26 1111浏览量
  • 天梭M13为何具有大型机水平的高可用性

    SFDP对于不同层次、不同部件执行的检测强度是不同的,对内存等核心部件检测强度最高,因为内存错误和内存故障是引起系统停机的主要原因之一,目前通用服务器的内存错误主要依靠ECC内存技术来处理(Error Checking ...
    文章 2017-08-02 1452浏览量
  • 新勒索病毒接踵而至 这次危害远超上次!

    但是由于软件本身设计的原因,即便中毒了,也容易重新做系统处理掉病毒,但是!在北京时间6月28日深夜,一个全新的勒索病毒在全世界迅速流行,目前已经有很多知名的大公司中招,可以看作是wannacry的高级进化版,它...
    文章 2017-08-09 1609浏览量
  • Redis4.0新特性(三)-PSYNC2

    redis部分重新同步:是指redis因某种原因引起复制中断后,从库重新同步时,只同步主实例的差异数据(写入指令),不进行bgsave复制整个RDB文件。本文的名词规约: 部分重新同步:后文简称psync 全量重新同步:后文...
    文章 2017-11-14 8554浏览量
  • 技本功|数据安全之IDC数据容灾设计实现

    近年来,数据安全问题日渐受到大家的关注,对于任何...数据库备份及备库是企业数据高可靠及业务高可用的重要保障,也是预防主动性攻击的安全屏障。做好数据容灾是企业IT运维必不可少的重要环节。了解更多数据库容灾方案
    文章 2020-09-04 84浏览量
  • 分布式存储系统基础

    一致性和可用性是矛盾的,强同步复制协议可以保证主备副本之间的一致性,但是备副本出现故障时,也可能阻塞存储系统的正常写服务,系统的整体可用性受到影响;异步复制的可用性相对较好,但是一致性得不到保障,主...
    文章 2017-08-09 1647浏览量
  • OB有问必答|OceanBase如何保证数据可靠性?

    5)定期做数据校验信息检查:OceanBase定期检查任务,在不影响在线业务的前提下,利用数据校验信息主动检查磁盘静默错误,一旦发现错误会及时通知用户,尽快采取补救措施。最后,OceanBase也和传统数据库一样提供...
    文章 2020-07-22 398浏览量
  • 虎牙直播在微服务改造方面的实践和总结

    引入Nacos后,我们采用了配置中心监听方式,通过客户端主动监听配置更新,配置便可秒级生效,新扩容服务主动拉取全量配置,流量接入时长缩短3分钟+。虎牙对 Nacos 改造和升级的总结 引入Nacos的过程中,我们所做的...
    文章 2019-02-14 6337浏览量
  • 《软件测试价值提升之路》——3.3 受攻击出错

    故障处理的原则有:进行根因告警(故障根本原因的告警,只要处理了这个故障,由这个故障引起的一系列异常都会自动恢复);自动恢复(产品通过可靠性机制自动消除故障故障处理无需人工干预);手工恢复等。预期效果...
    文章 2017-05-02 919浏览量
  • 云计算网络基础架构的实践和演进——打造云计算网络...

    而通过日常的巡检和探测能够及时地发现故障,并在故障发生之后及时了解故障发生的具体原因并提供故障定位的方式,进而提高云平台网络的可靠性。上述这些都是在公有云网络上的实践,对于专有云而言,又会存在什么样的...
    文章 2017-04-24 18792浏览量
  • ElasticSearch Reading and Writing documents ...

    注意:master也会不断地监控节点的状态并可能决定主动降级主分片,这种情况一般发生在主分片所在的节点因为网络原因从集群中断开了。一旦主分片在本地成功执行了该索引操作,接下来主分片在副本分片上执行操作的时候...
    文章 2018-10-24 988浏览量
  • diamond专题(四)—— 容灾机制

    diamond之所以表现的稳定可靠,除了架构简单之外,另一个重要原因是diamond具有一套完备的容灾机制,容灾机制涉及到client和server两部分,主要包括以下几个方面: 1、server存储数据的方式。server存储数据是“数据...
    文章 2017-05-02 2104浏览量
  • Highly Available(Mirrored)Queues

    将新节点加入已存在的镜像队列是,默认情况下ha-sync-mode=manual,镜像队列中的消息不会主动同步到新节点,除非显式调用同步命令。当调用同步命令后,队列开始阻塞,无法对其进行操作,直到同步完毕。当ha-sync-...
    文章 2017-05-11 1120浏览量
  • 美团点评数据库高可用架构的演进与设想

    整个集群故障切换的过程如下(仅描述Zebra monitor主动探测的情况,第一种MHA通知请自行脑补^_^)。由于该切换过程还是借助于VIP漂移,导致只能在同网段或者说同个二层交换机下进行,无法做到跨网段或者跨机房的高...
    文章 2017-11-20 4362浏览量
  • 大众点评支付渠道网关系统的实践之路

    针对3中的状态同步问题,我们对不同渠道进行梳理,在已有的第三方支付渠道异步通知的基础上,通过主动查询定时批量同步状态,解决了绝大部分状态同步问题。对于仍未同步的少量Case,系统开放出供内部使用的API,方便...
    文章 2017-08-16 1511浏览量
  • 支付宝灾备能力为何引发争议

    二是究竟是出于资金安全考虑而主动放缓速度还是支付宝应急预案出现漏洞?一位国有大型银行内部人士向《财经》记者表示,如果在银行的支付系统发生大面积瘫痪超过2个小时,已经属于重大安全事故,很有可能要向国务院...
    文章 2017-09-01 1838浏览量
  • RabbitMQ 高可用之镜像队列

    将新节点加入已存在的镜像队列时,默认情况下ha-sync-mode=manual,镜像队列中的消息不会主动同步到新节点,除非显式调用同步命令。当调用同步命令后,队列开始阻塞,无法对其进行操作,直到同步完毕。当ha-sync-...
    文章 2018-12-28 2291浏览量
  • MySQL-高可用性:少宕机即高可用?

    共享存储或磁盘复制MySQL 同步复制2)如何保证系统的故障转移和恢复能力?在开始这个话题之前,我们先来认识下什么是“故障转移”。有些人用“回退”表示,也有人会使用“切换”,以表明一次计划中的切换而不是故障后...
    文章 2019-04-29 1101浏览量
  • MySQL·引擎特性·Group Replication内核解析

    基于semi-sync复制的高可用方案也存在主备不一致的风险,原因在于当master将事务写入binlog,尚未传送给slave时master故障,此时应用切换到slave,虽然此时slave的事务与master故障前是一致的,但当主机恢复后,因...
    文章 2017-08-21 4657浏览量
  • Redis复制与可扩展集群搭建

    通过主动复制我们解决了Redis单点故障问题,那么还有一个重要的问题需要解决:容量规划与在线扩容问题。我们前面分析过Redis的适用场景是全部数据存储在内存中,而内存容量有限,那么首先需要根据业务数据量进行初步...
    文章 2013-03-13 939浏览量
  • Redis的复制流程

    通过主动复制我们解决了Redis单点故障问题,那么还有一个重要的问题需要解决:容量规划与在线扩容问题。我们前面分析过Redis的适用场景是全部数据存储在内存中,而内存容量有限,那么首先需要根据业务数据量进行初步...
    文章 2017-11-27 1472浏览量
  • 大众点评支付渠道网关系统的实践之路

    针对(3)中的状态同步问题,我们对不同渠道进行梳理,在已有的第三方支付渠道异步通知的基础上,通过主动查询定时批量同步状态,解决了绝大部分状态同步问题。对于仍未同步的少量Case,系统开放出供内部使用的API,...
    文章 2017-06-29 1953浏览量
  • redis的主从配置 扩容

    通过主动复制我们解决了Redis单点故障问题,那么还有一个重要的问题需要解决:容量规划与在线扩容问题。我们前面分析过Redis的适用场景是全部数据存储在内存中,而内存容量有限,那么首先需要根据业务数据量进行初步...
    文章 2017-06-25 1982浏览量
  • KubeNode:阿里巴巴云原生 容器基础设施运维实践

    Host Doctor 是在中心侧的一个独立的故障诊断系统,对接云厂商获取主动运维事件并转换为节点上的故障 Condition。在阿里云公有云上,ECS 所在的物理机发生的硬件类的故障或是计划中的运维操作,都会通过标准 OpenAPI...
    文章 2021-03-11 962浏览量
1 2 3 4 ... 12 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化