• Redis详解(八)-主从复制

    通过前面的配置,主节点Master 只有一个,一旦主节点挂掉之后,从节点没法担起主节点的任务,那么整个系统也无法运行。如果主节点挂掉之后,从节点能够自动变成主节点,那么问题就解决了,于是哨兵模式诞生了。哨兵...
    文章 2018-06-10 1462浏览量
  • Linux时间子系统之七:定时器的应用-msleep(),...

    不过do_nanosleep可能在没有达到所需延时数量时由于其它原因退出,如果出现这种情况,hrtimer_nanosleep的最后部分把剩余的延时时间记入进程的restart_block中,并返回ERESTART_RESTARTBLOCK错误代码,系统或者用户...
    文章 2016-01-14 936浏览量
  • 饿了么异地双活数据库实战

    不一致的原因可能是业务写错了,DRC出BUG了,还有可能是各环节(包括DB)的配置问题,如果你没有相应数据校验的工具,其实你是很难知道到底数据是不是一致的,多活做的时候这个情况必须要能掌握,否则心里没底了。...
    文章 2017-12-26 6971浏览量
  • AIX LVM基本概念理解及十八个典型问题

    (1)LVM方式将磁盘做镜像,那么两个镜像副本的IO延时会有几个毫秒的差异,两个镜像的链路也会存在抖动的风险,那么LVM层面有什么参数或者是策略能较少这方面的风险?(2)将设远端镜像IO延时超时,那么另外一个镜像就...
    文章 2017-08-09 1734浏览量
  • ofo在MaxCompute的大数据开发之路

    第一,并发,多机多进程,以减少进程挂掉服务器挂掉带来的影响。第二,协作,要求能建立依赖关系。比如先计算完某张表后再计算依赖它的表。第三,可监控,当出现故障时能及时报警。第四,可扩展性,在任务调度中写的...
    文章 2018-06-15 4554浏览量
  • 解读数据传输DTS技术架构及最佳实践

    这时候就会涉及到一些问题,比如断点是如何解决的,另外如果表在全量迁移的过程中挂掉了,是否能连接起来之后从挂掉的地方继续运行,这样尽可能节约时间和计算成本,除此之外还会涉及到无主键表所造成的困难,而这些...
    文章 2017-09-01 11172浏览量
  • 今日头条在消息服务平台和容灾体系建设方面的实践与...

    对于顺序消息我们会采取一定的调度逻辑保证均衡的分担压力获取消息,这个架构的优点是比较简单,缺点是当集群中一边挂掉时,会造成有序消息的无序,这边是通过记录消息 offset 来处理的。此外,还有一种独立集群部署...
    文章 2019-11-04 2553浏览量
  • 20 万网络节点背后的数据创新应用

    给大家分享一个最近的真实案例,2018年春节前的最后一个周末2月10号凌晨6点29分,已有同学休假回家,大部分人还在被窝里熟睡的时候,深圳某个机房的机架电。直到7点20分,负责机房的同学才告诉我们机房的温度异常...
    文章 2018-08-02 1078浏览量
  • 快手基于 Apache Flink 的优化实践

    具备延时短、性能高等特性&xff0c;在当时颇受喜爱。但是 Storm 没有提供系统级别的 failover 机制&xff0c;无法保障数据一致性。那时的流式计算引擎是不精确的&xff0c;lamda 架构组装了流处理的实时性和批处理的准确性&...
    文章 2020-11-19 6986浏览量
  • 性能分析系列1:小命令保证大性能

    可以添加JVM的启动参数来去掉提前报警限制:XX:UseGCOverheadLimit,于其让应用每次都提前报警,还不如让暴风雨来的更猛些,直接内存溢出,因为服务器是集群,其中一台挂掉不会影响线上正常交易,同时也方便我们通过...
    文章 2017-05-02 1097浏览量
  • 【推荐】RAC 性能优化全攻略与经典案例剖析

    这个例子也说明,有时候我们收到用户系统变慢的通知,在数据库中并不能发现什么性能问题,问题的真正原因很可能是由于主机层面的资源限制引起。谈到PSU升级和打补丁的问题,不得不提到两个坑,希望能够给大家提供...
    文章 2017-11-29 5670浏览量
  • 年终盘点|七年零故障支撑双11的消息中间件 RocketMQ,...

    云原生模式下,所有的实例环境均是一致性的,依托容器技术和 Kubernetes 的技术,可实现任何实例挂掉(包含宕机引起的挂掉),都能自动自愈,快速恢复。解决了数据的可靠性和服务的可用性后,整个云原生化后的架构...
    文章 2020-12-16 585浏览量
  • 微服务转型,雪崩效应是绕不过的一道坎

    如果某个业务系统挂掉了,如何按需做自动伸缩分布式方案方案也需要考虑。问题定位:单体应用的日志集中在一起,出现问题定位很方便,而分布式环境的问题定界定位,日志分析都较为困难。雪崩问题:分布式系统都存在...
    文章 2017-09-04 2211浏览量
  • 阿里的 RocketMQ 如何让双十一峰值之下 0 故障?

    云原生模式下,所有的实例环境均是一致性的,依托容器技术和 Kubernetes 的技术,可实现任何实例挂掉(包含宕机引起的挂掉),都能自动自愈,快速恢复。解决了数据的可靠性和服务的可用性后,整个云原生化后的架构...
    文章 2021-04-06 4134浏览量
  • 八年磨一剑,阿里云ApsaraDB for HBase2.0正式上线

    如上图所示,client1分别时间间隔内写入x=1、x=2、x=3,在同步数据的时候时,client2进行读x的值,它是可以读任何一台server上的x值,这就保证了读的高可用性,即使有机器了也可以有 99.9%延时<20ms保证。可以...
    文章 2018-06-05 10435浏览量
  • 搜狐畅游高级DBA:Data Guard运维中的实战经验和技巧

    如果主库挂掉,备库能够进行Failover(故障转移),11g的备库现在被赋予了更多的责任,一主一备可以支持。批量查询。如果备库批量任务压力较大,本身对于CPU资源消耗较大;如果长年累月,本身硬件消耗就不可忽略;...
    文章 2017-05-02 2200浏览量
  • 年终盘点|七年零故障支撑 双11 的消息中间件 RocketMQ...

    云原生模式下,所有的实例环境均是一致性的,依托容器技术和 Kubernetes 的技术,可实现任何实例挂掉(包含宕机引起的挂掉),都能自动自愈,快速恢复。解决了数据的可靠性和服务的可用性后,整个云原生化后的架构...
    文章 2020-12-17 3832浏览量
  • 一直播、小咖秀大数据自动化运维实践

    当一个请求过来时,它用Consul DNS解析,拿到三个服务的解析,如果一台服务挂掉了,它会自动摘除,请求就会到其他的节点上。我们在一个运维平台上需要有监控和报警,我们需要做监控系统的开发。Consul本身支持Shell ...
    文章 2018-07-31 3066浏览量
  • ElasticSearch架构反向思路

    因为ElasticSearch是基于Lucene的,而Lucene并不提供事务操作,比如先行锁再Update,因此一旦出现冲突时,因为网络延时原因,有可能后面的数据覆盖前面的数据,这种情况怎么考虑,是加一个时间版本号还是忽略这种...
    文章 2018-07-23 8822浏览量
  • 《返璞归真-UNIX技术内幕》-第9章 字符设备驱动

    3.在用户输入字符时,处理进程未必能够接收该字符,比如它正在进行磁盘访问而起等,或者用户采用行模式输入时。这时如果不缓存用户的输入字符,则它在下一次输入时就会丢失,因为RBUF中只能存储1个字符。而在中断...
    文章 2010-07-17 732浏览量
  • Qunar 高速发展下数据库的创新与发展

    (3)HBase 的软件栈是 Java,JVM 的 GC 是个很头疼的问题,在运维过程中多次出现 RegionServer 因为 GC 挂掉的情况,另外很难通过优化来消除访问延时毛刺,给运维造成了很大的困扰。此外,HBase 在编程语言支持访问对...
    文章 2018-07-14 1970浏览量
  • zookeeper原理入门

    因为EPHEMERAL类型节点有一个很重要的特性,就是客户端和服务器端连接断掉或者session过期就会使节点消失,那么在某一个机器挂掉或者断链的时候,其对应的节点就会消失,然后集群中所有对/APP1SERVERS进行watch的...
    文章 2017-07-03 3281浏览量
  • Facebook TSDB论文翻译

    Facebook的数据仓库解决方案Hive也存在问题,它比ODS的查询延时还要高几个数量级,而查询的延时和效率恰恰是我们最关心的。接下来我们将注意力放在了内存级的缓存上。ODS先前使用了一个简单的read-through cache读取...
    文章 2017-08-18 2206浏览量
  • 老司机的双11手记:这么牛的阿里云数据库,你造怎么用...

    在历年的双11中,已经有很多用户实施过这样的方案,你可以选择在两个不同的数据中心部署数据库和应用,比如在杭州和上海两个地区部署,两个数据中心的数据同步采用DTS,以保证一个数据中心挂掉后,另外一个数据中心...
    文章 2016-11-19 5251浏览量
  • 为什么分布式要有分布式锁!

    比如如果锁自动释放时间是10秒钟,那每个节点锁请求的超时时间可能是5-50毫秒的范围,这个可以防止一个客户端在某个宕掉的master节点上阻塞过长时间,如果一个master节点不可用了,我们应该尽快尝试下一个master节点...
    文章 2018-08-01 8853浏览量
  • 【双11背后的技术】AliCloudDB——双11商家后台数据库...

    在历年的双11中,已经有很多用户实施过这样的方案,你可以选择在两个不同的数据中心部署数据库和应用,比如在杭州和上海两个地区部署,两个数据中心的数据同步采用DTS,以保证一个数据中心挂掉后,另外一个数据中心...
    文章 2017-01-12 3625浏览量
  • 分布式系统架构,回顾2020年常见面试知识点梳理(每次...

    一个可靠安全的系统,肯定要考虑数据的可靠性,尤其对于内存为主的 Redis,就要考虑一旦服务器挂掉,启动之后,如何恢复数据的问题,也就是说数据如何持久化的问题。AOF 就是备份操作记录。AOF 由于是备份操作命令,...
    文章 2020-12-30 236浏览量
  • 揭开数据库RPO等于0的秘密(下)

    这里接着分析这个宕掉的节点起来后的恢复逻辑。跟传统关系型数据库一样,它会读取事务日志,重做事务。但是不同的地方在于这个时候observer不需要再次读入基线数据,而只需要根据事务日志在增量内存里构建相关分区的...
    文章 2019-03-06 1808浏览量
  • 大众点评账号业务高可用进阶之路

    每次收到告警,我们都要去找出背后的原因,如果是流量涨了,是有活动了还是被刷了?如果流量跌了,是日志延时了还是服务出问题了?另外值得重视的是告警的频次,如果告警太多就会稀释大家的警惕性。我们曾经踩过一次...
    文章 2018-06-14 1452浏览量
  • 性能分析系列-小命令保证大性能

    可以添加JVM的启动参数来去掉提前报警限制:XX:UseGCOverheadLimit,于其让应用每次都提前报警,还不如让暴风雨来的更猛些,直接内存溢出,因为服务器是集群,其中一台挂掉不会影响线上正常交易,同时也方便我们通过...
    文章 2016-07-22 842浏览量
1 2 3 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化