• 块存储支持云化618实战总结

    传统物理机发生故障或上下线时,只能依赖上层应用保证迁移和逃逸。通过虚拟化及网络+存储等底层设施全链路支持,ECS 可以提供虚拟机在线迁移功能,在传统 IDC 无解的故障场景下,云提供了高效的逃生手段。5.磁盘热...
    文章 2019-10-09 1159浏览量
  • 舞动的桥 阿里云首个百万IOPS云盘的背后

    在工程领域通常将这类事前缺少认知,只有发生后才能意识到的问题统称为险恶性问题,这类问题杀伤极大,对于盘古这样的分布式系统同样会面临这类险恶性问题,既然对问题都没有认知,又防御何谈呢?阳光之下并无新事...
    文章 2018-02-01 4044浏览量
  • 实践高可用

    故障恢复要快 先考虑发生频率低的问题。就是怎样别人死我们不死&xff1b;自己不作死&xff1b;不被队友搞死。故障恢复要快&xff0c;那就需要事先做好应急备案&xff0c;快速准确的监控报警&xff0c;故障时快速切换备案。具体...
    文章 2022-04-26 10浏览量
  • 前世今生:蚂蚁金服自研数据库OceanBase的道路与思考

    因此,在两地三中心的架构下,如果真的发生城市级故障,我们通常也不敢把业务切到灾备中心,只能等待故障的数据中心恢复,在这个过程中,系统是无法恢复提供服务的。两地三中心的本质是同一城市内跨数据中心的扩展性...
    文章 2018-05-24 5788浏览量
  • 灾难恢复受热捧 虚拟化托管服务成趋势

    如果磁盘发生故障,或者某人错误的删除了目录,文件还可以重新获得。对于许多中小型企业来说,其他的可选择的方案还包括将BC/DR需求的全部或者一部分外包出去。XiloCore是一个灾难恢复服务,该服务在用户的站点中...
    文章 2017-08-09 1410浏览量
  • 蚂蚁金服冯柯:下一个十年,核心自研技术将迎来黄金...

    因此,在两地三中心的架构下,如果真的发生城市级故障,我们通常也不敢把业务切到灾备中心,只能等待故障的数据中心恢复,在这个过程中,系统是无法提供服务的。两地三中心的本质是同一城市内跨数据中心的扩展性和...
    文章 2018-05-15 1560浏览量
  • 蚂蚁金服冯柯:下一个十年,核心自研技术将迎来黄金...

    因此,在两地三中心的架构下,如果真的发生城市级故障,我们通常也不敢把业务切到灾备中心,只能等待故障的数据中心恢复,在这个过程中,系统是无法提供服务的。两地三中心的本质是同一城市内跨数据中心的扩展性和...
    文章 2018-05-15 2697浏览量
  • 如何做好一名稳定性SRE-业务团队系统稳定性的思与行

    空间,做稳定性的人,往往面临一个尴尬场景:晋升困难,主要是因为在技术深度和业务价值两个方面,很容易被挑战,对于业务团队,一定要留给做稳定性的人足够的思考和上升空间,将稳定性与团队的技术架构升级、业务...
    文章 2020-10-26 6475浏览量
  • 使用存储即服务优化混合云平台

    如果内部私有云部分发生故障,那么用户可以将整个工作负载都迁移至公共云且不会丢失服务。这就为用户提供了两个数据管理选项。一个是将主要数据部署在企业内部,然后将数据连续复制至公共云。在云爆发过程中,将数据...
    文章 2017-08-02 1204浏览量
  • Apache Flink 在快手的过去、现在和未来

    如果出现了一个节点故障,比如 node3 发生故障了。Flink 引擎会重新从 YARN 申请资源,完成 TaskManager 初始化,并重新部署作业。我们对一个业务作业做了一个分析,发现宕机故障后到作业恢复,共需要 90s 的时间。...
    文章 2021-02-26 1219浏览量
  • 使用存储即服务优化混合云平台

    如果内部私有云部分发生故障,那么用户可以将整个工作负载都迁移至公共云且不会丢失服务。这就为用户提供了两个数据管理选项。一个是将主要数据部署在企业内部,然后将数据连续复制至公共云。在云爆发过程中,将数据...
    文章 2017-10-02 754浏览量
  • 《解读NoSQL》——2.6 通过数据库分片获得水平扩展...

    发生分片时,你会希望数据被移动到两个系统中,而每个系统负责原来一半的工作。许多NoSQL系统内建了自动分片功能,你只需将一台服务器添加至工作节点资源池里,数据库管理系统会自动将数据移动至新节点。大多数...
    文章 2017-05-02 1796浏览量
  • Uber首席系统架构师Matt Ranney:可伸缩的软件系统...

    但是我们可以了解Uber的调度系统,怎样实行地理空间索引,怎样规划他们的系统,怎样实行高利用率和怎样处理失败,包括令人惊讶的方式处理数据中心故障,使用驱动的手机作为恢复外部分布式存储系统。在Matt的报告中,...
    文章 2017-11-20 1805浏览量
  • Uber首席系统架构师Matt Ranney:可伸缩的软件系统...

    但是我们可以了解Uber的调度系统,怎样实行地理空间索引,怎样规划他们的系统,怎样实行高利用率和怎样处理失败,包括令人惊讶的方式处理数据中心故障,使用驱动的手机作为恢复外部分布式存储系统。在Matt的报告中,...
    文章 2016-03-17 3582浏览量
  • 在家办公这些天整理的Kafka知识点大全

    Follower发生故障后会被临时提出LSR,待该follower恢复后,follower会读取本地的磁盘记录的上次的HW,并将该log文件高于HW的部分截取掉,从HW开始想leader进行同步,等该follower的LEO大于等于该Partition的hw,即...
    文章 2020-02-19 1113浏览量
  • 大华许焰:视频云让数据价值视频能力发挥更完整

    原数据还是有可能发生故障我们考虑这种状况的时候,我们云存储发生原数据故障退到NaaS数据,原数据恢复之后我们数据可以迁移到云存储进行分散存储,这是取巧的做法但的确满足我们这种运用。我们整个互联网领域我们云...
    文章 2017-09-06 2688浏览量
  • 一步一步理解Java 企业级应用的可扩展性

    不是说这一定会发生,但数据库确实可能因为应用而过载,而后逐渐延时(例如在故障转移时)。设想一 下,从数据库中再现整个用户会话状态以便用在另一个集群实例中,不仅耗费大量时间,还会影响峰值负载下的终端用户...
    文章 2017-07-03 1242浏览量
  • 原来这才是 Kafka!(多图+深入)

    避免上面的问题3.3.1、HW保证数据存储的一致性A、Follower故障Follower发生故障后会被临时提出LSR&xff0c;待该follower恢复后&xff0c;follower会读取本地的磁盘记录的上次的HW&xff0c;并将该log文件高于HW的部分截取掉&...
    文章 2021-12-14 18浏览量
  • 一波三折:DBA需要头脑冷清思路清晰解决故障以幸存

    这是一则生产环境的真实维护过程,由于RAC的测试环境空间不足,因此规划给ASM扩展空间,然而在给ASM添加新的磁盘空间时又出现了故障,这类问题在很多用户的生产环境中可能也会遇到。空间扩展的操作步骤如下: 在RAC...
    文章 2017-07-17 2939浏览量
  • 一步一步理解Java 企业级应用的可扩展性

    不是说这一定会发生,但数据库确实可能因为应用而过载,而后逐渐延时(例如在故障转移时)。设想一 下,从数据库中再现整个用户会话状态以便用在另一个集群实例中,不仅耗费大量时间,还会影响峰值负载下的终端用户...
    文章 2017-08-01 1208浏览量
  • 阿里云RDS MySQL版 使用最佳实践

    从成本考虑单机版确实可以节省一大笔开销,但是受限于单机版的架构,在发生故障时,单机版是无法快速恢复的!所以同样的单机版的SLA保障很低!单机版一般来说,只建议作为开发调试,或者是测试环境使用!高可用版 ...
    文章 2020-03-09 1751浏览量
  • 一步一步理解 Java 企业级应用的可扩展性

    不是说这一定会发生,但数据库确实可能因为应用而过载,而后逐渐延时(例如在故障转移时)。设想一下,从数据库中再现整个用户会话状态以便用在另一个集群实例中,不仅耗费大量时间,还会影响峰值负载下的终端用户...
    文章 2016-01-13 1885浏览量
  • OceanBase数据库创始人阳振坤分享征战6088万tpmC的...

    2000年伊始,随着互联网的发展,业务系统对数据库的需求发生了很大的变化。在过去,传统的数据库并发访问量从几百到几千。进入互联网时代后,并发访问量骤增,达到百万至千万的级别。越来越多的公司发现根据现有的...
    文章 2019-10-23 4045浏览量
  • 疫情期间我把波士顿动力狗带回了家,边工作边撸机器狗...

    当Spot在现场发生故障时,波士顿动力公司的工程师会收集受影响单位的数据日志,并重新创建导致问题的场景。例如,在2.0更新中提到的一个问题是Spot在光滑表面上的处理能力,即使是四条腿在被油和润滑剂弄得很光滑的...
    文章 2021-10-23 83浏览量
  • 腾讯最赚钱的部门是怎么做运维的?

    前面提到的运维上岗证的另一个作用就在这里了,大家都知道违章后驾照扣分这项处罚措施挺有威慑的,我们吸取了经验,对运维上岗证也实行积分扣分制度:运维上岗证每半年都有10分的积分,如果出现人为失误的故障就...
    文章 2017-05-02 2184浏览量
  • 主流分布式文件系统选型,写得太好了!

    这主要避免的是某机房或某城市发生自然环境故障的情况&xff0c;所以有一个副本应该分配地比较远。它的副作用是会带来这个副本的写入性能可能会有一定的下降&xff0c;因为它离 Client 最远。所以如果在物理条件上无法保证...
    文章 2021-12-20 40浏览量
  • 救火必备!问题排查与系统优化手册

    整个处理过程一定还有提升空间,你的经验教训对其他同学来说也是一次很好的输入和自查机会:幸福总是相似的,故障也是。3 排查工具 手里只有锤子,那看什么都像钉子。作为工程师,你需要的是一整套工具箱。问题排查...
    文章 2020-07-13 2568浏览量
  • 阿里,20150402春季实习生招聘在线试题(单选部分+附加...

    分析:既然正常机器人总能答对题,故障机器人反之,那就每个机器人问一个事先知道答案的问题好了。2. 答案:40 8。分析:myArray数组存放的单个元素大小为4 byte,故整个数组尺寸为40字节。C语言中,数组传参会退化...
    文章 2015-04-03 1341浏览量
  • PostgreSQL 数据库初体验

    这个方案我没用过,我觉得vote宕机后,主备的架构可能不会改变,也许业务不会受影响,只是在故障发生的时候可能会导致切换问题,这是我的理解。问: 运维的时候,PG HA是一个可靠性是个很关键的因素。我们这边使用的...
    文章 2017-05-02 2414浏览量
  • 从架构演进的角度聊聊Spring Cloud都做了些什么?

    当熔断发生的时候需要迅速的响应来解决问题,避免故障进一步扩散,那么对熔断的监控就变得非常重要。熔断的监控现在有两款工具:Hystrix-dashboard和Turbine Hystrix-dashboard是一款针对Hystrix进行实时监控的工具...
    文章 2017-11-02 1638浏览量
1 2 3 4 5 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化