• “玄惭大师”谈双十一活动中云数据库保障经验

    访问链路上需要注意应用不要使用IP来访问数据库,避免由于IP变化导致故障。3、双 11 的架构如何设计?在历年的双 11 中,由于业务流量的突增,那些平时没有暴露出来的问题往往在这个时候爆发出来,所以我们要把数据...
    文章 2017-06-05 1830浏览量
  • 分布式系统架构技术分析(二)

    比较常见的方案是利用数据库本身的主备切换机制,即每一个数据库都采用「主库+备库」的部署方式,主库故障时通过主备切换工具自动切换到备库提供服务。这种模式好处是一般 DB 都支持,操作相对简单,恢复后的处理也...
    文章 2019-08-03 695浏览量
  • 老司机的双11手记:这么牛的阿里云数据库,你造怎么用...

    访问链路上需要注意应用不要使用IP来访问数据库,避免由于IP变化导致故障。架构设计 架构设计就像我们修建一幢坚固的房子一样,需要有整体的布局设计,同时在细节上材料的选择以及施工质量的保障也同样重要。在历年...
    文章 2016-11-19 5206浏览量
  • 浅析单点故障以及云上高可用和容灾

    顾名思义,单个点发生的故障,扩展到云上的环境,指的就是单个节点发生的故障导致整个链路瘫痪。这里的节点可以是一台服务器,一个数据库,一台网络设备,乃至一个应用程序。打个简单的比方,一个加工厂流水线只有甲...
    文章 2017-09-27 4832浏览量
  • 八年来我们到底经历了什么?——中间件专家带你“重走...

    前期,我们将阿里电商常见故障进行画像和分析,得到初步结论,按照IaaS、PaaS、SaaS层进行初步划分,但这个模型无法完全通用,并非包含所有的故障;因此,后期我们对这一模型又进一步抽象,将故障分为进程内的故障...
    文章 2017-08-04 7768浏览量
  • 双11 背后的全链路可观测性:阿里巴巴鹰眼在“云原生...

    某应用在整体流量峰值时出现偶发性的 RPC 调用超时,通过分析自动记录的本地方法栈快照,发现实际耗时都是消耗在日志输出语句上,原因是 LogBack 1.2.x 以下的版本在高并发同步调用场景容易出现“热锁”,通过升级...
    文章 2019-12-20 1003浏览量
  • 【双11背后的技术】AliCloudDB——双11商家后台数据库...

    4.访问链路上需要注意应用不要使用IP来访问数据库,避免由于IP变化导致故障。3.架构设计 架构设计就像我们修建一幢坚固的房子一样,需要有整体的布局设计,同时在细节上材料的选择以及施工质量的保障也同样重要。在...
    文章 2017-01-12 3606浏览量
  • 闲鱼异地多活架构设计与实现

    前面提到数据在多区域之间存在数据同步延时,虽然导购链路可以容忍短时间的数据延时,但是我们需要避免用户连续两次请求看到的数据存在不一致(如果俩次请求分别落在不同地域)。按照地域就近访问能实现最低的访问延时...
    文章 2021-10-14 28浏览量
  • 一分钟了解阿里云产品:数据传输

    数据传输服务内部对迁移同步链路提供7*24小时的数据准确性校验,快速发现并纠正传输数据,保证传输数据可靠性。数据传输服务各模块间采用安全传输协议及安全token认证,有效得保证数据传输可靠性。数据传输服务提供...
    文章 2016-03-10 3294浏览量
  • 罗辑思维在全链路压测方面的实践和工作笔记

    在全链路压测的后期,也要进行重要的比如限流能力的检验和各种故障影响的实际检验和预案的演练。E.网络接入: 如果网络接入的节点较多,可以分别做一些DIS再压测,逐个确定能力和排除问题,然后整体enable之后再一起...
    文章 2019-02-21 5860浏览量
  • 稳定性保障6步走:高可用系统大促作战指南!

    作者|雍雍来源|阿里技术公众号一 前言...脚本常见故障排查方式、核心告警止血方式(强弱依赖不可用等),业务相关日志捞取脚本等。3)告警&大盘应包含业务、系统集群及中间件告警监控梳理结果,核心业务以及系统...
    文章 2021-03-08 1779浏览量
  • ​春晚活动下快手实时链路保障实践

    快手所有的日志拆分、同步等实时的数据流。二、春晚实时保障方案 快手中标了2020年的央视春晚,春晚作为全球华人辞旧迎新的晚会,数据量之大前所未有。快手 Flink 作为公司的实时计算平台,支持春晚超大状态和千万...
    文章 2020-06-29 524浏览量
  • 灾备重于一切 别让数据成为企业之殇

    阿里云提供的数据传输服务DTS支持各种常见关系型数据库、NoSQL及大数据库间的数据实时同步。通过DTS,您可以快速搭建数据灾备中心以实现最强壮的业务连续性。自2013年起,DTS就已开始承担阿里巴巴集团所有的实时数据...
    文章 2018-08-08 1457浏览量
  • CCNA-距离矢量协议与链路状态路由协议

    不幸的是,一个邻居也发生了故障,丢掉了几位数据,丢失的数据位是第2个LSA和第3个LSA序列号中的1位,随即该邻居路由器向外泛洪了这3个LSA,结果造成3个LSA序列号各不相同: 应用循环规则可得:44比40更新,40比8...
    文章 2017-11-07 2283浏览量
  • Hologres助力飞猪双11实时数据大屏秒级响应

    为了保证系统高可用,各个类目的交易从源头数据库的DRC同步到交易明细公共层分别构建张北、南通集群主备双链路,对于应用层的GMV统计任务和Hbase结果存储在双链的基础上又增加上海集群的备份。整体的链路架构如下: ...
    文章 2020-11-26 18232浏览量
  • 助力APP尽情“撒币”!阿里云正式上线移动直播问答...

    第一,直播互动时间短,一次直播活动时间在30分钟左右第二,百万并发,单直播房间百万级别并发用户十分常见第三,高频直播,一天 6 次左右高频直播第四,推题同步,全网用户推题和音视频画面同步 这些特点决定了整个...
    文章 2018-01-17 119809浏览量
  • 大数据时代必修技能 阿里HBase又放出了哪些大招?

    除了同步链路外,还有一套异步链路将数据从主库复制到备库,因此正常情况下不需要回放RemoteLog的数据到备库,在主库不可服务的情况下,只需要回放RemoteLog中那些还没有被异步复制链路同步到备库的数据,异步复制...
    文章 2017-08-11 3309浏览量
  • 应用容灾中,MySQL数据表是否需要跨云同步

    阿里云ASR-DR支持第一次创建同步链路时,保存过滤表的清单,后续每次同步方向切换时,由ASR-DR自动给新的链路配置过滤表。如下是阿里云数据数据传输服务DTS产品公开的资料文档。应用层角度接下来我们从应用开发商...
    文章 2021-03-12 3716浏览量
  • 阿里HBase超详实践总结|一文读懂大数据时代的结构化...

    在大多数时候,这一切都如预期工作,但当集群故障时,糟糕的事情发生了,我们发现一个异常链路会阻塞全部链路的复制恢复,究其原因,是因为在数据复制的恢复期间,很多资源是所有链路共享的。所以,这些资源的链路...
    文章 2017-06-20 4546浏览量
  • 防微杜渐的稳定性法宝:播控系统面向失败的设计

    3)任一链路故障,其他链路正常运行,稳定提供服务;4)数据库服务遵从容量设计原则,针对查询服务、变更服务相同接口有不同限流策略。2.数据库不可用兜底设计 数据库兜底设计的目的在于在数据库不可用的极端场景下...
    文章 2020-05-25 337浏览量
  • 大数据时代的结构化存储—HBase在阿里的应用实践

    在大多数时候,这一切都如预期工作,但当集群故障时,糟糕的事情发生了,我们发现一个异常链路会阻塞全部链路的复制恢复,究其原因,是因为在数据复制的恢复期间,很多资源是所有链路共享的。所以,这些资源的链路...
    文章 2017-02-21 10560浏览量
  • 如何做好一名稳定性SRE-业务团队系统稳定性的思与行

    主动梳理团队的业务时序、核心链路流程、流量地图、依赖风险,通过这个过程明确链路风险,流量水位,时序冗余;治理。主动组织风险治理,将梳理出来的风险,以专项的形式治理掉,防患于未然。演练。把风险化成攻击,...
    文章 2020-10-26 4300浏览量
  • 打造立体化监控体系的最佳实践

    链路分析除了进行拓扑形态分析之外,还能进行依赖梳理:识别易故障点、性能瓶颈、强依赖等问题;也可以根据链路调用比例、峰值QPS 评估容量。上图是一份单链路报表,单链路报表是指同一HTTP入口的调用链叠加形成、...
    文章 2017-05-08 7290浏览量
  • 如何做到全年配送 0 故障?盒马揭秘 12个关键技术

    系统稳定性保障前提是要对系统关键链路了如指掌,关键链路包括对外依赖和我们提供的服务,因此在接手智能调度系统升级改造时,我们做了非常全面的智能调度的链路分析,并在不断上线新需求后,及时完善链路,使得我们...
    文章 2020-02-18 660浏览量
  • 历年双11实战经历者:我们是如何做数据库性能优化及运...

    故障指挥官系统应运而生,该系统会基于天象数据,收集全链路数据,从实例到主机到机架到机房的物理部署链路,从实例到proxy到SLB的数据访问链路,帮助我们快速去发现故障问题点,逐点排查,这样帮助决策者大大降低...
    文章 2017-09-07 9973浏览量
  • 万亿级数据洪峰下的分布式消息引擎

    JVM(Java虚拟机)在运行过程中会产生很多停顿,常见的有GC、JIT、取消偏向锁(RevokeBias)、RedefineClasses(AOP)等。对应用程序影响最大的则是GC停顿。RocketMQ尽量避免Full GC,但Minor GC带来的停顿是难以...
    文章 2017-02-07 7075浏览量
  • 【干货篇】bilibili:基于 Flink 的机器学习工作流...

    整个链路的改动牵一发而动全身,非常容易出故障。计算层用到多个引擎,批流混用,语义很难保持一致,同样的逻辑要开发两套,保持没有 gap 也很困难。整个实时化成本门槛也比较高,需要有很强的实时离线能力,很多小...
    文章 2021-05-27 1290浏览量
  • 云计算网络基础架构的实践和演进——打造云计算网络...

    除此之外,在探索到某台设备出现故障的时候就可以进行故障隔离,可以实现端口级或者设备级的故障隔离,保证流量可以走备份或者冗余链路进而避免流量中断,当然,这种情况下可能对于流量带宽造成一定的损失。...
    文章 2017-04-24 18745浏览量
  • 【双11背后的技术】万亿级数据洪峰下的分布式消息引擎

    JVM(Java虚拟机)在运行过程中会产生很多停顿,常见的有GC、JIT、取消偏向锁(RevokeBias)、RedefineClasses(AOP)等。对应用程序影响最大的则是GC停顿。RocketMQ尽量避免Full GC,但Minor GC带来的停顿是难以...
    文章 2017-01-12 5726浏览量
  • 【剖析|SOFARPC 框架】之SOFARPC 单机故障剔除剖析

    《SOFARPC 链路追踪剖析》中已介绍 SOFARPC 的 内核设计和总线设计,和链路追踪功能一样,SOFARPC 单机故障剔除能力也是基于内核设计和总线设计,做到可插拔、零侵入。SOFARPC 单机故障剔除模块是 ...
    文章 2018-11-02 1093浏览量
1 2 3 4 ... 9 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化