• 链路分析 K.O“五大经典问题”

    ​通过链路分析按 IP 分组统计链路数据,快速了解调用请求分布在哪些机器上,特别是问题发生前后的流量分布变化,如果大量请求突然集中在一台或少量机器,很可能是流量不均导致的热点问题。再结合问题发生点的变更...
    文章 2021-11-27 10浏览量
  • 计算机网络通信中的数据链路层

    检测链接状态——要有一种机制来检测链路的状态,比如一段链路出现发生故障,要过多长时间重新发送。最大传送单元(MTU) 网路地址协商——要有一种机制能确保两个实体知道彼此的网络层地址 数据压缩协商——传送的...
    文章 2018-11-02 1107浏览量
  • 块存储支持云化618实战总结

    传统物理机发生故障或上下线时,只能依赖上层应用保证迁移和逃逸。通过虚拟化及网络+存储等底层设施全链路支持,ECS 可以提供虚拟机在线迁移功能,在传统 IDC 无解的故障场景下,云提供了高效的逃生手段。5.磁盘热...
    文章 2019-10-09 989浏览量
  • Apache Flink 在快手的过去、现在和未来

    如果出现了一个节点故障,比如 node3 发生故障了。Flink 引擎会重新从 YARN 申请资源,完成 TaskManager 初始化,并重新部署作业。我们对一个业务作业做了一个分析,发现宕机故障后到作业恢复,共需要 90s 的时间。...
    文章 2021-02-26 1083浏览量
  • 分布式系统数据层设计模式

    全局状态型数据一般是辅助型的非关键业务,一旦数据故障,“要么等,要么忍”——牺牲 RTO 等待数据库主备切换,或者牺牲 RPO 立即强切备库。在做架构设计时,需要尽量避免关键业务强依赖全局状态型数据。如果真的...
    文章 2019-08-03 749浏览量
  • 2.0解析系列|一文详解新一代OceanBase云平台

    OCP 2.0由运维链路、监控链路、诊断链路数据链路、高可用链路、基础设施等若干子系统。每个子系统又切分成数十个甚至上百个小服务,每个服务实现一个独立的业务逻辑,服务间弱依赖,带来了开发语言以及系统框架...
    文章 2018-10-10 1857浏览量
  • 【杭州云栖】阿里云高级技术专家刘廷伟:全球CDN服务...

    比如节点故障的隔离,如果1500个节点,有1000个节点监测出问题了,怎么办?自动化处理下线修复?那剩下的500个节点就被流量打爆了。一定要给自动化安个熔断器,做到可控的自动化。一个是自动化穷举的问题,你不可能...
    文章 2018-09-21 3936浏览量
  • 如何做好一名稳定性SRE-业务团队系统稳定性的思与行

    比如,对一些可能导致问题的服务失败,能够自动走兜底处理逻辑,能够建立一个调度任务,自动对这部分数据进行调度处理;对一些机器的load飚高、服务抖动等,能自动重启,自动置换机器。自助是让你的客户自己动手,...
    文章 2020-10-26 4841浏览量
  • 舞动的桥 阿里云首个百万IOPS云盘的背后

    说者无心,听者有意,另外一个同事想在哪种情况下会出现这样的错误,由于我们的CRC和数据逻辑空间上是相邻的,会不会是这片数据其实不属于当前文件,而是和另外一个文件搞串了?大胆假设,小心求证,全盘扫描后...
    文章 2018-02-01 3904浏览量
  • 用SpringCloud进行微服务架构演进

    当熔断发生的时候需要迅速的响应来解决问题,避免故障进一步扩散,那么对熔断的监控就变得非常重要。熔断的监控现在有两款工具:Hystrix-dashboard和Turbine。Hystrix-dashboard是一款针对Hystrix进行实时监控的工具...
    文章 2019-03-25 3396浏览量
  • 2.0 解析系列|一文详解新一代OceanBase云平台

    OCP 2.0由运维链路、监控链路、诊断链路数据链路、高可用链路、基础设施等若干子系统。每个子系统又切分成数十个甚至上百个小服务,每个服务实现一个独立的业务逻辑,服务间弱依赖,带来了开发语言以及系统框架...
    文章 2018-10-10 2557浏览量
  • 蚂蚁金服分布式链路跟踪组件 SOFATracer 链路透传原理...

    SOFATracer 是一个用于分布式系统调用跟踪的组件,通过统一的 TraceId 将调用链路中的各种网络调用情况以日志的方式记录下来,以达到透视化网络调用的目的,这些链路数据可用于故障的快速发现,服务治理等。...
    文章 2019-01-24 1438浏览量
  • 蚂蚁金服分布式链路跟踪组件链路透传原理与SLF4J MDC...

    SOFATracer 是一个用于分布式系统调用跟踪的组件,通过统一的 TraceId 将调用链路中的各种网络调用情况以日志的方式记录下来,以达到透视化网络调用的目的,这些链路数据可用于故障的快速发现,服务治理等。...
    文章 2019-08-01 561浏览量
  • 应用程序的架构演变,微服务不是终点

    一个服务发生故障,就可能会产生雪崩效用,导致整个系统故障。而且,更要命的是,定位故障点变得非常困难。之前的单体应用,排查问题通常是看一下日志,研究错误信息和调用堆栈。现在可怎么办?可以从两方面入手,一...
    文章 2019-10-08 1246浏览量
  • 开源自建/托管与商业化自研 Trace,如何选择?

    非 Java 应用推荐通过 Jaeger 接入,并将数据上报至 ARMS Endpoint,ARMS 会完美兼容多语言应用间的链路透传与展示。阿里云 ARMS 目前的全链路追踪方案是基于 Jaeger 协议,正在开发 SkyWalking 协议,以便支持 ...
    文章 2021-08-24 229浏览量
  • Flink+Iceberg 全场景实时数仓的建设实践

    其次,Kappa 架构是强烈依赖消息队列的,我们知道消息队列本身在整个链路数据计算的准确性是严格依赖它上游数据的顺序,消息队列接的越多,发生乱序的可能性就越大。ODS 层数据一般是绝对准确的,把 ODS 层的数据...
    文章 2021-01-28 2404浏览量
  • 阿里电商架构演变之路

    比如说第一个要做单元化的是交易单元,我们就把整个交易链路划分出来,放到各个逻辑单元里面,然后在水平方向上进行拆分,然后把数据再在水平上做一个区分。单元内的数据就不要发跨单元。如果跨单元就会出现一些问题...
    文章 2017-08-07 16058浏览量
  • Spring Cloud 微服务的那点事

    在这一阶段往往会将系统分为不同的层级,每个层级有对应的职责,UI层负责和用户进行交互、业务逻辑层负责具体的业务功能、数据库层负责和上层进行数据交换和存储。在这一阶段我们最常使用到的开发框架就是Spring...
    文章 2018-09-25 1012浏览量
  • 从架构演进的角度聊聊Spring Cloud都做了些什么?

    在这一阶段往往会将系统分为不同的层级,每个层级有对应的职责,UI层负责和用户进行交互、业务逻辑层负责具体的业务功能、数据库层负责和上层进行数据交换和存储。下面是垂直架构的架构图: 在这个阶段SSH(struts+...
    文章 2017-11-02 1580浏览量
  • 从架构演进的角度聊聊Spring Cloud都做了些什么?

    在这一阶段往往会将系统分为不同的层级,每个层级有对应的职责,UI层负责和用户进行交互、业务逻辑层负责具体的业务功能、数据库层负责和上层进行数据交换和存储。下面是垂直架构的架构图: 在这个阶段SSH(struts+...
    文章 2016-09-26 1700浏览量
  • 开源自建/托管与商业化自研 Trace,如何选择?

    包含很多代码逻辑&xff09;时&xff0c;会遇到 CPU 水位突然变得很高&xff0c;但是又无法清晰的定位是哪一段代码导致的&xff0c;只能不停的做 jstack&xff0c;肉眼比对线程状态变化&xff0c;然后根据经验不断进行优化尝试&xff0c;...
    文章 2021-08-24 50浏览量
  • 支付宝支撑双十一4200万次/秒的数据库请求峰值的技术...

    在节点角色上,有几个节点(root service)负责管理集群拓扑结构等全局信息,相对特殊一点,但每个节点都具备承担这个角色的能力,如果当前承担该角色的节点发生故障,集群会自动选举出新的节点承担这个角色。...
    文章 2018-05-10 2683浏览量
  • 纯干货|从淘宝到云端的高可用架构演进

    这个给我们带来的启示是什么,云服务本身也是会发生故障的,比如买了云数据库,我们没有办法假设它是100%可用的,当它出现问题我们怎么办,是给云厂商提工单说什么时候能恢复,还是我自己能够有一个容灾的方案解决这...
    文章 2017-06-19 2162浏览量
  • DAS 解决延时突高的案例分享

    如果数据库端没有发生慢查询,那一定是整个链路其他地方发生了延时,随后我们把精力回到应用端。通过研究日志,我们发现了和直觉相反的现象:延时没有发生数据库操作频率比较高的操作上,而是发生在一些操作频率很...
    文章 2020-03-27 668浏览量
  • 开源自建/托管与商业化自研 Trace,如何选择?

    包含很多代码逻辑&xff09;时&xff0c;会遇到 CPU 水位突然变得很高&xff0c;但是又无法清晰的定位是哪一段代码导致的&xff0c;只能不停的做 jstack&xff0c;肉眼比对线程状态变化&xff0c;然后根据经验不断进行优化尝试&xff0c;...
    文章 2021-08-27 225浏览量
  • 2017QCon分享:从淘宝到云端的高可用架构演进

    这个给我们带来的启示是什么,云服务本身也是会发生故障的,比如买了云数据库,我们没有办法假设它是100%可用的,当它出现问题我们怎么办,是给云厂商提工单说什么时候能恢复,还是我自己能够有一个容灾的方案解决这...
    文章 2017-10-25 2954浏览量
  • 20 万网络节点背后的数据创新应用

    对我们来说,关注的指标从当时的成功率到了用户体验,采集的数据量也发生了巨大变化。我们对服务器进行监控管理20万个节点,数据量还可控。当我们要处理2亿用户的数据的时候,监控系统架构需要做相关升级和改造了。...
    文章 2018-08-02 1086浏览量
  • 一个复杂系统的拆分改造实践

    我们对某一个核心应用的旁支逻辑异步化后,响应时间几乎缩短了1/3,且后面中间件、其它应用等都出现过抖动情况,而核心链路一切正常;d)适当保护第三方,慎重选择重试机制 2)防备使用方 a)设计一个好的接口,避免...
    文章 2017-01-04 7725浏览量
  • 阿里集团搜索中台TisPlus

    运维人员才能参与处理线上问题,遇到核心业务事后亡羊补牢式的处理,但已经不能改变背P级故障的厄运,也许故障reivew过后发现是业务方查询使用不当或者数据量、查询量的预估不合理,最终故障单并不是...
    文章 2018-01-26 6897浏览量
  • 如何基于DataWorks构建数据中台?

    数据中台建设的目标是,要建立一个数据丰富(全链路、多维度)、质量可靠(口径标准,结果准确),运行稳定(产出及时、无故障)的一个中间层。很多人会说这是数据集市,没关系,它就是个中间层。还有一点是数据中台...
    文章 2020-12-07 12105浏览量
1 2 3 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化