• Facebook TSDB论文翻译

    大型互联网服务一般出现故障及时响应和保持高可用性为目标。为了提供正常稳定的服务,通常要每秒从大量系统中监控和分析数以千万计的数据(性能数据和业务数据)。一个特别高效的解决方案是用TSDB对这些数据进行...
    文章 2017-08-18 2466浏览量
  • 如何快速处理线上故障【转】

    故障定位的初期,一般会先通过邮件+电话的方式进行沟通,如果几分钟之后事态变糟糕,且没有眉目,则需要紧急启动会议形式的联合排障,所有相关人员需要放下手头事情,集中到一个特定会议室进行联合排障。这样的好处...
    文章 2017-11-16 1628浏览量
  • 常用的SQL跟踪事件

    当用户意外地同SQL Server断开连接时,一般激发该事件。最常见的原因是客户库超时,而通常来说,一个30秒的计时器在提交查询时便启动了。如果查询超时,就立即发现,因此这个事件使用很频繁。2.Errors and ...
    文章 2017-11-15 1050浏览量
  • ENode 1.0-框架的总体目标

    因为是CQRS架构,那必须要确保单个聚合根的事件的持久化顺序与分发给查询端的顺序要完全一致,否则会出现严重的数据不一致的问题;实现高吞吐量、低延迟、高可用的思路分析 关于性能的几个重要概念 吞吐量是指系统每...
    文章 2016-05-27 1715浏览量
  • 阿里:千亿交易背后的0故障发布

    召回率方面,我们已经做到了90%,这个90%是指出现了一次故障我们没有报出来,我们有效拦截了9次,这9次中可能引起故障,也可能只是有问题,但是不会造成故障,但是因为及时发现了,都没有造成故障,很难明确说这9...
    文章 2018-04-20 5188浏览量
  • 无人值守时代,运维如何保障发布质量?

    召回率方面,我们已经做到了90%,这个90%是指出现了一次故障我们没有报出来,我们有效拦截了9次,这9次中可能引起故障,也可能只是有问题,但是不会造成故障,但是因为及时发现了,都没有造成故障,很难明确说这9...
    文章 2018-04-18 4190浏览量
  • 什么说传统分布式事务不再适用于微服务架构

    协调服务(补偿框架)同样记录第 3 步的状态,同时另外记录一条事件,说明业务出现了异常。然后就是执行补偿过程了,可以从业务流水的状态中知道补偿的范围,补偿过程中需要的业务数据从记录的业务流水中获取。...
    文章 2017-07-03 1679浏览量
  • 什么说传统分布式事务不再适用于微服务架构?

    一般情况下上面的方法能够运行得很好,如果我们的微服务是 RPC 类的服务我们需要更加小心,可能出现的问题在于,(1)过滤服务在业务处理完成后才将事件结果存储到事件存储中,但是在业务处理完成前有可能就已经收到...
    文章 2017-08-01 1413浏览量
  • 微服务架构下的事务一致性保证

    重试操作一般会指定重试次数上线,如果重试次数达到了上限就不再进行重试了。这个时候应该通过一种手段通知相关人员进行处理。对于等待重试的策略如果重试时仍然错误,可逐渐增加等待的时间,直到达到一个上限后,以...
    文章 2016-12-09 18577浏览量
  • 分布式事务一致性"看这一篇就够了

    重试操作一般会指定重试次数上线,如果重试次数达到了上限就不再进行重试了。这个时候应该通过一种手段通知相关人员进行处理。对于等待重试的策略如果重试时仍然错误,可逐渐增加等待的时间,直到达到一个上限后,以...
    文章 2018-04-17 11090浏览量
  • 什么?还没听说过Prometheus,或许你需要了解这些知识...

    如果是因为底层Web服务出现故障,你同样也知道。4 静态监控 另一种反模式是使用静态阈值-例如,如果主机的CPU使用率是否超过80%就发出警报。这种检查通常是不灵活的布尔逻辑或者一段时间内的固定阈值,它们通常...
    文章 2019-09-20 839浏览量
  • 视频监控落地四要素:预测、检测、报警及定位

    从技术架构、业务流程的角度,我们的监测指标是否正常,从外部因素分析一般会受到它的上游影响。按照这个思路,逐一分析上游是否正常,就形成了一条链路。这种例子很多,比如系统架构的模块A,B,C,D,E的QPS。...
    文章 2017-07-05 1657浏览量
  • 故障处理】序列cache值过小导致CPU利用率过高

    Top 5 Timed Events这个部分也是AWR报告中非常重要的部分,从这里可以看出等待时间在前五位的是什么事件,基本上就可以判断出性能瓶颈在什么地方。通常,在没有问题的数据库中,CPU time总是列在第一个。在这里,enq...
    文章 2016-08-24 1009浏览量
  • Storm概念学习系列之什么是实时流计算?

    StreamBase认为 HA 问题应该通过 CEP 方式处理,也就是说出现问题的部件肯定反映在 SystemContainer 和 HA Container 的输出流上面,Monitor 如果通过复杂事件处理这些 Tuples 就能够检测到机器故障等问题,并做出...
    文章 2017-12-18 1639浏览量
  • 带你读《Prometheus监控实战》之一:监控简介

    许多监控框架的重点都是故障检测,即检测是否发生了特定的系统事件或处于什么状态(这是Nagios的风格)。当收到有关特定系统事件的通知时,我们通常查看收集到的任何指标,以找出发生的确切情况及其原因。在这个...
    文章 2019-11-11 4094浏览量
  • 实战、运维和调优》——1.1 什么是实时流计算

    StreamBase认为HA问题应该通过CEP方式处理,也就是说出现问题的部件肯定反映在System Container和HA Container的输出流上面,Monitor如果通过复杂事件处理这些Tuples就能够检测到机器故障等问题,并做出相应处理。...
    文章 2017-07-03 2364浏览量
  • 打造立体化监控体系的最佳实践——分布式调用跟踪和...

    此外,状态信息也是值得关注的一点,如上图所示,如果在调用过程中发生错误,就会出现异常(图中红色区域所标注),通过点击状态码,用户可以查看错误的具体信息。鹰眼于2013年在阿里巴巴内部上线,目前支撑阿里集团...
    文章 2017-05-31 15623浏览量
  • 分布式系统一致性研究

    这是可能出现的最坏的故障,此时可能发生任何类型错误,包括假冒的节点或者是被黑客攻陷的节点等。关于这个问题,Leslie Lamport在《The Byzantine Generals Problem》第一次描述了这个问题。非正式的来说,是这样的...
    文章 2014-09-22 2200浏览量
  • Flink最佳实践(一)流式计算系统概述

    有些同学到这里会出现一些概念上的混淆,我们不是已经定义过事件时间了吗,为什么还要定义处理时间?事件时间和处理时间两个管的维度不一样,事件时间是定义 切分数据集的时间边界,而 程序真正要触发计算 需要在...
    文章 2019-11-19 1843浏览量
  • Flink 必知必经典课程8:Flink Connector 详解

    而后我们的执行者便会出现一个回滚动作,撤销上一步操作。3.二阶段提交在Flink中的做法1)预提交阶段以这个文件系统的Sink来举个例子。文件系统的Sink在接收到了检查点边界之后做预提交动作(把当前的数据落盘写到...
    文章 2021-04-06 2501浏览量
  • 如何理解分布式链路追踪技术

    Trace 链路传递初探在一个链路追踪过程中,我们一般会有多个 Span 操作,为了把调用链状态在 Span 中传递下去,期望最终保存下来,比如打入日志、保存到数据库。SpanContext 会封装一个键值对集合,然后将数据像行李...
    文章 2022-05-31 65浏览量
  • Apsara Stack 技术百科|混合云全景智能化观测平台...

    观测系统一般会通过探针或客户端(Agent)的方式对众多观测对象进行分布式的数据的采集,而报警和展示往往需要将分布于各个观测对象上的指标进行一定程度的汇聚和计算才能进行。针对系统、应用观测,观测系统指标...
    文章 2022-03-09 635浏览量
  • Apsara Stack 技术百科|「云+应用」一体化混合云全景...

    监控系统一般会通过探针或客户端(Agent)的方式对众多监控对象进行分布式的数据的采集,而报警和展示往往需要将分布于各个监控对象上的指标进行一定程度的汇聚和计算才能进行。针对系统、应用监控,监控系统指标...
    文章 2022-03-09 97浏览量
  • 《网络管理:计费与性能管理策略》一1.1 记账与性能...

    它不间断地查看资源状态,并通过性能监控来预见性地检测可能的故障,同时还收集运行数据信息并进行分析,确定潜在的故障,在不影响客户的情况下将这些故障解决掉。该进程管理着SLA,并且将服务性能报告给客户。...
    文章 2017-05-02 1568浏览量
  • 【剖析|SOFARPC 框架】之SOFARPC 链路追踪剖析

    因为在高并发环境下,一个异常数据出现一次,那么就会出现1000次。然而在并发量不是很多的系统,并且对数据各位敏感时需要让业务开发人员手动设置采样率。SOFATracer 的不支持配置 采样率,但采样率也不是一个固定写...
    文章 2018-11-01 2581浏览量
  • Flink 在爱奇艺广告业务的实践

    但窗口的问题是:如果事件序列本身都在同一个窗口之内,数据没有问题;但是当事件序列跨窗口的时候,是达不到正常关联效果的。所以当时经过很多技术调研后,发现 Flink 里的 CEP 可以实现这样的效果,用类似政策匹配...
    文章 2021-08-03 1475浏览量
  • 反应式编程探索与总结

    反应式编程中,数据流Stream就像一条街道,汽车会出现在街道但会立即驶过,他们并没有停在那里。当我们观察街道时,只能看到汽车依次驶过,所以“记录汽车”在这个场景下是指持续观察一条定义好的道路。3.理论实践 3...
    文章 2019-11-25 1743浏览量
  • Apache Flink 零基础入门教程(六):状态管理及容错...

    而 Raw State 需要用户自己管理,需要自己序列化,Flink 不知道 State 中存入的数据是什么结构,只有用户自己知道,需要最终序列化为可存储的数据结构。从状态数据结构来说,Managed State 支持已知的数据结构,如 ...
    文章 2019-08-05 1180浏览量
  • Apache Flink 零基础入门教程(六):状态管理及容错...

    而 Raw State 需要用户自己管理,需要自己序列化,Flink 不知道 State 中存入的数据是什么结构,只有用户自己知道,需要最终序列化为可存储的数据结构。从状态数据结构来说,Managed State 支持已知的数据结构,如 ...
    文章 2019-08-05 5458浏览量
  • 【等待事件】等待事件系列(3+4)-System IO(控制...

    如果仅仅是这一个等待事件,对用户的操作并没有太大的影响,当伴随着出现free buffer waits等待事件时,说明此时内存中可用的空间不足,这时候影响到用户的操作,比如影响到用户将脏数据块读入到内存中。...
    文章 2016-09-17 1221浏览量
1 2 3 4 ... 7 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化