• 阿里基础设施的智能监控

    从各个机房内到中心的数据流流向和配置正好是相反的方向,数据流由单机上发起,数据第一步先中转到各个机房类的代理(Monitor),机房内的数据代理再集中向中心的数据收集器(Collector)发送,此时整个IT设备数据采集的流程...
    文章 2019-07-30 1313浏览量
  • 666IDC高防服务器 全年24小时30秒售后回复 有问题找我

    3)告知宕机的详细原因,如硬件故障,内核bug,网络异常等等。4)自动报修生成工单。我们知道,进行全网物理机宕机准确探测与实时发现,可以给宕机分析提供第一现场,获取第一现场的日志。也可以尽早将宕机数据推送给...
    文章 2020-05-14 495浏览量
  • Apache Flink 在快手的过去、现在和未来

    宕机快速发现方面,我们研发了 Hawk Service,它是一个多数派的连通性检测服务,具体的检测流程是 Hawk 集群中多个工作节点会周期性地检测集群中每台机器的连通性,由于它是多数派的,所以可信度是有保障的。...
    文章 2021-02-26 1078浏览量
  • 蚂蚁智能监控

    计算系统 计算系统提供一体化的数据采集、清洗、聚合与数据生命周期管理服务。计算系统内组件较多,可以分为服务层、计算层和采集层进行介绍。一、服务层tableapi 对外提供标准的数据服务接口;dimservice 为列式的...
    文章 2021-09-07 67浏览量
  • 6 个 K8s 日志系统建设中的典型问题,你遇到过几个?

    环境的动态性变强,在 Kubernetes 中,机器的宕机、下线、上线、Pod销毁、扩容/缩容等都是常态,这种情况下日志的存在是瞬时的(例如如果 Pod 销毁后该 Pod 日志就不可见了),所以日志数据必须实时采集到服务端。...
    文章 2019-09-18 4713浏览量
  • 滴滴基于 Flink 的实时数仓建设实践

    一种是在离线采集时已经自动生产的 DDMQ 或者是 Kafka topic,这类型的数据命名方式为采集系统自动生成规范为:cn-binlog-数据库名-数据库名 eg:cn-binlog-ihap_fangyuan-ihap_fangyuan 一种是需要自己进行采集同步...
    文章 2020-09-02 5199浏览量
  • 根本原因分析 关键事件关联 IT运维有序发展——中国...

    对于性能指标超标、宕机故障,通过手机短信、邮件直接发送给系统的管理员、维护人员及其他相关人员,在报警信息中明确哪台主机、哪个wps应用服务器、哪个应用、故障发生的时间、初步定位的故障原因等重要信息,方便...
    文章 2017-11-09 1547浏览量
  • 面试官:说出八种消息队列的应用场景。...

    比如宕机重启,如果要保证高可用需要额外的机制如双活容灾。因此: 不适合要求实时响应的系统、 不适合要求数据强一致性的系统(比如直接和钱有关系的系统 银行转账 第三方支付)、 不适合不能容忍数据丢失的系统 本文...
    文章 2020-05-23 1310浏览量
  • 开源AIOps数据中台搭建

    MTTR(Mean Time To Repair)平均修复时间,是一个衡量系统宕机时间的指标,IT运维人员以降低此目标为第一要务,越低越好。2.Cost的降低 公司每年需要在IT上投入很多钱,包括硬件、软件、服务、人员等,通过IT运维...
    文章 2019-12-31 6934浏览量
  • 重新定义数据库的时刻,阿里云数据库专家带你了解...

    网卡挂掉了,看上去像机器在系统中消失了,但本质上和宕机没有区别,因为宕机看上去也是机器突然消失了,所以在这种情况下,P问题就是A问题。第二种,机器的硬件不稳定,比如磁盘很卡导致响应请求很慢,这时候取决于...
    文章 2018-05-23 3166浏览量
  • 系列文章:云原生Kubernetes日志落地方案

    环境的动态性变强,在Kubernetes中,机器的宕机、下线、上线、Pod销毁、扩容/缩容等都是常态,这种情况下日志的存在是瞬时的(例如如果Pod销毁后该Pod日志就不可见了),所以日志数据必须实时采集到服务端。...
    文章 2019-09-08 10982浏览量
  • 可用性高达五个9!支付系统高可用架构设计实战

    在故障发生之后,特别是生产环境,第一时间要做的不是寻找故障发生的原因,而是以最快速度处理故障,保障系统的可用性。我们常见的故障和处理措施如下: gt;gt;gt;gt;自动修复 针对自动修复部分,我们常见的故障都是...
    文章 2017-05-02 1432浏览量
  • 玩转ECS第3讲|ECS自助服务之智能诊断和自动化修复

    数据采集中分为三类数据,包括实时数据、准实时数据、离线数据:●用户当前的健康数据、网络数据都属于实时数据。用户当前的操作记录、监控数据属于准实时数据。离线数据是指过去每一天的数据的快照,离线数据是可以...
    文章 2020-10-28 3175浏览量
  • 可用性高达五个9!支付系统高可用架构设计实战

    在故障发生之后,特别是生产环境,第一时间要做的不是寻找故障发生的原因,而是以最快速度处理故障,保障系统的可用性。我们常见的故障和处理措施如下: gt;gt;gt;gt;自动修复 针对自动修复部分,我们常见的故障都是...
    文章 2018-01-01 1945浏览量
  • 日处理数据量超10亿:友信金服基于Flink构建实时用户...

    相比于旧方案中 Spark 全量读 HBase 导致其读压力过大,从而会出现集群节点宕机的问题,新方案能够有效地降低 HBase 的读取压力。经过我们线上验证,新方案对 HBase 的读负载下降了数十倍(此处优化与 2 优化不同,...
    文章 2019-12-24 1639浏览量
  • 日处理数据量超10亿:友信金服基于Flink构建实时用户...

    相比于旧方案中 Spark 全量读 HBase 导致其读压力过大,从而会出现集群节点宕机的问题,新方案能够有效地降低 HBase 的读取压力。经过我们线上验证,新方案对 HBase 的读负载下降了数十倍(此处优化与 2 优化不同,...
    文章 2019-12-24 3794浏览量
  • 天网智能化,打造最安全的智慧城市

    系统可启用集群工作模式进行高可用保护,保证单台节点设备宕机的情况下,迅速由其它节点设备接管它的工作。在宕机设备恢复正常后,可以自动加入集群并与其他节点进行负载分担,提高系统自保护能力,保证智能分析的...
    文章 2017-07-04 997浏览量
  • Polling+Inotify 组合下的日志保序采集方案

    实时数据采集毫无疑问最重要的&xff0c;而其中最大的部分就是日志实时采集。日志采集Agent做了哪些工作&xff1f;日志采集Agent看起来很简单&xff1a;安装在操作系统中&xff0c;将实时产生的日志&xff08;文本&xff09;数据采集到...
    文章 2017-09-12 11788浏览量
  • 数字化与数据中台的价值思考——徐季秋

    比如说时效性大概在秒级的数据,可能是系统运维的人员比较关注的,因为要保障整个系统的使用,不能宕机。那对于开发来讲,主要是要做到问题诊断,有可能就是在运维的数据之上。有一部分运营,比如说阿里小二,更注重...
    文章 2019-11-19 1141浏览量
  • 带你读《Flink原理、实战与性能优化》之一:Apache ...

    在任务执行过程中,能够自动发现事件处理过程中的错误而导致数据不一致的问题,比如:节点宕机、网路传输问题,或是由于用户因为升级或修复问题而导致计算服务重启等。在这些情况下,通过基于分布式快照技术的...
    文章 2019-11-01 5867浏览量
  • 阿里云容器Kubernetes监控(九)-Kubernetes事件离线...

    大部分资源监控都是基于推或者拉的模式进行数据离线,因此通常数据是每隔一段时间采集一次,如果在时间间隔内出现一些毛刺或者异常,而在下一个采集点到达时恢复,大部分的采集系统会吞掉这个异常。而针对毛刺的场景...
    文章 2019-07-14 5005浏览量
  • 云时代如何实现企业IT智能诊断?...

    而此时可能服务器已经宕机,只能被迫宕机才能解决问题、恢复业务。随着云时代的到来,智能诊断则是针对传统监控的一场革命,表现在: 诊断范围对象扩大:不仅可以诊断传统IT环境,同时可以诊断多种云环境;不仅...
    文章 2019-04-12 1552浏览量
  • 天梭M13为何具有大型水平的高可用性

    RAS特性是主机与一般服务器的主要区别,同时也是主机设计的一个难题,业界产品在技术上普遍具备了超过99.99%的高可用性,但是银行、保险、证券交易所等核心业务系统宕机事件仍时有发生。100%的可靠是不存在的,但...
    文章 2017-08-02 1452浏览量
  • 云端卫士DDoS防护解决方案亮相2016中国数据中心大会

    报告指出,大多数数据中心宕机是由错误的不间断电源(UPS)设备引发,占所有事故数量的25%,紧随其后的是DDoS攻击,占22%,DDos攻击数量在过去几年稳步增长,在2013年DDos攻击只占数据中心宕机次数的18%,而2010年...
    文章 2017-09-01 1393浏览量
  • 双11幕后超级英雄:新一代运维的价值

    “双十一”刚刚结束,其实最紧张的不是商铺理货,也不是网友紧盯大促商品准备秒杀,而是网购幕后的运维人员,他们最担心:什么网络中断、应用卡顿、响应速度慢,服务器宕机…… 双十一作为电商 IT 部门的头等大事,...
    文章 2017-11-15 4731浏览量
  • 阿里巴巴复杂搜索系统的可靠性优化之路

    闲鱼搜索引擎在线离线流程/各上游重要应用系统的核心链路上,建立了完备的日志数据采集模块,对关键指标进行了精准的监控预警设置;做到任何问题都能及时被感知到。下图是搜索服务相应核心日志以及监控告警情况。...
    文章 2019-03-14 9613浏览量
  • 阿里巴巴复杂搜索系统的可靠性优化之路

    闲鱼搜索引擎在线离线流程/各上游重要应用系统的核心链路上,建立了完备的日志数据采集模块,对关键指标进行了精准的监控预警设置;做到任何问题都能及时被感知到。下图是搜索服务相应核心日志以及监控告警情况。3.3...
    文章 2019-03-19 13327浏览量
  • 快手基于 Apache Flink 的优化实践

    Kafka 基于log 机制、通过 partition 来保存实时数据&xff0c;同时也能存储很长时间的历史数据。流式计算引擎可以无缝地与kafka进行对接&xff0c;一旦出现 Failover&xff0c;可以利用 Kafka 进行数据回溯&xff0c;保证数据不...
    文章 2020-11-19 6986浏览量
  • 阿里HBase超详实践总结|一文读懂大数据时代的结构化...

    所以,这些资源的链路解耦成为我们的工作,同时,也好好对数据复制的宕机恢复速度进行了优化。数据的一致性今天,大多数生产系统会使用异步方式去实现集群间的数据复制,因为这样效率更高、逻辑更清晰。这意味着,...
    文章 2017-06-20 4586浏览量
  • 智能、互联时代的应用运维——《应用智能运维实践...

    智能模块包括状态数据采集传感器、微处理器、数据存储器、控制系统和软件&xff0c;对应智能网联汽车就是引擎控制系统、下雨感知自动车窗控制系统、车载娱乐系统和汽车辅助驾驶系统。连接模块包括天线、接口、通信协议...
    文章 2021-07-06 361浏览量
1 2 3 4 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化