• Elasticsearch 全观测技术解析与应用(四):ES全观测...

    我们前面讲到微服务调用,几百个微服务有那么多数据采集,数据量是非常大的,所以会引入Kafka承担信息缓冲,它非常重要,所以我们也会对它进行完整的链路监控。例3:基础平台 我们的服务程序一般是部署在操作系统...
    文章 2020-12-17 595浏览量
  • 20 万网络节点背后的数据创新应用

    上面说了下数据采集,接下来总结一下织云监控的理念,最核心的是建立数据银行。数据银行要做到普适性,因此数据银行的模型就必须要足够抽象。我们建立了三类数据模型: 第一类模型是海量KPI指标的TSDB存储引擎,可以...
    文章 2018-08-02 1078浏览量
  • 【双11背后的技术】万亿交易量级下的秒级监控

    SunFire是一整套海量日志实时分析解决方案,以日志、REST 接口、Shell 脚本等作为数据采集来源,提供设备、应用、业务等各种视角的监控能力,从而帮您快速发现问题、定位问题、分析问题、解决问题,为线上系统可用率...
    文章 2017-01-12 5521浏览量
  • 清华裴丹分享AIOps落地路线图,看智能运维如何落地...

    现有监控提供数据采集,AIOps的引擎做出决策建议,少数运维专家最终决策,执行自动化脚本进行故障止损、修复、规避等操作。具体而言, 1、AIOps引擎 中的“异常检测”模块在检测到异常之后可以将报警第一时间报给运...
    文章 2017-11-24 8836浏览量
  • 双11幕后超级英雄:新一代运维的价值

    智能时代的运维不是要让运维人员失业,而是对运维效率的提高有着极大的诉求,比如如何在错综复杂的环境中快速定位问题、root cause、甚至是故障预测,避免发生故障,保障应用稳定性。智能运维要借助数据(运维数据)和...
    文章 2017-11-15 4731浏览量
  • 666IDC高防服务器 全年24小时30秒售后回复 有问题找我

    icmp及tcp丢包分析,icmp采集频率为固定数秒,tcp采集频率固定数秒,包括多个不同大小包(16,32,64,128,256等)的丢包情况,根据分析时间窗内两项数据的丢包情况特殊情况干扰排除个别机房有时候会出现大面积风暴式...
    文章 2020-05-14 495浏览量
  • 微店MySQL自动化运维体系的构建之路

    我们采用自研 db_agent 实现实例的自动发现,各项元数据及性能数据采集,告别人工处理。每台数据库服务器上运行db_agent;自动发现实例,自动采集实例数据,主机数据,磁盘数据,自动添加监控。db_agent主要实现以下...
    文章 2017-05-12 2762浏览量
  • Docker 监控实战

    Cloud Insight 支持多种操作系统、云主机、数据库和中间件的监控,原理是在平台服务仪表盘和自定义仪表盘中,采集并处理 Metric,对数据进行聚合与分组等计算,提供曲线图、柱状图等多样化的展现形式。优点是监控的...
    文章 2017-05-02 1852浏览量
  • AI赋能DevOps:数据驱动的全栈工程师实践

    数据中台具备的能力,第一个就是数据采集数据采集帮我们从各个数据孤岛中,从各种环境中,把各种各样的格式的日志统一采集,然后以统一的格式被存储起来。原来数据可能在手机上,可能在网页上等等各种各样的环境,...
    文章 2019-11-04 9385浏览量
  • 应用程序的架构演变,微服务不是终点

    一个服务发生故障,就可能会产生雪崩效用,导致整个系统故障。而且,更要命的是,定位故障点变得非常困难。之前的单体应用,排查问题通常是看一下日志,研究错误信息和调用堆栈。现在可怎么办?可以从两方面入手,一...
    文章 2019-10-08 1242浏览量
  • 车联网上云最佳实践(二)

    四层负载均衡集群采用LVS服务器,主要为后端的协议解析和数据处理服务提供负载均衡功能,因为单台协议解析服务最大每秒只能处理10000台车,所以lvs下挂了很多台数据采集服务器。这样可以满足每秒海量车辆同时在线。...
    文章 2018-08-22 2602浏览量
  • Apache Flink 在快手的过去、现在和未来

    进入到 2018 年之后,在能力上,我们开始对 Flink 进行成周边体系的建设,例如,构建引擎内部 metric 的采集监控与报警流程、作业托管平台上线等。与此同时,我们也在不断的加深对 Flink 的理解,修炼内功;在业务...
    文章 2021-02-26 1078浏览量
  • 大众点评开源分布式监控平台 CAT 深度剖析

    高可用:所有应用都倒下了,需要监控还站着,并告诉工程师发生了什么,做到故障还原和问题定位。故障容忍:CAT本身故障不应该影响业务正常运转,CAT挂了,应用不该受影响,只是监控能力暂时减弱。高吞吐:要想还原...
    文章 2016-11-15 2278浏览量
  • 车联网上云最佳实践(一)

    数据采集:首先通过车载智能终端设备收集汽车相关行驶数据,然后通过物联网卡(即sim卡)上报到平台,平台经过协议解析服务将数据转换成可读的数据并进行存储下来,并且需要把原始数据也保存一份。数据处理:将解析...
    文章 2018-08-31 2943浏览量
  • 2.0解析系列|一文详解新一代OceanBase云平台

    3.进行数据相关的采集、存储、同步、管理等开发,基于数据做智能诊断,在数据采集、建模分析、产生决策、自动修复上形成闭环。可直接发送简历到 OceanBase-Public@list.alibaba-inc.com,我们等的就是你!
    文章 2018-10-10 1841浏览量
  • 2.0 解析系列|一文详解新一代OceanBase云平台

    3.进行数据相关的采集、存储、同步、管理等开发,基于数据做智能诊断,在数据采集、建模分析、产生决策、自动修复上形成闭环。职位描述: 1.丰富的Java开发经验,基础扎实,了解Java并发编程及性能优化;2.熟悉MySQL...
    文章 2018-10-10 2543浏览量
  • DBA很忙—MySQL的性能优化及自动化运维实践

    自动化故障切换是发生在单节点发生故障。比如说变更操作,一些Keepalive部署配置,切换脚本,VRRP协议来实现的。也是通过编写一些脚本,那这个脚本可能会定期去检查我们的数据库节点的运行状况。比如说这个VIP有没有...
    文章 2018-11-16 4315浏览量
  • 游戏运维编年史:可能是目前最详细游戏运维指南

    数据采集怎么样尽可能的保证并发的采集,缩短时间。数据的出现丢失或错误,整体数据回滚。谁来保证?怎么保证?大量数据下,核对数据丢失情况怎么样核对?用什么方法?那大掌门又是如何解决这些问题的呢: 1、将数据...
    文章 2017-05-02 3171浏览量
  • 疫情期,APP 崩了怎么办?阿里工程师公开高可用架构...

    面对复杂的应用环境和高速增长的业务,ARMS 能帮助用户快速构建各种环境下完整的监控体系,实现从页面到数据库、从应用性能到基础架构资源、从 IT 到业务的端到端监控。减少故障排查时间,降低跨部门沟通成本,最终...
    文章 2020-02-18 5055浏览量
  • 阿里、万国、XDC+数据中心建设经验分享

    UPS,在数据中心电力运维方面,整个数据中心采用统一的UPS,以保障任何一台UPS出现故障,都会有备件的UPS来支撑数据中心业务连续性,并为每组数据中心机房模块配备独立的2NUPS,以保障电力设施的可靠性;在整个系统...
    文章 2017-08-01 1756浏览量
  • 如何应对数据库CPU打满?最优解在这里.

    1.全网数据库实例的秒级数据监控技术,目前监控采集链路实现了全网所有数据库实例的秒级采集监控、展现、诊断,可每秒实时处理超过1000万项监控指标,为数据库服务智能化打下了坚实的数据基础;2.全网统一的RDS...
    文章 2020-04-22 739浏览量
  • 【杭州云栖】阿里云高级技术专家刘廷伟:全球CDN服务...

    比如节点故障的隔离,如果1500个节点,有1000个节点监测出问题了,怎么办?自动化处理下线修复?那剩下的500个节点就被流量打爆了。一定要给自动化安个熔断器,做到可控的自动化。一个是自动化穷举的问题,你不可能...
    文章 2018-09-21 3921浏览量
  • 疫情期,APP 崩了怎么办?阿里工程师公开高可用架构...

    面对复杂的应用环境和高速增长的业务,ARMS 能帮助用户快速构建各种环境下完整的监控体系,实现从页面到数据库、从应用性能到基础架构资源、从 IT 到业务的端到端监控。减少故障排查时间,降低跨部门沟通成本,最终...
    文章 2020-02-18 4597浏览量
  • 如何基于DataWorks构建数据中台?

    大家如果做过大数据的话,在数据采集的时候经常会碰到,同时有离线和实时的计算该怎么办?离线计算我们推荐阿里云上的MaxCompute,阿里巴巴几乎所有的离线数据都放在MaxCompute上,2020年双11 MaxCompute每日数据...
    文章 2020-12-07 12078浏览量
  • 自动化测试—业务线仿真回归流程剖析

    Hadoop集群的计算和数据处理能力随着集群规模的增长逐渐形成了一个弥漫天际的浩翰空间,处于其中的各种数据应用、采集作业、数据分析、数据挖掘,以及前沿的机器学习、人工智能等都如同空间中的一朵朵云彩,此消彼长...
    文章 2017-07-03 1316浏览量
  • 阿里云新品发布会周刊第112期 丨 空中架构师云速搭...

    减轻了工作量、提升开发工作效率的同时还能减少bug的发生 查看原文2、快速界定故障:Socket Tracer网络监控实践Socket Tracer定位是传输层(Socket&TCP)的指标采集工具,通过补齐网络监控的这部分盲区,来达到...
    文章 2021-08-06 94浏览量
  • 基于DataWorks搭建新零售数据中台

    大家如果做过大数据的话,在数据采集的时候经常会碰到,同时有离线和实时的计算该怎么办?离线计算我们推荐阿里云上的MaxCompute,阿里巴巴几乎所有的离线数据都放在MaxCompute上,2020年双11 MaxCompute每日数据...
    文章 2020-11-11 22927浏览量
  • 面向未来的数据库体系架构思考:把数据库装入容器

    这是一个典型的3城市4份数据5份日志架构,如果要简化且考虑数据存储成本的话,实际上可以做到3份数据5份日志,这样的话就可以保证城市级、机房机、包括单机任何的故障都可以避免,并且是零数据丢失的,在今天我们...
    文章 2017-07-03 1162浏览量
  • 阿里下一代数据库技术:把数据库装入容器不再是神话

    这是一个典型的3城市4份数据5份日志架构,如果要简化且考虑数据存储成本的话,实际上可以做到3份数据5份日志,这样的话就可以保证城市级、机房机、包括单机任何的故障都可以避免,并且是零数据丢失的,在今天我们...
    文章 2017-05-24 12399浏览量
  • 2017QCon分享:从淘宝到云端的高可用架构演进

    这个给我们带来的启示是什么,云服务本身也是会发生故障的,比如买了云数据库,我们没有办法假设它是100%可用的,当它出现问题我们怎么办,是给云厂商提工单说什么时候能恢复,还是我自己能够有一个容灾的方案解决这...
    文章 2017-10-25 2952浏览量
1 2 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化