• 如何使用阿里云ARMS诊断Java服务报错问题

    当然除了错误以外,网站还会出现页面卡顿、内存泄漏等一系列问题。利用ARMS快速解决更多网站疑难杂症,请继续关注“网站常见问题1分钟定位”系列其他文章。延伸阅读:网站常见问题1分钟定位(一)|阿里云ARMS诊断...
    文章 2018-08-10 3407浏览量
  • 从0到1建立基于大数据的质量平台

    比如说北京市联通出现了播放成功率下跌,通过聚合发现,出错 CDN IP 高度集中,告警层面就可以直接交给网络服务定位系统去处理了。此外,监控从实时性、准确性、告警条件模型都有一些探索,我们将在 QCon 的分享中和...
    文章 2018-03-08 12465浏览量
  • 基于 RocketMQ Prometheus Exporter打造定制化DevOps...

    但是直接将2个维度和1个维度相除会出现问题,因此需要加ignoring(status)group_left。PromQL还提供其它匹配模式,包括一对一、一对多、多对一等匹配模式。二、主流消息队列比较 基础项对比 下图对比了一些主流的消息...
    文章 2020-06-24 655浏览量
  • 前端故障演练的探索与实践|D2分享视频+文章

    举几个例子,我们通过演练可以去验证CodeReview是否严肃,自动化用例的漏检和误检率处于什么水平,兼容性、国际化、性能问题的预防和发现能力表现如何,或者去评估前端的监控覆盖率、告警触达率以及人员的应急响应...
    文章 2021-01-08 773浏览量
  • Elasticsearch 全观测技术解析与应用(二):技术原理...

    告警的角度,它也可以写一些告警的规则,通过 webhook 等对外告警。这是做指标系统比较常用的一套堆栈。第三是日志。如何从日志获得可观测性?日志很多就是一串字符串,所以要从这里面获得可观测性,很重要的一步...
    文章 2020-12-17 582浏览量
  • 【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之...

    大家知道 K8s 社区只能够支撑五千个节点,当超过这个规模时,会出现各种性能瓶颈问题,比如:etcd 出现大量的读写延迟。kube-apiserver 查询 pods/nodes 延时很高,甚至导致 etcd oom。控制器无法及时感知数据变化,...
    文章 2021-05-17 652浏览量
  • 模拟监控VS真实用户监控!应用性能监控工具大PK

    模拟监控解决方案在告警网站可用性方面颇有成效,你可以在访客到达网站之前了解网站出现问题。如果我们的系统检测出网站宕机,你可以使用各种各样的工具,分析出故障的组件,尽快修复故障,使网站平稳运行。以下是...
    文章 2016-01-04 2458浏览量
  • Serverless 时代 DevOps 的最佳打开方式

    3)监控告警:丰富的告警源上报、告警收敛处理、多种告警渠道触达(如邮箱、短信、电话等)。Logging代表离散的数据,提供以下功能:1)实时日志:Stdout、Stderr 实时查看;2)文件日志:自定义采集规则、持久化...
    文章 2021-03-18 973浏览量
  • Pull or Push?监控系统如何选型

    比如监控一千个副本的交易应用的QPS,这个指标需要结合一千个数据进行叠加,如果没有数据齐全度的概念,若配置QPS相比降低2%告警,由于网络波动,超过20个副本上报的数据延迟几秒,那就触发误报。因此在配置告警的...
    文章 2021-08-27 2089浏览量
  • 云计算网络基础架构的实践和演进——打造云计算网络...

    探测和切换机制,实际上在网络配置交付之后,如果远端出现问题,为了解决链路上的负载均衡以及主备切换的问题,可以引入比如NQA+Track这样的探测技术,这样可以针对静态路由的配置通过不同的优先级和NQA探测方式...
    文章 2017-04-24 18739浏览量
  • 企业安全:从触觉时代到视觉时代

    当监测到漏洞出现之后,态势感知及时向用户告警,并提供相应解决方案,协助用户及时将漏洞进行弥补。紧急事件 紧急事件就是客户最需要紧急处理的事件!不处理就产生资损或业务中断。态势感知的紧急事件功能,...
    文章 2017-06-30 2095浏览量
  • 读《SRE:Google运维解密》一点思考

    2.2.2 面向SLO监控的设计-SLO结果导向的告警,而不是原因导向的告警 四个黄金信号 当平台服务不可用,或访问速度变慢时,往往影响到产品的整体质量,目前了解到的一些基础监控指标就达到上百种,通常的做法是在...
    文章 2019-12-16 2844浏览量
  • 玩转ECS第3讲|ECS自助服务之智能诊断和自动化修复

    首先,从用户场景方面,针对无法远程连接问题将虚拟化异常、物理机异常、资源争抢受限(入门级的实例中,会出现一台机器上存储资源争抢的情况)、服务控制侧异常等现象根因透露给用户。针对实例无法停止或启动问题,...
    文章 2020-10-28 2649浏览量
  • APP研发Bug多,怎么破?

    这样我知道这是一个地域性的问题,还是一个弱网场景下会出现问题。我们第一感官就有一个非常清晰的判断,不至于一个Bug一个Bug的去看,人工去找这个相关性。还有一个是我们通过自动化的方式,帮助大家去做决策:...
    文章 2018-05-04 7016浏览量
  • Redis经典面试题总结

    直接操作缓存能够承受的请求是远远大于直接访问数据库的,所以我们可以考虑把数据库中的部分数据转移到缓存中去,这样用户的一部分请求直接到缓存这里而不用经过数据库。为什么要用 Redis 而不用 map/guava 做缓存...
    文章 2020-09-26 4133浏览量
  • HBase设计的实践经验(全)——《我的Java打怪日记》

    优化原理:在解释这个问题之前,首先需要解释什么是scan缓存,通常来讲一次scan返回大量数据,因此客户发起一次scan请求,实际并不会一次就将所有数据加载到本地,而是分成多次RPC请求进行加载,这样设计一方面...
    文章 2021-07-27 43056浏览量
  • 《VMware vSphere设计(原书第2版)》——2.7 管理...

    你可以从与vCenter相连的vSphere客户上查看这些信息,也可以设置vCenter告警来提示失败事件。2.7.4 日志 日志的收集和保留不仅是排查host故障的关键,也是必要的法律遵从需要。正确配置host使其事件与NTP事件资源...
    文章 2017-05-02 1303浏览量
  • Pull or Push?监控系统如何选型

    例如监控目标、采集间隔、指标过滤、指标处理、远端目标等应用侧SDK&xff0c;支持发送数据到监控后端&xff0c;或者发送到本地Agent&xff08;通常是本地Agent也实现一套后端的接口&xff09;小结&xff1a;纯粹从部署复杂性上而言...
    文章 2021-08-09 300浏览量
  • 高效运维:运维自动化之殇

    告警响应:出现问题时的响应和处理机制;性能优化:系统各个服务如Nginx、Java、PHP、DB或网络等的优化 SLA保障:通常要和业务相关部门讨论确定 所以,运维自动化,应该包括上述这些内容。我们结合起来,略举几例:1...
    文章 2016-06-10 5033浏览量
  • 智能、互联时代的应用运维——《应用智能运维实践...

    不受外部网络连接和远端服务器性能的影响。但是&xff0c;其计算能力有限&xff0c;逻辑固定适应性差。云端控制需要产品终端设备与云端保持网络连接&xff0c;由云端转发控制指令。这种控制方式将终端控制程序运行卸载到云端&...
    文章 2021-07-06 337浏览量
  • Serverless 选型:深度解读 Serverless 架构及平台...

    随着实践者对问题域的理解越来越清晰和深刻,问题的处理方法也会逐步迭代,更接近问题本质的解决方案也会出现。若不从问题域出发来理解解决方案,容易陷入两个极端,即「它能解决一切问题」和「它太超前了,理解不了...
    文章 2020-06-28 116浏览量
  • 阿里HBase超详实践总结|一文读懂大数据时代的结构化...

    阿里HBase很早便开始使用Replication功能去部署双机房容灾,迎之而来的第一个大问题是数据复制的效率,尤其异地距离部署(比如上海与深圳跨城复制)时更加严重,表现为数据复制的吞吐小于客户写入主集群的吞吐,...
    文章 2017-06-20 4541浏览量
  • 大数据时代的结构化存储—HBase在阿里的应用实践

    阿里HBase很早便开始使用Replication功能去部署双机房容灾,迎之而来的第一个大问题是数据复制的效率,尤其异地距离部署(比如上海与深圳跨城复制)时更加严重,表现为数据复制的吞吐小于客户写入主集群的吞吐,...
    文章 2017-02-21 10543浏览量
  • LinkedIn架构演化历史解析

    任务,允许我们构建实时的分析,广泛的提升了我们站点监控和告警的能力,同时支持将调用可视化。今天,Kafka 每天处理超过 5 亿个事件。反转 扩展可从多个维度来衡量,包括组织结构。2011 年晚些时候,LinkedIn 内部...
    文章 2017-08-01 1256浏览量
  • Serverless 选型:深度解读 Serverless 架构及平台...

    随着实践者对问题域的理解越来越清晰和深刻,问题的处理方法也会逐步迭代,更接近问题本质的解决方案也会出现。若不从问题域出发来理解解决方案,容易陷入两个极端,即「它能解决一切问题」和「它太超前了,理解不了...
    文章 2020-05-15 1083浏览量
  • 使用 E-MapReduce 构建云上数据湖

    在这种架构下,用户使用时可以获得与线下IDC使用非常类似的体验,用户可以实际登陆到集群中的ECS服务节点上,去部署管理自己的ECS服务器,同时提供一系列的企业级特性,包括像APM的对主机作业服务层面的告警和诊断,...
    文章 2020-08-21 1856浏览量
  • 【Java开发者专场】阿里专家梁笑:2018双十一下单成功...

    验证过程中可能发现,已有的问题解决了但是出现了新的问题,这就需要再次分析优化。这是个螺旋上升形的过程。上图右侧是保障过程的阶段描述,在接下来进行详细阐释。二、梳理链路 如果给你一个系统,在你不了解...
    文章 2018-12-26 4709浏览量
  • Redis面试题汇总(附答案),面试突击专用

    警告:有些服务在一段时间内成功率有波动(如在95~100%之间),可以自动降级或人工降级,并发送告警;错误:比如可用率低于90%,或者数据库连接池被打爆了,或者访问量突然猛增到系统能承受的最大阀值,此时可以根据...
    文章 2020-12-08 1248浏览量
  • 大数据浪潮下,前端工程师眼中的完整数据链图

    大部分数据产品极少会出现在客户抽象的实体,大部分都是指标类的约定。因此,我们在设计上极难利用像 GraphQL 这样的设计。而是转为约定一些固有的返回形式,重转换的过程,如格式化数据。到应用层面,我们会关注...
    文章 2017-05-17 2670浏览量
  • 应用运维智能化的关键技术——《应用智能运维实践...

    给出告警的一定是大问题。静态阈值方法的缺点如下。xff08;1&xff09;其依赖周期性的历史数据&xff0c;计算量大&xff0c;而且无法对新接入的曲线告警。xff08;2&xff09;其非常不敏感&xff0c;无法发现小波动。3.基于同期振幅的...
    文章 2021-07-06 427浏览量
1 2 3 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化