开发者社区> luobin77> 正文

生产环境ES查询延迟排查

简介: 最近经常收到业务方配置的ES查询延迟告警,同样的请求手动在Kibana控制台执行只需几十毫秒就返回结果。受影响的整个链路情况如下,php应用程序通过部署在ES集群各节点上的nginx访问ES请求查询数据。
+关注继续查看

最近经常收到业务方配置的ES查询延迟告警,同样的请求手动在Kibana控制台执行只需几十毫秒就返回结果。受影响的整个链路情况如下,php应用程序通过部署在ES集群各节点上的nginx访问ES请求查询数据。

image

查询延迟原因可能有2个方面的因素:

1、ES集群异常,ES应用故障或者集群节点主机故障。

  • 首先通过查看上一篇配置的dashboard检测各节点系统指标以及ES性能指标在告警时段有无明显异常。排查问题时为了方便直接查看,针对搜索和索引请求相关的指标,构建了一个新图,直接对query,index,fetch,merge操作的时间进行rate计算,对query,index,fetch,merge操作次数进行increase计算,两者相除得到单个请求的平均操作耗时。若有异常,可以再查看之前的图表中具体的操作数和请求时间。并查看ES相关时间点的日志。
  • 集群节点主机级别的问题主要通过观察node_exporter中的核心指标有无异常,包括CPU,内存,网络,TCP连接,上下问切换,磁盘容量及IO。

2、业务请求异常,业务请求量突增高于正常的水平。

业务上的请求异常主要通过分析ES各节点nginx代理的访问日志错误日志,前端web服务以及php的日志。

  • 写入方客户端写ES的请求记录,请求时间,状态码,响应时间。
  • 找到ES集群中告警延迟索引的相关文档确切的写入时间。
  • 找到查询方客户端的查询记录,请求时间,状态码,响应内容。

分析日志的过程异常痛苦,由于延迟出现在10分钟的时间段, 所以想要分析业务量的波动是否正常,需要统计日志同比环比,进行对比。日志文件大,使用正则,组合grep,awk,sed耗时又消耗性能,效率又低。最终梳理日志,并对关键字段进行解析,接入袋鼠云日志分析系统,终于摆脱登录各服务器命令行统计的惨状,配置应用场景,访问趋势清晰明了。

image

TIPS:

查看监控图表发现业务访问并无异常,使用sar -B查看内存ES节点内存情况,发现在问题时间点各节点的pgscand/s一列数值较高,说明内核线程kswapd回收内存,由于系统free内存不足,当应用突然需要额外内存。用户进程或线程分配内存或发生缺页中断时,会在用户线程上下文中直接进行回收内存(pgscand)和分配内存。

建议根据机器的规格调大以下两个值,32C64G机器可以调大至2-4G

  • vm.min_free_kbytes系统所保留空闲内存的最低限
  • vm.extra_free_kbytes系统保留给应用的free内存

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
K8S集群优化之修复ServiceEndpoint更新的延迟
几个月前,我在更新 Kubernetes 集群中的 Deployment 时发现了一个很奇怪的连接超时现象,在更新 Deployment 之后的 30 秒到两分钟左右,所有与以该 Deployment作为服务后端的 Service 的连接都会超时或失败。
1407 0
一次DTS同步延时过高的排错过程
业务场景: 秒级数据同步要求的容灾场景,通过阿里云数据库同步工具DTS实时将阿里云上RDS的数据实时同步至自建MySQL数据库故障现象: DTS同步延时高达2小时,造成主备数据不一致,无法满足业务的容灾需求排查经过: 首先,联系阿里云DTS后台,后台同学反馈,目标数据库RT(响应时间)过高。
1233 0
一次系统访问“慢”的排查过程
项目背景:某电商平台系统演示,在上午访问各模块时,响应时间均正常。在下午十二点半左右,访问“采购计划”,“订单查询”时,出现响应时间超过十秒的现象。在一点半就要开始演示,所以进行紧急处理。 涉及到的阿里产品:EDAS ,DRDS,RDS,MQ,DTS ----排查思路:因为不确认是网络还是系统问题,所以进行双向排查。
1359 0
Elasticsearch出现401异常?业务并没有受到影响?
401表示鉴权失败,正常情况下,鉴权失败表示用户名密码信息异常。但是某些场景下,ES 的 Gateway中收到了401的响应,但是业务很正常...
453 0
方法 | Elasticsearch Jest 批量操作bug 根因定位排查
1、背景 使用Jest进行批量插入数据的时候,偶尔会出现如下的bug One or more of the items in the Bulk request failed, check BulkResult.getItems() for more information. 起初认为是偶发,就把并发数调小,就再没有关注。
363 0
Redis为什么变慢了?常见延迟问题定位与分析
Redis为什么变慢了?常见延迟问题定位与分析
155 0
开发函数计算的正确姿势 —— 排查超时问题
写不尽的 code,查不完的 bug 通常我们写 bug,哦,不对,写代码时总不会一帆风顺,往往各种 bug 充斥其中,即使测试有较高的代码覆盖率往往也会有漏网之鱼。能写出一些比较隐蔽或者看起来像 feature 的 bug,并且经过了测试、code review 等层层的考验,最终 merge 到主干,这也算的上是一种本事。
3357 0
+关注
luobin77
我叫罗小二
文章
问答
文章排行榜
最热
最新
相关电子书
更多
复杂PHP系统性能瓶颈排查及优化
立即下载
HBase in Practise- 性能、监控和问题排查
立即下载
HBase in Practise: 性能、监控和问题排查
立即下载