一场足球盛宴的终结:日帐延迟寻因记

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介:
盛宴开端
 


大年初三,酒足饭饱后,拉着亲朋好友就这么餐桌上一围,小赌正式开始。正要胡牌时,手机响了。一看竟然是客户的电话!难道是给我拜年么?!应该不是,昨天就拜过了。难道出什么问题了?!果然。。这来的也太不是时候了。不过作为一个资深的运维DBA,对于这种7*24*365式实时守候待命的日子早就习以为常。麻将顺势一推,迅速更换为笔记本,开始一段抽丝拨茧之旅!


> 2
问题概述
 


2016年02月10日,某省账务库日账出现严重延迟现象,期间其他应用运行正常。


> 3
数据采集
 


对于这种性能突变的问题,还是采取老套路,采集“凶案现场”情况如下:


注:(性能突变的数据库为11g R2 RAC)


1、两节点的数据库alert日志信息。


2、两节点问题时间段的snapshot(注:收集多份及正常时间段的AWR报告进行对比分析)。


3、两节点问题时间段及前后一小时的OSW日志。


4、两节点问题时间段所有相关trace信息。



5、问题时间段的ASH DUMP数据。



> 4
日志剖析
 


1、通过LGWR的trace信息,我们可以发现问题时段log write写超过500ms的告警,说明当时redo IO性能应该存在一些问题。



2、通过分析ASH DUMP信息我们可发现,44%的会话被log file sync堵塞,同时 log file sync在等待log file parallel write 。



3、通过查看AWR报告我们可以发现,log file sync等待高达431ms,同时出现大量GC等待事件,并且出现log buffer space等待事件。 



那么导致该问题是由于log_buffer配置太小?还是redo log太小导致redo log切换过于频繁?如果是的话,那么为什么2月10号前的日账没有问题,该结论不成立!那么应用端是否存在变化?! 


4、针对TOP中大量的GC等待,我们对比分析了1月10日跟2月10日的Global Cache统计数据,发现事发时段GC接收的块较以往增幅20%,同时私网流量也从21M上升到26M,GC交互的增加是否可以说明应用侧做了调整呢?!



通过咨询应用维护人员,我了解到,日账数据量会伴随时间的推移而增加,同时日账的时间同步也会有所延迟。如下图所示:


 


虽然日账数据量及执行时间在同一月内会伴随时间的推移而增加,但是通过上面的“日结时间对比”图可以看出,2月10日的日账时间明显突增,说明导致该问题的还有其他原因。


5、通过问题前后的AWR报告对比分析,我们发现,在2月10日之后,ROLLBACKS从之前的每秒0.5次增长至每秒3.5次,增长了7倍。



6、通过分析log file sync发现,自10号凌晨开始数据库写入时间较之前出现明显上升。



问题时段log file sync/log file parallel write较之前开始出现明显下降,如下表所示:



7、通过OSW的VMSTAT数据,我们也可以发现,在批量日账未运行之时,B列值相对较低,在问题时间段B列在10以上,这说明所有的CPU都是pending在I/O层面。



8、通过OSW的MPSTAT数据,我们也可以发现,问题时间段部分磁盘始终处于100%busy的状态,而且磁盘平均服务时间在80ms以上。 


 

> 5
剖析总结
 


综上所述,主要有以下几方面的影响因素:


  • log file sync及log file parallel write 性能明显下降, redo IO性能变差导致GC严重及数据库性能严重下降。需要主机及存储厂商配合确认。

  • 应用侧是否存在调整,导致GC交互的增加及其他引发问题。需要应用侧配合确认。

  • 问题前后的每秒rollback次数增长了7倍,建议协调应用一起排查rollbacks异常增长的原因。


> 6
足球大战
 


通过分析,问题可能出现在主机or存储or应用层面上,通过逐个沟通确认,得到回复如下:


主机球员:


通过分析,主机侧未发现异常,还请知悉!


存储球员:


从我这边看是正常的,没有出现瓶颈或者非常慢的情况。


应用球员:


你好,

通过应用侧核实,在日账问题前后属于春节封网时段,无任何应用变更。


足联主席:


To DB运维组

请尽快完成日帐问题定位,为了避免影响月底出账,请务必在月底前完成定位并修复。


> 7
点球终结
 


通过一轮咨询,各组成员都反馈尚未发现异常,怎么办?!都没异常,那日账为何会突然延迟呢?!此时球兜了一圈又回到了咱们dba手上。此刻要冷静,再回首缕一缕。


从剖析日志及各组反馈的结果综合看来,问题肯定来自redo io层面,既然主机及存储侧都反馈无异常,那么问题是否在最底层(存储链路)? 马上联系HDS工程师,令其去查看存储链路是否存在异常。


30min后接收到HDS工程师的反馈,兄弟们,根源找到了!这才合上笔记本仰天长叹!!!


我们来看下底层架构:



该省账务库物理容灾采用Veritas镜像技术实现存储底层同步。当应用发起变更数据请求时,必须等待生产、容灾两份存储全部完成写入后,方可反馈提交信息。事发当天该库对应的2条SAN级联链路中有一条出现了异常,到容灾存储的数据变更速率均减半,这样就导致了批量操作(日账)延迟!


作者介绍:张玉朋


  • 新炬网络高级技术专家。

  • 5年以上电信行业运维经验。

  • 擅长oracle架构规划,故障诊断、性能优化、shell编程等,对大型IT系统的oracle数据库运维有丰富的经验。

  • 曾主导某省移动核心CRM、BOSS升级项目。


本文来自云栖社区合作伙伴"DBAplus",原文发布时间:2016-03-07

相关实践学习
通过日志服务实现云资源OSS的安全审计
本实验介绍如何通过日志服务实现云资源OSS的安全审计。
目录
相关文章
|
6天前
|
存储 关系型数据库 分布式数据库
PostgreSQL 18 发布,快来 PolarDB 尝鲜!
PostgreSQL 18 发布,PolarDB for PostgreSQL 全面兼容。新版本支持异步I/O、UUIDv7、虚拟生成列、逻辑复制增强及OAuth认证,显著提升性能与安全。PolarDB-PG 18 支持存算分离架构,融合海量弹性存储与极致计算性能,搭配丰富插件生态,为企业提供高效、稳定、灵活的云数据库解决方案,助力企业数字化转型如虎添翼!
|
17天前
|
弹性计算 关系型数据库 微服务
基于 Docker 与 Kubernetes(K3s)的微服务:阿里云生产环境扩容实践
在微服务架构中,如何实现“稳定扩容”与“成本可控”是企业面临的核心挑战。本文结合 Python FastAPI 微服务实战,详解如何基于阿里云基础设施,利用 Docker 封装服务、K3s 实现容器编排,构建生产级微服务架构。内容涵盖容器构建、集群部署、自动扩缩容、可观测性等关键环节,适配阿里云资源特性与服务生态,助力企业打造低成本、高可靠、易扩展的微服务解决方案。
1320 7
|
5天前
|
存储 人工智能 Java
AI 超级智能体全栈项目阶段二:Prompt 优化技巧与学术分析 AI 应用开发实现上下文联系多轮对话
本文讲解 Prompt 基本概念与 10 个优化技巧,结合学术分析 AI 应用的需求分析、设计方案,介绍 Spring AI 中 ChatClient 及 Advisors 的使用。
296 129
AI 超级智能体全栈项目阶段二:Prompt 优化技巧与学术分析 AI 应用开发实现上下文联系多轮对话
|
4天前
|
监控 JavaScript Java
基于大模型技术的反欺诈知识问答系统
随着互联网与金融科技发展,网络欺诈频发,构建高效反欺诈平台成为迫切需求。本文基于Java、Vue.js、Spring Boot与MySQL技术,设计实现集欺诈识别、宣传教育、用户互动于一体的反欺诈系统,提升公众防范意识,助力企业合规与用户权益保护。
|
16天前
|
机器学习/深度学习 人工智能 前端开发
通义DeepResearch全面开源!同步分享可落地的高阶Agent构建方法论
通义研究团队开源发布通义 DeepResearch —— 首个在性能上可与 OpenAI DeepResearch 相媲美、并在多项权威基准测试中取得领先表现的全开源 Web Agent。
1392 87
|
4天前
|
JavaScript Java 大数据
基于JavaWeb的销售管理系统设计系统
本系统基于Java、MySQL、Spring Boot与Vue.js技术,构建高效、可扩展的销售管理平台,实现客户、订单、数据可视化等全流程自动化管理,提升企业运营效率与决策能力。
|
5天前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
279 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
5天前
|
弹性计算 安全 数据安全/隐私保护
2025年阿里云域名备案流程(新手图文详细流程)
本文图文详解阿里云账号注册、服务器租赁、域名购买及备案全流程,涵盖企业实名认证、信息模板创建、域名备案提交与管局审核等关键步骤,助您快速完成网站上线前的准备工作。
231 82
2025年阿里云域名备案流程(新手图文详细流程)