实战课堂:数据库高Library Cache Lock导致Hang的故障分析-阿里云开发者社区

开发者社区> 技术小能手> 正文

实战课堂:数据库高Library Cache Lock导致Hang的故障分析

简介:
+关注继续查看

案情描述:

客户数据库发生hang现象,大量业务操作超时,DBA介入分析。

通过OEM控制台的监控工具,可以看到客户数据库的“平均活动会话数”从21点开始active session出现明显增长,最高超过60个直至10点左右恢复。

在图上出现一个明显的“波峰”,且等待事件类为concurrency:

1f83f8ef8d81ecff576e4049a785c6a53a90544a

对于这类情况,如果数据库可以操作,我们仍然可以从ASH或者AWR入手,快速获取信息

收集 21点至22点的AWR报告,其“Top 5 Timed Events”前两个为:library cache lock、library cache pin且平均等待时间分别为2928和2910毫秒,出现严重的性能问题。这两者的Wait Class就是Concurrency,也就是监控中所表现出来的问题。

b8092f50d8e1fb86a2bb876d3aa6f4e24725d4f5

查看AWR中“SQL ordered by Elapsed Time”可以发现所有执行时间长的语句都为调用过程和包,每次执行时间基本都是超过1秒最长达到35.9秒,远远超出了正常值:

59f586f6ec45348f5f5ea647a45e591c939ec8db

通过以上信息进行初步分析,我们怀疑数据库缓慢的原因可能是对高使用率的核心存储过程和包进行编译导致。

该问题的发生一般伴随着“LIBRARY CACHE PIN” 和“LIBRARY CACHE LOCK”等待事件。

为了进一步确认问题,如果有相关包和存储过程在问题期间进行编译过可以通过DBA_OBJECTS视图的"LAST_DDL_TIME"字段观察到最近一次编译时间。

6064bde02bfed4e1afd99aa16ef3ef7ff88be0e6

客户告知当晚存在对表进行添加字段的操作,经过客户与操作人员确认进行添加字段的表为MAIN.EMP_NOTE与上表格标红的行的表名和时间吻合。

存储过程或包引用的表结构发生变更时,对象会变为无效。Oracle会在第一次访问此对象时试图去重新编译它们,如果此时有其他session已经把此对象 pin到library cache中,就会因exclusive类型的pin导致出现等待,当有大量的active session并且存在较复杂的dependence时如下表,当CMP_NOTE发生改变时标红列的所有对象都需要重新编译。

5b808a261d84f72069389c578364436f017f84fd

上表显示了当CBMAIN.EMP_NOTE结构发生改变后导致上表第一行CBMAIN.PKG_DTG_CMG包失效,而CBMAIN.PKG_DTG_CMG在下表有又有更多的对象依赖该包,这种依赖层层深入,重新编译由CBMAIN.CMP_NOTE表结构改变导致失效对象的时间变得不可控,并且在此期间会阻塞其它试图去访问这些对象的session,最终导致当晚问题发生。

5aa97a5ae51934fcdb1da343578b5a1e1325b70f

找到问题的原因,就可以理解数据库的行为。只需要等系统的失效对象编译通过,系统就能够恢复正常工作。

回顾这个问题,我们同样可以对用户日常运维提出规范建议:

d47e62d2b349aca45e42305ed6714efbe5ed61d9数据库的业务账号由统一的归口管理部门和人员进行管理,杜绝非账号管理人员掌握数据库的业务账号。

d47e62d2b349aca45e42305ed6714efbe5ed61d9对于核心业务系统任何变更一定要在停机窗口时间进行操作,应用固定变更场所,避免供应商变更人员使用PL/SQL Developer等工具直连生产系统。

d47e62d2b349aca45e42305ed6714efbe5ed61d9对业务核心对象进行变更包括增加字段,删除字段,添加删除权限都应非常谨慎。定期检查检查数据库中无效对象,清理无用的无效对象。

d47e62d2b349aca45e42305ed6714efbe5ed61d9进行业务变更期间应有DBA配合保障工作。

这就是来自生产的一次故障处理和排查,通过这样的过程,我们能够看到,在生产环境中一次小的操作,就可能导致严重的性能影响,一个DDL都不应该草率执行,任何变更都应该充分考虑级联的各种影响。


原文发布时间为:2018-05-28

本文作者:墨墨

本文来自云栖社区合作伙伴“数据和云”,了解相关信息可以关注“数据和云”。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云开源PolarDB数据库,与社区共建云原生分布式数据库生态
5月29日,阿里云开发者大会上,阿里巴巴宣布开源云原生数据库能力,对外开放关系型数据库PolarDB for PostgreSQL 源代码,服务百万开发者,与社区开发者一起共建云原生分布式数据库生态。“我们希望将阿里云在云原生分布式数据库技术上积累的丰富经验,通过标准技术组件和系统的方式开放出来,共建开源数据库生态。”阿里云智能数据库产品事业部负责人李飞飞表示。
18129 0
Oracle9i数据库DataGuard实施及维护手册2
六.实施步骤 Physical Standby配置 修改控制文件,修改最大日志组为10 alter database backup controlfile to trace; ORACLE_HOME为/export/home/oracle/app/oracle/product/9.
859 0
阿里本地生活EMonitor根因分析大揭秘
阿里集团针对故障处理提出了“**1/5/10**”的目标-- 1 分钟发现、5 分钟定位、10 分钟恢复,这对我们的定位能力提出了更高的要求。
2060 0
ThreadLocal应用与原理分析
ThreadLocal的作用 ThreadLocal类用来提供线程内部的局部变量,并且这些变量依靠线程独立存在.可以在多个线程中互不干扰的进行存储数据和修改数据,通过set,get 和remove方法, 每个线程都是独立的操作.ThreadLocal试图解决的问题是:在线程生命周期内,在任何运行时刻可以方便的访问一些数据,而不是依靠参数传递的方式。
671 0
PostgreSQL 数据库数据文件BLOCK一致性校验、备份集恢复后的有效性快速校验 - pg_verify_checksums
PostgreSQL 数据库数据文件BLOCK一致性校验、备份集恢复后的有效性快速校验 - pg_verify_checksums
1037 0
+关注
技术小能手
云栖运营小编~
7208
文章
9
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载