记一次远程协助分析rac问题的案例-阿里云开发者社区

开发者社区> jeanron100> 正文

记一次远程协助分析rac问题的案例

简介: 今天通过微信群和qq帮助一个网友分析了一个rac节点性能的问题,征得这位朋友的同学,和大家分享一下。 最开始这位朋友是在微信群中留言,说有一个rac的问题,现在已经严重影响在线业务了,希望我能够帮忙看看,有什么好的建议没,这对我来说着实是一个提高自己,分析问题的好机会,因为在地铁上,自己就简单确认了下环境,然后让他提供一些基本的错误日志或者报告。
+关注继续查看
今天通过微信群和qq帮助一个网友分析了一个rac节点性能的问题,征得这位朋友的同学,和大家分享一下。
最开始这位朋友是在微信群中留言,说有一个rac的问题,现在已经严重影响在线业务了,希望我能够帮忙看看,有什么好的建议没,这对我来说着实是一个提高自己,分析问题的好机会,因为在地铁上,自己就简单确认了下环境,然后让他提供一些基本的错误日志或者报告。方便定位问题。
首先确认环境,得知这是一个rac 11g的环境,有两个节点,其它未知,根据这位朋友的反馈,有一个节点最近老出问题,前几天每天都报ora-00604,00609的错误,他查了下,说发现不是网络的问题就是sql语句的问题,然后今天节点又挂了,下午的时候报了ora-00020连接数超出的错误。作为临时解决方案,他把业务迁移到另外一个节点上之后就没有了问题,连接数也正常了。
从他的反馈来说,感觉这个节点存在一定的问题,但是不确定到底是什么原因,想让我来看一下。
很快从他那里得到了一个错误日志的截屏。

但是错误信息毕竟有限,而且这种错误还需要依赖上下文环境,这个时候手头也没有metalink来查看,就让这位朋友生成问题发生时间段的ash报告,把问题节点的ash报告和正常节点的ash报告都抓取一下。
过了一会,他就生成了ash报告,我让他把等待事件/top sql的部分贴出来。得到的截图如下:

在有限的信息中,这个问题着实让我捡了个大便宜,因为一看这部分,似乎问题的根源就有了眉目。
首先top sql的等待事件中,都指向了CPU,而且可以很明显的看到这些sql都走了全表扫描。然后我们往左边看,plan_hashvalue都是一致的,但是sql_id确不相同。然后向右看,目前看到的sql_text都是一致的。由此我脑海中得到了一个大体的影响,CPU的大量等待都在一些很相似的sql语句上,而且这些sql语句都走了全表扫描。很有可能是硬解析的问题,sql语句基本相同,可能没有使用绑定变量之类的。作为一个猜想,在回家之后,朋友已经发来了两个节点的ash报告。
带着疑问简单看了看,来做一个基本的验证。
首先是系统环境,

DB Name DB Id Instance Inst num Release RAC Host
xxxx 804043370 xxxx 1 11.2.0.3.0 YES rac1.xxxx.com

CPUs SGA Size Buffer Cache Shared Pool ASH Buffer Size
80 30,583M (100%) 4,800M (15.7%) 5,504M (18.0%) 160.0M (0.5%)
缓存的部分由一个明显的问题,就是shared_pool+buffer_cache的大小还不到sga实际使用的30%左右,有很大的浪费。但这个似乎不是重点,
我们来看看看问题节点,绝大部分的等待事件都在CPU相关的等待上。

Top User Events

Event Event Class % Event Avg Active Sessions
CPU + Wait for CPU CPU 71.43 28.22
direct path read User I/O 10.23 4.04
db file sequential read User I/O 7.59 3.00
reliable message Other 3.36 1.33
log file sync Commit 2.37 0.94
而且几乎清一色都是select操作。
SQL Command Type Distinct SQLIDs % Activity Avg Active Sessions
SELECT 2,001 93.60 36.98

而select的部分都指向了相似的sql语句上。

Top SQL with Top Events

SQL ID Planhash Sampled # of Executions % Activity Event % Event Top Row Source % RwSrc SQL Text
bkd82h036rphd 2942880414 57 3.00 CPU + Wait for CPU 2.50 TABLE ACCESS - FULL 2.50 select t.tradeflg from posmeri...
66v9yv1d33222 2942880414 57 2.81 CPU + Wait for CPU 2.32 TABLE ACCESS - FULL 2.32 select t.tradeflg from posmeri...
9tg81jgjfkyxx 2942880414 55 2.61 CPU + Wait for CPU 2.19 TABLE ACCESS - FULL 2.19 select t.tradeflg from posmeri...
f67j53520vtx1 2942880414 58 2.42 CPU + Wait for CPU 2.03 TABLE ACCESS - FULL 2.03 select t.tradeflg from posmeri...
98fvraaavv7f8 2942880414 60 2.41 CPU + Wait for CPU 2.00 TABLE ACCESS - FULL 2.00 select t.tradeflg from posmeri...
查看完整的sql文本就基本证明了自己的猜测。确实没有使用绑定变量,导致全表扫描+硬解析导致了大量的cpu等待。
66v9yv1d33222 select t.tradeflg from posmeriskcontrol t, posmercinf z where trim(z.mercid)='83xxxxxx' and trim(t.mercnum)=trim(z.mercnum) and t.tradeflg='0'
98fvraaavv7f8 select t.tradeflg from posmeriskcontrol t, posmercinf z where trim(z.mercid)='83xxxxxx' and trim(t.mercnum)=trim(z.mercnum) and t.tradeflg='0'
9tg81jgjfkyxx select t.tradeflg from posmeriskcontrol t, posmercinf z where trim(z.mercid)='83xxxxxx' and trim(t.mercnum)=trim(z.mercnum) and t.tradeflg='0'
bkd82h036rphd select t.tradeflg from posmeriskcontrol t, posmercinf z where trim(z.mercid)='8x3xxxxx' and trim(t.mercnum)=trim(z.mercnum) and t.tradeflg='0'
f67j53520vtx1 select t.tradeflg from posmeriskcontrol t, posmercinf z where trim(z.mercid)='83xxxxxx' and trim(t.mercnum)=trim(z.mercnum) and t.tradeflg='0'

而朋友反馈,另外一个节点情况良好,我们来看看这个节点的情况。
SQL Command Type Distinct SQLIDs % Activity Avg Active Sessions
SELECT 5,177 34.17 1.06
INSERT 5,847 29.63 0.92
UPDATE 5,411 29.11 0.91
基本上select,insert,update达到了1:1:1的比例。
这个节点上的等待事件就完全不同了。可以看到很多和单实例数据库不同的gc等待事件。
Event Event Class % Event Avg Active Sessions
gc buffer busy acquire Cluster 39.64 1.23
CPU + Wait for CPU CPU 24.46 0.76
gc cr block busy Cluster 12.18 0.38
gc current block busy Cluster 8.59 0.27
db file sequential read User I/O 3.34 0.10
如果对这个问题比较疑惑可以在top sql中找到答案,因为在top sql中也确实存在着一些和问题节点相似的sql语句了,可以理解在并发的dml操作中,一个节点在做满负荷的全表扫描查询,而另外一个节点也在做一些update和select,势必对性能是一个极大的考验。
FORCE_MATCHING_SIGNATURE % Activity # of Sampled SQL Versions Example SQL 1 Example SQL TEXT 1 Example SQL 2 Example SQL TEXT 2
8559161600712222867 18.13 2719 1fjpfssnnt690 update pos_termtrans_info set ... gn0whttj0yhxu update pos_termtrans_info set ...
5572193741054430457 13.28 2253 000pp0pk294wy select t.tradeflg from posmeri... gzwf98yawzrvg select t.tradeflg from posmeri...
所以到此问题就可以基本定性了,在两个节点中,存在着并发的读写,同时因为全表扫描把这个问题进行了放大,加上没有使用绑定变量,对于CPU的消耗还是很大的。
当然了问题的原因基本定位,解决起来就容易多了,对于全表扫描的查询可以使用函数索引来临时解决。

 select t.tradeflg from posmeriskcontrol t, posmercinf z where trim(z.mercid)='83xxxxxx' and trim(t.mercnum)=trim(z.mercnum) and t.tradeflg='0'

比如上面这个语句,很可能存在索引,但是因为trim导致索引不可用,所以可以使用函数索引来做为临时解决方案,带问题解决之后就可以和开发协商来彻底解决绑定变量和全表扫描的问题了。

 

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
10089 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
10885 0
理解和使用Oracle分析工具LogMiner
用LogMiner             理解和使用Oracle   8i分析工具LogMiner                 Oracle   LogMiner   是Oracle公司从产品8i以后提供的一个实际非常有用的分析工具,使用该工具可以轻松获得Oracle   重作日志文件(归档日志文件)中的具体内容,特别是,该工具可以分析出所有对于数据库操作的DML(insert、update、delete等)语句,另外还可分析得到一些必要的回滚SQL语句。
1177 0
一天内碰到的3个rac节点问题
说到问题,真是层出不穷,自己搭建了也不少的rac的环境的,但是在本地试验的时候总是会碰到一些问题,昨晚铲掉旧环境,搭建了两遍rac环境,终于在凌晨搭建好了环境,配置好EM,看了下效果,还不错,然后就把虚拟机设为suspend状态,早上打开虚拟机发现两个节点都自动停掉了,再次重启就启动不了了。
799 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
13892 0
通过定制orabbix监控分析潜在的Oracle问题
在之前的博客中分享过 简单定制Orabbix监控项   http://blog.itpub.net/23718752/viewspace-1769773/ 定制的功能在Orabbix中实现非常灵活而且轻巧,还是能够感受到一种开源风的清爽。
796 0
安装oracle 10g rac 的一个问题。
http://www.itpub.net/showthread.php?s=&threadid=549791 http://www.itpub.net/showthread.
595 0
分布式密码分析框架-Wisecracker
Wisecracker是一个高性能的利用gpu和多个cpu进行分布式密码分析的框架,它允许安全研究人员能够编写自己的密码分析工具,可以分发强力密码分析工作跨多个系统与多个多核处理器和显卡。
828 0
+关注
jeanron100
Oracle ACE,《Oracle DBA工作笔记》作者 现就职于国内某互联网公司,擅长数据管理,数据迁移,性能优化,目前专注于开源技术,运维自动化和性能优化。
1180
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础HTML入门教程》
立即下载
《零基础CSS入门教程》
立即下载