(转)如何诊断和解决CPU高度消耗(100%)的数据库问题

简介: 如何诊断和解决CPU高度消耗(100%)的数据库问题 2008-05-24 13:46 链接:http://www.eygle.com/archives/2004/10/howto_getsql_which_cost_most_cpu.
如何诊断和解决CPU高度消耗(100%)的数据库问题
2008-05-24 13:46

链接:

很多时候我们的服务器可能会经历CPU消耗100%的性能问题.
排除系统的异常,这类问题通常都是因为系统中存在性能低下甚至存在错误的SQL语句, 消耗了大量的CPU所致.

本文通过一个案例就如何捕获这样的SQL给出一个通用的方法.

问题描述:系统CPU高度消耗,系统运行缓慢
OS:Sun Solaris8
Oracle:Oracle9203

1.首先通过Top命令查看

$ top
                        load averages:  1.61,  1.28,  1.25                     HSWAPJSDB             10:50:44
                        172 processes: 160 sleeping, 1 running, 3 zombie, 6 stopped, 2 on cpu
                        CPU states:     % idle,     % user,     % kernel,     % iowait,     % swap
                        Memory: 4.0G real, 1.4G free, 1.9G swap in use, 8.9G swap free
                        PID USERNAME THR PR NCE  SIZE   RES STATE   TIME FLTS    CPU COMMAND
                        20521 oracle     1 40   0  1.8G  1.7G run     6:37    0 47.77% oracle
                        20845 oracle     1 40   0  1.8G  1.7G cpu02   0:41    0 40.98% oracle
                        20847 oracle     1 58   0  1.8G  1.7G sleep   0:00    0  0.84% oracle
                        20780 oracle     1 48   0  1.8G  1.7G sleep   0:02    0  0.83% oracle
                        15828 oracle     1 58   0  1.8G  1.7G sleep   0:58    0  0.53% oracle
                        20867 root       1 58   0 4384K 2560K sleep   0:00    0  0.29% sshd2
                        20493 oracle     1 58   0  1.8G  1.7G sleep   0:03    0  0.29% oracle
                        20887 oracle     1 48   0  1.8G  1.7G sleep   0:00    0  0.13% oracle
                        20851 oracle     1 58   0  1.8G  1.7G sleep   0:00    0  0.10% oracle
                        20483 oracle     1 48   0  1.8G  1.7G sleep   0:00    0  0.09% oracle
                        20875 oracle     1 45   0 1064K  896K sleep   0:00    0  0.07% sh
                        20794 oracle     1 58   0  1.8G  1.7G sleep   0:00    0  0.06% oracle
                        20842 jiankong   1 52   2 1224K  896K sleep   0:00    0  0.05% sadc
                        20888 oracle     1 55   0 1712K 1272K cpu00   0:00    0  0.05% top
                        19954 oracle     1 58   0  1.8G  1.7G sleep  84:25    0  0.04% oracle

我们发现在进城列表里,存在两个高CPU耗用的Oracle进城,分别消耗了47.77%和40.98%的CPU资源.

 

2.找到存在问题的进程信息

 

                        $ ps -ef|grep 20521
                        oracle 20909 20875  0 10:50:53 pts/10   0:00 grep 20521
                        oracle 20521     1 47 10:43:59 ?        6:45 oraclejshs (LOCAL=NO)
                        $ ps -ef|grep 20845
                        oracle 20845     1 44 10:50:00 ?        0:55 oraclejshs (LOCAL=NO)
                        oracle 20918 20875  0 10:50:59 pts/10   0:00 grep 20845

确认这是两个远程连接的用户进程.

 

3.熟悉一下我的getsql.sql脚本

 

                        SELECT   /*+ ORDERED */
                        sql_text
                        FROM v$sqltext a
                        WHERE (a.hash_value, a.address) IN (
                        SELECT DECODE (sql_hash_value,
                        0, prev_hash_value,
                        sql_hash_value
                        ),
                        DECODE (sql_hash_value, 0, prev_sql_addr, sql_address)
                        FROM v$session b
                        WHERE b.paddr = (SELECT addr
                        FROM v$process c
                        WHERE c.spid = '&pid'))
                        ORDER BY piece ASC
                        /

注意这里我们涉及了3个视图,并应用其关联进行数据获取.
首先需要输入一个pid,这个pid即process id,也就是在Top或ps中我们看到的PID.
通过pid和v$process.spid相关联我们可以获得Process的相关信息
进而通过v$process.addr和v$session.paddr相关联,我们就可以获得和session相关的所有信息.
再结合v$sqltext,我们即可获得当前session正在执行的SQL语句.

通过v$process视图,我们得以把操作系统和数据库关联了起来.

 

4.连接数据库,找到问题sql及进程

通过Top中我们观察到的PID,进而应用我的getsql脚本,我们得到以下结果输出.

 

                        $ sqlplus "/ as sysdba"
                        SQL*Plus: Release 9.2.0.3.0 - Production on Mon Dec 29 10:52:14 2003
                        Copyright (c) 1982, 2002, Oracle Corporation.  All rights reserved.
                        Connected to:
                        Oracle9i Enterprise Edition Release 9.2.0.3.0 - 64bit Production
                        With the Partitioning, OLAP and Oracle Data Mining options
                        JServer Release 9.2.0.3.0 - Production
                        SQL> @getsql
                        Enter value for spid: 20521
                        old  10: where c.spid = '&pid'
                        new  10: where c.spid = '20521'
                        SQL_TEXT
                        ----------------------------------------------------------------
                        select * from (select VC2URL,VC2PVDID,VC2MOBILE,VC2ENCRYPTFLAG,S
                        ERVICEID,VC2SUB_TYPE,CISORDER,NUMGUID,VC2KEY1, VC2NEEDDISORDER,V
                        C2PACKFLAG,datopertime from hsv_2cpsync where datopertime<=sysda
                        te and numguid>70000000000308 order by NUMGUid) where rownum<=20

那么这段代码就是当前正在疯狂消耗CPU的罪魁祸首.
接下来需要进行的工作就是找出这段代码的问题,看是否可以通过优化提高其效率,减少资源消耗.

 

5.进一步的我们可以通过dbms_system包跟踪该进程

 

SQL> @getsid
Enter value for spid: 20521
old 3: select addr from v$process where spid = &spid)
new 3: select addr from v$process where spid = 20521)

SID SERIAL# USERNAME MACHINE
----------------------------------------------------------------
45 38991 HSUSER_V51 hswapjsptl1.hurray.com.cn

SQL> exec dbms_system.set_sql_trace_in_session(45,38991,true);

PL/SQL procedure successfully completed.

SQL> !

 

这部分内容可以参考:
http://www.eygle.com/case/sql_trace_1.htm

对于Windows上的类似问题,可以参考:
http://www.eygle.com/faq/Use.Nt.tools.manage.Oracle.htm

 

6.一点说明

很多时候,高CPU消耗都是由于问题SQL导致的,所以找到这些SQL通常也就找到了问题所在,通过优化调整
通常就可以解决问题。

但是有时候你可能会发现,这些最消耗CPU的进程是后台进程,这一般是由于异常、BUG或者恢复后的异常
导致的,需要具体问题具体分析了.

目录
相关文章
|
7月前
|
缓存 关系型数据库 分布式数据库
PolarDB常见问题之数据库cpu突然飙高如何解决
PolarDB是阿里云推出的下一代关系型数据库,具有高性能、高可用性和弹性伸缩能力,适用于大规模数据处理场景。本汇总囊括了PolarDB使用中用户可能遭遇的一系列常见问题及解答,旨在为数据库管理员和开发者提供全面的问题指导,确保数据库平稳运行和优化使用体验。
|
Oracle 关系型数据库 Linux
解决在linux服务器上部署定时自动查找cpu,内存,磁盘使用量,并将查询结果写入数据库的脚本,只能手动运行实现插库操作
问题描述:将脚本名命名为mortior.sh(以下简称mo),手动执行脚本后查询数据库,表中有相应的信息,放入自动执行队列中,脚本被执行,但是查询数据库,并没有新增数据。
85 0
|
29天前
|
缓存 监控 负载均衡
CPU占用率爆表:高效诊断与解决策略
面对CPU占用率飙升至100%的情况,系统管理员和开发人员需要迅速采取行动以避免性能瓶颈和系统崩溃。本文将提供一系列诊断和解决CPU占用过高问题的实用方法。
51 4
|
29天前
|
监控 负载均衡 算法
CPU占用率爆表:高效诊断与解决CPU 100%问题
在系统运维和软件开发中,CPU占用率达到100%是一个常见的性能瓶颈问题。这种情况可能会导致系统响应缓慢,甚至崩溃。本文将分享如何高效诊断和解决CPU占用率过高的问题,帮助你快速定位并解决问题。
74 5
|
1月前
|
监控 关系型数据库 MySQL
如何监控和诊断 MySQL 数据库的性能问题?
【10月更文挑战第28天】监控和诊断MySQL数据库的性能问题是确保数据库高效稳定运行的关键
119 1
|
1月前
|
存储 关系型数据库 MySQL
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
488 2
|
3月前
|
存储 关系型数据库 MySQL
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
200 5
|
4月前
|
监控 Java Linux
CPU被打满/CPU 100%:高效诊断与优化策略
【8月更文挑战第28天】在日常的工作与学习中,遇到CPU使用率飙升至100%的情况时,往往意味着系统性能受到严重影响,甚至可能导致程序响应缓慢或系统崩溃。本文将围绕这一主题,分享一系列高效诊断与优化CPU使用的技术干货,帮助大家快速定位问题并恢复系统性能。
276 1
|
6月前
|
SQL 关系型数据库 分布式数据库
PolarDB产品使用问题之在一个集群上创建多个数据库实例,是否可以做cpu和内存的配额指定
PolarDB产品使用合集涵盖了从创建与管理、数据管理、性能优化与诊断、安全与合规到生态与集成、运维与支持等全方位的功能和服务,旨在帮助企业轻松构建高可用、高性能且易于管理的数据库环境,满足不同业务场景的需求。用户可以通过阿里云控制台、API、SDK等方式便捷地使用这些功能,实现数据库的高效运维与持续优化。
|
7月前
|
监控 测试技术
【亮剑】理解CPU负载对服务器稳定性的重要性,并提供了诊断和解决CPU负载过高问题的步骤
【4月更文挑战第30天】本文阐述了理解CPU负载对服务器稳定性的重要性,并提供了诊断和解决CPU负载过高问题的步骤:1) 使用监控工具分析CPU使用率和系统负载;2) 深入排查运行队列、进程占用、系统调用和硬件状态;3) 根据排查结果进行代码优化、调整进程优先级或限制CPU使用率,必要时升级硬件。建议建立监控体系,定期性能测试,并持续优化以保证服务器高效运行。
240 1