Oracle 数据库自动诊断库 ADR(Automatic Diagnostic Repository)简介 发表在 数据和云

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: Oracle 数据库如果出现故障,我们的第一个反应是查看数据库的 alert log,但一些工程师对 alert log 不熟悉,实际上 alert log 位于Oracle 数据库自动诊断库(Automatic Diagnostic Repository,以下简称 ADR) 中,要熟悉 alert log,我们必需全面了解 ADR 的概念。

ADR 的作用

Oracle 数据库如果出现故障,我们的第一个反应是查看数据库的 alert log,但一些工程师对 alert log 不熟悉,实际上 alert log 位于Oracle 数据库自动诊断库(Automatic Diagnostic Repository,以下简称 ADR) 中,要熟悉 alert log,我们必需全面了解 ADR 的概念。ADR(Automatic Diagnostic Repository)是一个基于文件的存储库,用于存储数据库诊断数据,如跟踪、转储、警报日志、运行状况监视报告等。它具有跨多个实例和多个产品的统一目录结构。为什么基于文件的原因是显而易见的,因为数据库出现故障的时候数据库可能无法打开,将诊断信息放到文件里面保证了随时可以查阅。数据库、Oracle自动存储管理(Oracle ASM)、侦听器、Oracle Clusterware和其他Oracle产品或组件将所有诊断数据存储在ADR中。每个产品的每个实例都将诊断数据存储在ADR中自己的主目录下。例如,在具有共享存储和 Oracle ASM 的 Oracle Real Application Clusters 环境中,每个数据库实例和每个 Oracle ASM 实例都有一个ADR主目录。


ADR 中的文件

trace:每个服务器和后台进程都可以写入关联的 trace 文件。trace 文件在流程的整个生命周期内定期更新,可以包含有关流程环境、状态、活动和错误的信息。此外,当进程检测到严重错误时,它会将有关该错误的信息写入其 trace 文件。

dumps:dumps 是一种特定类型的 trace 文件。它通常是针对事件(如事件)的诊断数据的一次性输出,而 trace file 往往是诊断数据的连续输出。

core: core 文件包含一个内存转储,采用全二进制的格式。

Alert Log 和 sbtio.log 在后面说明。


ADR 的目录结构

ADR 的基目录称为 ADR base ,其位置由数据库的参数 DIAGNOSTIC_DEST 决定,如果省略此参数或将其留空,则数据库将在启动时采用下面的规则进行设置:


如果设置了环境变量 ORACLE_BASE,则 DIAGNOSTIC_DEST 设置为 ORACLE_BASE 指定的目录。

如果未设置环境变量 ORACLE_BASE,则 DIAGNOSTIC_DEST 设置为 ORACLE_HOME/log。

因此,目前一个常见的 ADR base 例子是 /u01/app/oracle。

image.png

在ADR base中,可以有多个 ADR home,其中每个 ADR home 是特定 Oracle 产品或组件的特定实例的所有诊断数据跟踪、转储、警报日志等的根目录。例如,在带有 Oracle ASM 的 Oracle Real Application Clusters 环境中,每个数据库实例、Oracle ASM实例和侦听器都有一个ADR home,结构如下:


一个方便的查询所有组件的家目录的方法是在 adrci 工具中用 show homes 的命令,例如:

ADR base = "/u01/app/grid"
adrci> show homes;
ADR Homes: 
diag/asm/+asm/+ASM1
diag/crs/rac1/crs
diag/clients/user_grid/host_1874443374_110
diag/clients/user_root/host_1874443374_110
diag/tnslsnr/rac1/asmnet1lsnr_asm
diag/tnslsnr/rac1/listener_scan1
diag/tnslsnr/rac1/listener
diag/asmcmd/user_grid/rac1
diag/asmcmd/user_oracle/rac1
diag/kfod/rac1/kfod

数据库的 ADR 家目录结构

每个产品的 ADR 家的路径构成如下:(从 ADR 的基目录开始)


diag/product_type/product_id/instance_id


我们以数据库为例:


路径组件 值

product_type rdbms

product_id DB_UNIQUE_NAME

instance_id SID

例如一个 DB_UNIQUE_NAME 和 SID 都是 orcl 的数据库 ADR 家目录是:/u01/app/oracle/diag/rdbms/orcl/orcl


每个子目录的作用如下:

alert:XML格式的 alert log

cdump:core 文件

incident: 多个子目录,其中每个子目录都是针对特定事件命名的,每个子目录只包含与该事件相关的转储

trace: 后台和服务器进程跟踪文件、SQL跟踪文件和文本格式的 alert log

others: ADR home的其他子目录,存储事件包、运行状况监视报告、警报日志以外的日志(例如DDL日志和调试日志)以及其他信息


在视图 v$diag_info 中存储着 ADR 重要目录的路径:


select * from v$diag_info
   INST_ID NAME    VALUE             CON_ID
---------- ---------------------------- ---------------------------------------------------------------- ----------
  1 Diag Enabled    TRUE           0
  1 ADR Base    /u01/app/oracle          0
  1 ADR Home    /u01/app/oracle/diag/rdbms/orcl/orcl       0
  1 Diag Trace    /u01/app/oracle/diag/rdbms/orcl/orcl/trace      0
  1 Diag Alert    /u01/app/oracle/diag/rdbms/orcl/orcl/alert      0
  1 Diag Incident  /u01/app/oracle/diag/rdbms/orcl/orcl/incident      0
  1 Diag Cdump    /u01/app/oracle/diag/rdbms/orcl/orcl/cdump      0
  1 Health Monitor  /u01/app/oracle/diag/rdbms/orcl/orcl/hm       0
  1 Default Trace File  /u01/app/oracle/diag/rdbms/orcl/orcl/trace/orcl_ora_33364.trc    0
  1 Active Problem Count  0           0
  1 Active Incident Count 0           0
  1 ORACLE_HOME   /u01/app/oracle/product/19.0.0/db_1       0


Alert Log

Alert Log 可能是运维工程师最关心的日志,它是按时间顺序记录消息和错误的日志。每个 ADR 家目录中都有一个警报日志。每个警报日志都特定于其组件类型,如数据库、Oracle ASM、侦听器和Oracle Clusterware。

对于数据库,Alert Log 包含有关以下内容的消息:


严重错误(事件)

管理操作,如启动或关闭数据库、恢复数据库、创建或删除表空间等。

自动刷新实化视图时出错

其他数据库事件

Alert Log 的格式有两种,XML 格式和文本格式。您可以使用 cloud control 和ADRCI实用程序以文本格式(去掉XML标记)查看警报日志。为了向后兼容,ADR中还存储了一个文本格式的警报日志版本。但是,Oracle建议使用 XML 格式的版本对警报日志内容进行任何解析,因为文本格式是非结构化的,可能会因版本而异。

对于我们前面列举的 orcl 数据库,这两类的 alert log 如下:

$ tail /u01/app/oracle/diag/rdbms/orcl/orcl/alert/log.xml 
 <txt>Closing Resource Manager plan via scheduler window
 </txt>
</msg>
<msg time='2020-12-07T18:00:00.130+08:00' org_id='oracle' comp_id='rdbms'
 type='UNKNOWN' level='16' host_id='dell.scutech'
 host_addr='fe80::655e:8314:f61f:9bac%em1' pid='42245' con_uid='1784183627'
 con_id='5' con_name='SALESPDB'>
 <txt>Clearing Resource Manager plan via parameter
 </txt>
</msg>
$ tail /u01/app/oracle/diag/rdbms/orcl/orcl/trace/alert_orcl.log 
2020-12-07T18:00:00.077657+08:00
PDB1(3):Closing scheduler window
PDB1(3):Closing Resource Manager plan via scheduler window
PDB1(3):Clearing Resource Manager plan via parameter
HRPDB(4):Closing scheduler window
HRPDB(4):Closing Resource Manager plan via scheduler window
HRPDB(4):Clearing Resource Manager plan via parameter
SALESPDB(5):Closing scheduler window
SALESPDB(5):Closing Resource Manager plan via scheduler window
SALESPDB(5):Clearing Resource Manager plan via parameter

下面是一个 crs 的两类 alert log 的例子:


[grid@rac1 crs]$ tail /u01/app/grid/diag/crs/rac1/crs/alert/log.xml 
 <txt>2020-12-03 18:52:29.951 [ORAAGENT(35496)]CRS-8500: Oracle Clusterware ORAAGENT process is starting with operating system process ID 35496
 </txt>
</msg>
<msg time='2020-12-03T18:52:52.787+08:00' org_id='oracle' comp_id='crs'
 msg_id='clsdadr_process_queue:4927:2974305713' type='UNKNOWN' group='CLSDADR'
 level='16' host_id='rac1' host_addr='192.168.82.175'
 pid='36879'>
 <txt>2020-12-03 18:52:52.679 [ORAAGENT(36879)]CRS-8500: Oracle Clusterware ORAAGENT process is starting with operating system process ID 36879
 </txt>
</msg>
[grid@rac1 crs]$ tail /u01/app/grid/diag/crs/rac1/crs/trace/alert.log 
2020-12-03 18:52:13.218 [OCTSSD(34536)]CRS-2401: The Cluster Time Synchronization Service started on host rac1.
2020-12-03 18:52:13.218 [OCTSSD(34536)]CRS-2407: The new Cluster Time Synchronization Service reference node is host rac2.
2020-12-03 18:52:20.552 [CRSD(34786)]CRS-8500: Oracle Clusterware CRSD process is starting with operating system process ID 34786
2020-12-03 18:52:23.601 [CRSD(34786)]CRS-1012: The OCR service started on node rac1.
2020-12-03 18:52:23.671 [CRSD(34786)]CRS-1201: CRSD started on node rac1.
2020-12-03 18:52:24.356 [ORAAGENT(35004)]CRS-8500: Oracle Clusterware ORAAGENT process is starting with operating system process ID 35004
2020-12-03 18:52:24.420 [ORAROOTAGENT(35014)]CRS-8500: Oracle Clusterware ORAROOTAGENT process is starting with operating system process ID 35014
2020-12-03 18:52:24.480 [ORAAGENT(35028)]CRS-8500: Oracle Clusterware ORAAGENT process is starting with operating system process ID 35028
2020-12-03 18:52:29.951 [ORAAGENT(35496)]CRS-8500: Oracle Clusterware ORAAGENT process is starting with operating system process ID 35496
2020-12-03 18:52:52.679 [ORAAGENT(36879)]CRS-8500: Oracle Clusterware ORAAGENT process is starting with operating system process ID 36879
[grid@rac1 crs]$


sbtio log

sbtio.log,从这个文件的名字我们可以很容易推断这个日志文件是干什么用的,大家知道 rman 有两种通道,一种是 disk,另一种是 sbt,您可以认为是磁带机用的通道,io 的意思就不用说了吧,这个文件保存由介质管理软件写入的特定信息,例如鼎甲科技的迪备软件,Veritas的 nbu 软件都会在这个文件里面记录日志。

对于我们前面列举的 orcl 数据库,sbtio.log 的例子如下:

$ tail /u01/app/oracle/diag/rdbms/orcl/orcl1/trace/sbtio.log

SBT-19152 11/18/20 22:40:43 [LM_ERROR] 7501: Failed to start session with server: Protocol not supported


ADRCI 工具

ADRCI 工具是 Oracle11g 版本推出的新工具,主要用来管理alert文件、trace文件、dump文件、健康检查报告等。这个工具可以快速查询错误相关的所有trace文件,并将这些文件打包到一个zip文件,以便将问题相关的信息提供给Oracle的技术支持。

下面是生成一个问题报告的例子。

[grid@rac1 crs]$ adrci
ADRCI: Release 19.0.0.0.0 - Production on Tue Dec 8 11:26:34 2020
Copyright (c) 1982, 2019, Oracle and/or its affiliates.  All rights reserved.
ADR base = "/u01/app/grid"
adrci> show problems
ADR Home = /u01/app/grid/diag/crs/rac1/crs:
*************************************************************************
PROBLEM_ID           PROBLEM_KEY                                                 LAST_INCIDENT        LASTINC_TIME                             
-------------------- ----------------------------------------------------------- -------------------- ---------------------------------------- 
1                    CRS 8503                                                    33                   2020-12-03 18:34:59.547000 +08:00       
1 row fetched
adrci> set homepath diag/crs/rac1/crs
adrci>  IPS CREATE PACKAGE PROBLEM 1
Created package 1 based on problem id 1, correlation level typical
adrci> ips generate package 1 in /tmp
Generated package 1 in file /tmp/CRS8503_20201208114517_COM_1.zip, mode complete
adrci>



压缩文件 /tmp/CRS8503_20201208114517_COM_1.zip 中包含了问题 1 相关的日志和 trace 文件。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
2月前
|
存储 监控 数据处理
flink 向doris 数据库写入数据时出现背压如何排查?
本文介绍了如何确定和解决Flink任务向Doris数据库写入数据时遇到的背压问题。首先通过Flink Web UI和性能指标监控识别背压,然后从Doris数据库性能、网络连接稳定性、Flink任务数据处理逻辑及资源配置等方面排查原因,并通过分析相关日志进一步定位问题。
207 61
|
10天前
|
SQL 存储 运维
从建模到运维:联犀如何完美融入时序数据库 TDengine 实现物联网数据流畅管理
本篇文章是“2024,我想和 TDengine 谈谈”征文活动的三等奖作品。文章从一个具体的业务场景出发,分析了企业在面对海量时序数据时的挑战,并提出了利用 TDengine 高效处理和存储数据的方法,帮助企业解决在数据采集、存储、分析等方面的痛点。通过这篇文章,作者不仅展示了自己对数据处理技术的理解,还进一步阐释了时序数据库在行业中的潜力与应用价值,为读者提供了很多实际的操作思路和技术选型的参考。
24 1
|
14天前
|
存储 Java easyexcel
招行面试:100万级别数据的Excel,如何秒级导入到数据库?
本文由40岁老架构师尼恩撰写,分享了应对招商银行Java后端面试绝命12题的经验。文章详细介绍了如何通过系统化准备,在面试中展示强大的技术实力。针对百万级数据的Excel导入难题,尼恩推荐使用阿里巴巴开源的EasyExcel框架,并结合高性能分片读取、Disruptor队列缓冲和高并发批量写入的架构方案,实现高效的数据处理。此外,文章还提供了完整的代码示例和配置说明,帮助读者快速掌握相关技能。建议读者参考《尼恩Java面试宝典PDF》进行系统化刷题,提升面试竞争力。关注公众号【技术自由圈】可获取更多技术资源和指导。
|
17天前
|
前端开发 JavaScript 数据库
获取数据库中字段的数据作为下拉框选项
获取数据库中字段的数据作为下拉框选项
49 5
|
2月前
|
关系型数据库 MySQL 数据库
GBase 数据库如何像MYSQL一样存放多行数据
GBase 数据库如何像MYSQL一样存放多行数据
|
18天前
|
存储 Oracle 关系型数据库
数据库传奇:MySQL创世之父的两千金My、Maria
《数据库传奇:MySQL创世之父的两千金My、Maria》介绍了MySQL的发展历程及其分支MariaDB。MySQL由Michael Widenius等人于1994年创建,现归Oracle所有,广泛应用于阿里巴巴、腾讯等企业。2009年,Widenius因担心Oracle收购影响MySQL的开源性,创建了MariaDB,提供额外功能和改进。维基百科、Google等已逐步替换为MariaDB,以确保更好的性能和社区支持。掌握MariaDB作为备用方案,对未来发展至关重要。
45 3
|
18天前
|
安全 关系型数据库 MySQL
MySQL崩溃保险箱:探秘Redo/Undo日志确保数据库安全无忧!
《MySQL崩溃保险箱:探秘Redo/Undo日志确保数据库安全无忧!》介绍了MySQL中的三种关键日志:二进制日志(Binary Log)、重做日志(Redo Log)和撤销日志(Undo Log)。这些日志确保了数据库的ACID特性,即原子性、一致性、隔离性和持久性。Redo Log记录数据页的物理修改,保证事务持久性;Undo Log记录事务的逆操作,支持回滚和多版本并发控制(MVCC)。文章还详细对比了InnoDB和MyISAM存储引擎在事务支持、锁定机制、并发性等方面的差异,强调了InnoDB在高并发和事务处理中的优势。通过这些机制,MySQL能够在事务执行、崩溃和恢复过程中保持
47 3
|
18天前
|
SQL 关系型数据库 MySQL
数据库灾难应对:MySQL误删除数据的救赎之道,技巧get起来!之binlog
《数据库灾难应对:MySQL误删除数据的救赎之道,技巧get起来!之binlog》介绍了如何利用MySQL的二进制日志(Binlog)恢复误删除的数据。主要内容包括: 1. **启用二进制日志**:在`my.cnf`中配置`log-bin`并重启MySQL服务。 2. **查看二进制日志文件**:使用`SHOW VARIABLES LIKE &#39;log_%&#39;;`和`SHOW MASTER STATUS;`命令获取当前日志文件及位置。 3. **创建数据备份**:确保在恢复前已有备份,以防意外。 4. **导出二进制日志为SQL语句**:使用`mysqlbinlog`
62 2
|
1月前
|
关系型数据库 MySQL 数据库
Python处理数据库:MySQL与SQLite详解 | python小知识
本文详细介绍了如何使用Python操作MySQL和SQLite数据库,包括安装必要的库、连接数据库、执行增删改查等基本操作,适合初学者快速上手。
210 15
|
25天前
|
SQL 关系型数据库 MySQL
数据库数据恢复—Mysql数据库表记录丢失的数据恢复方案
Mysql数据库故障: Mysql数据库表记录丢失。 Mysql数据库故障表现: 1、Mysql数据库表中无任何数据或只有部分数据。 2、客户端无法查询到完整的信息。

推荐镜像

更多