Oracle DataGuard Study之--DataGuard FailOver案例

简介:

Oracle DG(Dataguard)是目前比较常见的数据库HA配置策略。通过实现Physical Standby和Logical Standby,可以实现数据冗余容错机制。防止在主库出现严重故障,不能支持服务的时候,没有快速的后备支持环境。

DG中,switchoverfailover是两个重要的概念,也是DG实现的核心。两者共同点都是PrimaryStandby角色切换,差异在于PlannedUnPlanned之分。Switchover关键点在于Planned,这个切换动作是在运维机构规划范围内的动作。比如,进行定期系统软硬件升级、设备维修等动作。而Failover是真正出现严重系统故障,如数据库宕机、软硬件故障导致的Primary不能支持服务,从而进行的切换动作。

根据不同的DG配置,switchoverfailover也是有差异的。理论上,Switchover是不会造成数据丢失的,Primary在切换之后也是在DG配置环境中,作为Standby存在的。但是Failover则不同,除了运行在最大保护(Maximum Protection)模式下,Primary突发的故障可能引起一部分Redo Log不能及时的传递到Standby端,切换之后很可能有数据损失的情况。更重要的是,Primary端在发生Failover之后,是不能够直接加入回DG配置的!也就是说,Failover之后,Primary实际上就是被“抛出”了DG环境。

那么,有什么方法实现Primary回到原有的环境呢?这个问题的困难在于保持PrimaryStandby一致。在正常情况下,PrimaryStandby之间是关联同步的,即使发生了Switchover,也在可控情况下。Failover过程中有数据的缺失,还有Primary修复问题。在目前流行版本(11g)中,有三个方法:

 

ü  环境重建:一种最简单的方法就是直接删除原来的Primary库,引用DG重建方法,重新搭建Standby端;

ü  RMAN备份恢复:如果Primary端保留过一份Failover之前的备份,则可以强制原来的Primary端恢复到进行Failover的时间点,之后作为Standby接收当前Primaryredo log传递,应用后可以跟上进度;

ü  Flashback Database恢复:Flashback技术是作为传统备份还原技术的补充,提供了更加便捷的恢复策略。使用flashback,可以将数据库恢复到failover之前的时间点。之后的过程和RMAN备份恢复策略相同;

案例分析:

一、在主库端模拟数据库意外宕机

1
2
3
4
5
6
7
scott@bjdb>conn / as  sysdba
Connected.
sys@bjdb>alter system switch logfile;
System altered.
 
sys@bjdb>shutdown abort
ORACLE instance shut down.

二、在备库端

1、查看切换信息

1
2
3
4
5
sys@shdb>select name,database_role,switchover_status  from  v$database;
NAME      DATABASE_ROLE    SWITCHOVER_STATUS
--------- ---------------- --------------------
TESTDB12  PHYSICAL STANDBY NOT ALLOWED
可以看到此时备库处于无法切换状态

2、直接切换

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
sys@shdb>alter database commit to switchover to primary;
 
 
alert_log:(告警日志)
Fatal NI connect error  12514 , connecting to:
  (DESCRIPTION=(ADDRESS_LIST=(ADDRESS=(PROTOCOL=TCP)(HOST=shsrv)(PORT= 1521 )))(CONNECT_DATA=(SERVICE_NAME=shdb)(CID=(PROGRAM=oracle)(HOST=bjsrv)(USER=oracle))))
   VERSION INFORMATION:
         TNS  for  Linux: Version  11.2. 0.3. 0  - Production
         TCP/IP NT Protocol Adapter  for  Linux: Version  11.2. 0.3. 0  - Production
   Time:  04 -MAR -2015  21 : 25 : 13
   Tracing  not  turned  on .
   Tns error struct:
     ns main err code:  12564
     
TNS -12564 : TNS:connection refused
     ns secondary err code:  0
     nt main err code:  0
     nt secondary err code:  0
     nt OS err code:  0
Error  12514  received logging  on  to the standby
FAL[client, MRP0]: Error  12514  connecting to shdb  for  fetching gap sequence
Wed Mar  04  21 : 26 : 00  2015
alter database commit to switchover to primary
ALTER DATABASE SWITCHOVER TO PRIMARY (TestDB12)
Maximum wait  for  role transition is  15  minutes.
Switchover: Media recovery is still active
Database  not  available  for  switchover
   End-Of-REDO archived log file has  not  been recovered
Database  not  available  for  switchover
   End-Of-REDO archived log file has  not  been recovered
Database  not  available  for  switchover

3、关闭standby MPR进程

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
sys@shdb>ALTER DATABASE RECOVER  managed standby database finish;
 
ALTER DATABASE RECOVER  managed standby database finish  
Terminal Recovery: request posted (TestDB12)
Wed Mar  04  21 : 34 : 34  2015
Begin: Standby Redo Logfile archival
End: Standby Redo Logfile archival
Terminal Recovery timestamp is  '03/04/2015 21:34:34'
Terminal Recovery: applying standby redo logs.
Terminal Recovery: thread  1  seq#  34  redo required
Media Recovery Waiting  for  thread  1  sequence  34
Terminal Recovery: End-Of-Redo log allocation
Terminal Recovery: standby redo logfile  4  created  '/dsk4/arch_bj/arch_1_0_820054583.log'
This standby redo logfile is being created  as  part of the
failover operation.  This standby redo logfile should be
deleted  after  the switchover to primary operation completes.
Media Recovery Log /dsk4/arch_bj/arch_1_0_820054583.log
Terminal Recovery: log  4  reserved  for  thread  1  sequence  34
Recovery of Online Redo Log: Thread  1  Group  4  Seq  34  Reading mem  0
   Mem#  0 : /dsk4/arch_bj/arch_1_0_820054583.log
Identified End-Of-Redo (failover)  for  thread  1  sequence  34  at  SCN  0xffff. ffffffff
Incomplete Recovery applied until change  1234252  time  03 / 04 / 2015  21 : 23 : 43
MRP0: Media Recovery Complete (TestDB12)
Terminal Recovery: successful completion
Wed Mar  04  21 : 34 : 35  2015
ARCH: Archival stopped, error occurred. Will  continue  retrying
ORACLE Instance TestDB12 - Archival Error
ORA -16014 : log  4  sequence#  34  not  archived, no available destinations
ORA -00312 : online log  4  thread  1 '/dsk4/arch_bj/arch_1_0_820054583.log'
Forcing ARSCN to IRSCN  for  TR  0 : 1234252
Attempt to set limbo arscn  0 : 1234252  irscn  0 : 1234252 
Resetting standby activation ID  2865247982  ( 0xaac836ee )
MRP0: Background Media Recovery process shutdown (TestDB12)
Terminal Recovery: completion detected (TestDB12)
Completed: ALTER DATABASE RECOVER  managed standby database finish

4、切换数据库到Primary

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
sys@shdb>select status  from  v$instance;
STATUS
------------
OPEN
sys@shdb>select name,database_role,switchover_status  from  v$database;
NAME      DATABASE_ROLE    SWITCHOVER_STATUS
--------- ---------------- --------------------
TESTDB12  PHYSICAL STANDBY TO PRIMARY
 
sys@shdb>alter database commit to switchover to primary;
Database altered.
 
sys@shdb>alter database open;
Database altered.
 
告警日志:
alter database commit to switchover to primary
ALTER DATABASE SWITCHOVER TO PRIMARY (TestDB12)
Maximum wait  for  role transition is  15  minutes.
All dispatchers  and  shared servers shutdown
CLOSE: killing server sessions.
CLOSE: all sessions shutdown successfully.
Wed Mar  04  21 : 35 : 47  2015
SMON: disabling cache recovery
Backup controlfile written to trace file /u01/app/oracle/diag/rdbms/bjdb/TestDB12/trace/TestDB12_ora_3146.trc
Standby terminal recovery start SCN:  1234251
RESETLOGS  after  incomplete recovery UNTIL CHANGE  1234252
Online log /dsk2/oradata/bjdb/redo01b.log: Thread  1  Group  1  was previously cleared
Online log /dsk1/oradata/bjdb/redo01a.log: Thread  1  Group  1  was previously cleared
Online log /dsk2/oradata/bjdb/redo02b.log: Thread  1  Group  2  was previously cleared
Online log /dsk1/oradata/bjdb/redo02a.log: Thread  1  Group  2  was previously cleared
Online log /dsk2/oradata/bjdb/redo03b.log: Thread  1  Group  3  was previously cleared
Online log /dsk1/oradata/bjdb/redo03a.log: Thread  1  Group  3  was previously cleared
Standby became primary SCN:  1234250
Wed Mar  04  21 : 35 : 47  2015
Setting recovery target incarnation to  3
AUDIT_TRAIL initialization parameter is changed back to its original value  as  specified  in  the parameter file.
Switchover: Complete - Database mounted  as  primary
Completed: alter database commit to switchover to primary

三、原主库修复后,开机

1
2
3
4
5
6
7
8
9
10
11
12
13
14
sys@bjdb>startup
ORACLE instance started.
Total System Global Area   442601472  bytes
Fixed Size                   2229184  bytes
Variable Size              281021504  bytes
Database Buffers           155189248  bytes
Redo Buffers                 4161536  bytes
Database mounted.
Database opened.
 
sys@bjdb>select name,database_role,switchover_status  from  v$database;
NAME      DATABASE_ROLE    SWITCHOVER_STATUS
--------- ---------------- --------------------
TESTDB12  PRIMARY          FAILED DESTINATION

     现在原来的主库被修复后,整个DataGuara架构已经被破坏了,所以必须把原来的主库构建成新的备库,重新恢复DataGuard的环境。


四、重新构建DataGuard

1
sys@bjdb>select name,database_role  from  v$database;

NAME                                               DATABASE_ROLE

-------------------------------------------------- ----------------

TESTDB12                                           PHYSICAL STANDBY










本文转自 客居天涯 51CTO博客,原文链接:http://blog.51cto.com/tiany/1617646,如需转载请自行联系原作者
目录
相关文章
|
3月前
|
Oracle 关系型数据库 数据库
Oracle数据恢复—Oracle数据库文件有坏快损坏的数据恢复案例
一台Oracle数据库打开报错,报错信息: “system01.dbf需要更多的恢复来保持一致性,数据库无法打开”。管理员联系我们数据恢复中心寻求帮助,并提供了Oracle_Home目录的所有文件。用户方要求恢复zxfg用户下的数据。 由于数据库没有备份,无法通过备份去恢复数据库。
|
3月前
|
存储 Oracle 关系型数据库
oracle数据恢复—Oracle数据库文件大小变为0kb的数据恢复案例
存储掉盘超过上限,lun无法识别。管理员重组存储的位图信息并导出lun,发现linux操作系统上部署的oracle数据库中有上百个数据文件的大小变为0kb。数据库的大小缩水了80%以上。 取出&并分析oracle数据库的控制文件。重组存储位图信息,重新导出控制文件中记录的数据文件,发现这些文件的大小依然为0kb。
|
2月前
|
存储 Oracle 关系型数据库
服务器数据恢复—华为S5300存储Oracle数据库恢复案例
服务器存储数据恢复环境: 华为S5300存储中有12块FC硬盘,其中11块硬盘作为数据盘组建了一组RAID5阵列,剩下的1块硬盘作为热备盘使用。基于RAID的LUN分配给linux操作系统使用,存放的数据主要是Oracle数据库。 服务器存储故障: RAID5阵列中1块硬盘出现故障离线,热备盘自动激活开始同步数据,在同步数据的过程中又一块硬盘离线,RAID5阵列瘫痪,上层LUN无法使用。
|
4月前
|
存储 Oracle 关系型数据库
数据库数据恢复—Oracle ASM磁盘组故障数据恢复案例
Oracle数据库数据恢复环境&故障: Oracle ASM磁盘组由4块磁盘组成。Oracle ASM磁盘组掉线 ,ASM实例不能mount。 Oracle数据库故障分析&恢复方案: 数据库数据恢复工程师对组成ASM磁盘组的磁盘进行分析。对ASM元数据进行分析发现ASM存储元数据损坏,导致磁盘组无法挂载。
|
5月前
|
Oracle 关系型数据库 数据库
Oracle数据恢复—异常断电导致Oracle数据库数据丢失的数据恢复案例
Oracle数据库故障: 机房异常断电后,Oracle数据库启库报错:“system01.dbf需要更多的恢复来保持一致性,数据库无法打开”。数据库没有备份,归档日志不连续。用户方提供了Oracle数据库的在线文件,需要恢复zxfg用户的数据。 Oracle数据库恢复方案: 检测数据库故障;尝试挂起并修复数据库;解析数据文件。
|
4月前
|
Oracle 关系型数据库 数据库
oracle数据恢复—Oracle数据库文件损坏导致数据库打不开的数据恢复案例
打开oracle数据库时报错,报错信息:“system01.dbf需要更多的恢复来保持一致性,数据库无法打开”。急需恢复zxfg用户下的数据。 出现上述报错的原因有:控制文件损坏、数据文件损坏、数据文件与控制文件的SCN不一致等。数据恢复工程师对数据库文件做进一步检测分析后发现sysaux01.dbf文件有坏块。修复sysaux01.dbf文件,启动数据库依然有许多查询报错。export和data pump工具无法使用,查询告警日志并分析报错,确认发生上述错误的原因就是sysaux01.dbf文件损坏。由于该文件损坏,从数据库层面无法修复数据库。由于system和用户表空间的数据文件是正常的,
|
SQL Oracle 关系型数据库
|
4月前
|
存储 Oracle 关系型数据库
Oracle数据库的应用场景有哪些?
【10月更文挑战第15天】Oracle数据库的应用场景有哪些?
336 64
|
2月前
|
存储 Oracle 关系型数据库
数据库数据恢复—ORACLE常见故障的数据恢复方案
Oracle数据库常见故障表现: 1、ORACLE数据库无法启动或无法正常工作。 2、ORACLE ASM存储破坏。 3、ORACLE数据文件丢失。 4、ORACLE数据文件部分损坏。 5、ORACLE DUMP文件损坏。
160 11
|
3月前
|
SQL Oracle 关系型数据库
Oracle数据库优化方法
【10月更文挑战第25天】Oracle数据库优化方法
80 7

推荐镜像

更多