近日遇到一个RAC问题,一个节点无法启动,经过分析后解决,解决过程如下。
11.2.0.3 RAC环境,其中一个节点instance启动失败,显示如下错误
- [oracle@exadbmel04 ~]$ crsctl start res ora.dbm.db
- CRS-2672: Attempting to start 'ora.dbm.db' on 'exadbmel04'
- CRS-5017: The resource action "ora.dbm.db start" encountered the following error:
- ORA-01078: failure in processing system parameters
- ORA-01565: error in identifying file '+DATA_EXA/dbm/spfiledbm.ora'
- ORA-17503: ksfdopn:2 Failed to open file +DATA_EXA/dbm/spfiledbm.ora
- ORA-27140: attach to post/wait facility failed
- ORA-27300: OS system dependent operation:invalid_egid failed with status: 1
- ORA-27301: OS failure message: Operation not permitted
- ORA-27302: failure occurred at: skgpwinit6
- ORA-27303: additional information: startup egid = 1001 (oinstall), current egid = 1002 (dba)
- . For details refer to "(:CLSN00107:)" in "/u01/app/11.2.0.3/grid/log/exadbmel04/agent/crsd/oraagent_oracle/oraagent_oracle.log".
- CRS-2674: Start of 'ora.dbm.db' on 'exadbmel04' failed
- CRS-2679: Attempting to clean 'ora.dbm.db' on 'exadbmel04'
- CRS-2681: Clean of 'ora.dbm.db' on 'exadbmel04' succeeded
- CRS-2528: Unable to place an instance of 'ora.dbm.db' as all possible servers are occupied by the resource
- CRS-4000: Command Start failed, or completed with errors.
通过Sqlplus启动,遇到同样的错误
- [oracle@exadbmel04 ~]$ . oraenv
- ORACLE_SID = [oracle] ? dbm4
- The Oracle base has been set to /u01/app/oracle
- [oracle@exadbmel04 ~]$ sqlplus / as sysdba
- SQL> startup mount;
- ORA-01078: failure in processing system parameters
- ORA-01565: error in identifying file '+DATA_EXA/dbm/spfiledbm.ora'
- ORA-17503: ksfdopn:2 Failed to open file +DATA_EXA/dbm/spfiledbm.ora
- ORA-27140: attach to post/wait facility failed
- ORA-27300: OS system dependent operation:invalid_egid failed with status: 1
- ORA-27301: OS failure message: Operation not permitted
- ORA-27302: failure occurred at: skgpwinit6
- ORA-27303: additional information: startup egid = 1001 (oinstall), current egid = 1002 (dba)
查看资源,可以看到ASM的实例都是正常的,包括diskgroup,但是实例exadbmel04未启动。
- [oracle@exadbmel04 ~]$ crsctl status res -t
- --------------------------------------------------------------------------------
- NAME TARGET STATE SERVER STATE_DETAILS
- --------------------------------------------------------------------------------
- Local Resources
- --------------------------------------------------------------------------------
- ora.DATA_EXA.dg
- ONLINE ONLINE exadbmel01
- ONLINE ONLINE exadbmel03
- ONLINE ONLINE exadbmel04
- ora.DBFS_DG.dg
- ONLINE ONLINE exadbmel01
- ONLINE ONLINE exadbmel03
- ONLINE ONLINE exadbmel04
- ora.LISTENER.lsnr
- ONLINE ONLINE exadbmel01
- ONLINE ONLINE exadbmel03
- ONLINE ONLINE exadbmel04
- ora.RECO_EXA.dg
- ONLINE ONLINE exadbmel01
- ONLINE ONLINE exadbmel03
- ONLINE ONLINE exadbmel04
- ora.asm
- ONLINE ONLINE exadbmel01
- ONLINE ONLINE exadbmel03 Started
- ONLINE ONLINE exadbmel04 Started
- ora.gsd
- ......
- --------------------------------------------------------------------------------
- Cluster Resources
- --------------------------------------------------------------------------------
- ......
- ora.dbm.db
- 1 ONLINE ONLINE
- 2 ONLINE ONLINE
- 3 ONLINE ONLINE
- 4 ONLINE OFFLINE Instance Shutdown
- ......
通过查询ORA-27300错误,找到问题点。
这个问题是这个文件 $GI_HOME/bin/oracle 的权限不对,正确的权限应该是 "-rwsr-s--x".将权限修改正确,问题解决。
- [oracle@exadbmel04 bin]$cd $GI_HOME/bin/
- [oracle@exadbmel04 bin]$ ls -al oracle
- -rwxr-xr-x 1 oracle oinstall 204170493 Jun 25 20:46 oracle
- [oracle@exadbmel04 bin]$ chmod 6751 oracle
- [oracle@exadbmel04 bin]$ ls -al oracle
- -rwsr-s--x 1 oracle oinstall 204170493 Jun 25 20:46 oracle
启动实例,正常启动
- [oracle@exadbmel04 ~]$ crsctl start res ora.dbm.db
- CRS-2672: Attempting to start 'ora.dbm.db' on 'exadbmel04'
- CRS-2672: Attempting to start 'ora.dbm.db' on 'exadbmel01'
- CRS-2676: Start of 'ora.dbm.db' on 'exadbmel04' succeeded
- CRS-2676: Start of 'ora.dbm.db' on 'exadbmel01' succeeded
使用sqlplus验证,数据库已经可以正常访问
- [oracle@exadbmel04 ~]$ sqlplus / as sysdba
- SQL> select instance_name,status from v$instance;
- INSTANCE_NAME STATUS
- ---------------- ------------
- dbm4 OPEN
-
- SQL> select username from dba_users;
- USERNAME
- ------------------------------
- SYS
- SYSTEM
- DBSNMP
- DBFS_TEST
- OUTLN
- MGMT_VIEW
- FLOWS_FILES
- MDSYS
- ORDSYS
- EXFSYS
- WMSYS
- ......
遇到这种问题的可能,
1、是人为修改该文件的权限,
2、还有就是apply patch失败,apply patch的过程会有修改该文件权限为-rwxr-xr-x的动作,在apply patch完成后再修改回来,但是如果apply patch失败,就会导致该文件权限一直是错误的状态,需要手动修改回来。
最后分析 $GI_HOME/bin/oracle文件权限中的“S”,这个权限问题明白了,oracle的这个问题也就解释了。查询Linux权限,得到这样的解释
Linux 权限模型有两个专门的位,叫做“suid”和“sgid”。当设置了一个可执行程序
的“suid”这一位时,它将代表可执行文件的所有者运行,而不是代表启动程序的人运行。
现在,回到 /etc/passwd 问题。如果看一看 passwd 可执行文件,我们可以
看到它属于 root 用户:
- $ ls -l /usr/bin/passwd
- -rwsr-xr-x 1 root wheel 17588 Sep 24 00:53 /usr/bin/passwd
您还将注意到,这里有一个 s 取替了用户权限三元组中的一个 x。这表明,对于这个特殊程序,
设置了 suid 和可执行位。由于这个原因,当 passwd 运行时,它将代表 root 用户执行(
具有完全超级用户访问权),而不是代表运行它的用户运行。又因为 passwd 以 root 用户访
问权运行,所以能够修改 /etc/passwd 文件,而没有什么问题。
suid/sgid 告诫说明
我们看到了 suid 怎样工作,sgid 以同样的方式工作。它允许程序继承程序的组所有权,而不
是当前用户的程序所有权。
引用ITPUB的一个帖子,其中有相关问题及解析
http://www.itpub.net/forum.php?mod=viewthread&tid=1622940
这里面说的问题原因就是 $ORACLE_HOME/bin/oracle 和 $GI_HOME/bin/oracle下的oracle程序的权限都是这样设置的,并且他们的属组是不同的,所以在实际操作的连接过程中,需要相互调用对方oracle程序,来申请SGA内存区
可以看到下面各自的属组是不同的,如果需要使用对方的应用程序并且使用该应用程序的属组,那么,唯一的办法是使用"S"权限。
- [root@rac1 ~]# su - oracle
- [oracle@rac1 ~]$ cd $ORACLE_HOME
- [oracle@rac1 dbhome_1]$ cd bin
- [oracle@rac1 bin]$ ll oracle
- -rwsr-s--x 1 oracle oinstall 232399431 May 14 13:47 oracle
- [oracle@rac1 bin]$ ll sqlplus
- -rwxr-x--x 1 oracle oinstall 9205 May 14 13:46 sqlplus
- [root@rac1 ~]# su - grid
- [grid@rac1 ~]$ cd $GRID_HOME
- [grid@rac1 bin]$ pwd
- /u01/app/11.2.0/grid/bin
- [grid@rac1 bin]$ ll oracle
- -rwsr-s--x 1 grid oinstall 203974257 May 11 09:30 oracle
- [grid@rac1 bin]$ ll crsctl
- -rwxr-xr-x 1 root oinstall 8133 May 11 12:35 crsctl