阿里专有云3.6.1版本云上rac安装节点驱逐问题

简介: 阿里专有云云上Oracle rac节点驱逐解决方案
  • 问题描述

在某专有云3.6.1版本的客户现场安装Oracle rac安装的过程当中,在节点组播正常测试通过的情况下,依旧发生节点驱逐的情况发生;
由于云上采用共享存储以及havip产品的使用的情况下,对于Oracle的11.2.0.2版本以后需要确认使用priv网络ip设置cluster_interconnect来替代169心跳网络特性;
但是按照云上Oracle rac商业输出方案进行常规的配置安装以后,以后依然发生节点驱逐的情况发生;
报错截图如下:
图为在二节点执行root.sh脚本的时候报错节点通信失败,报错退出;
image
从报错看是cssd进程没有启动导致;
检查ocssd.log日志如下超时信息:
image
网络节点通信超时,节点退出;root.sh脚本执行失败,grid集群安装失败;

  • 问题排查

由于对于专有云网络侧的不了解或者未知问题的了解,故而按照常规思路考虑对于节点驱逐的情况,一般是由于组播未通信或者cluster_interconnect参数未设置导致;
但是经过测试组播通信无误,并使用mcasttest测试以后结果显示也是组播没有通信出现问题;
image
对于42424端口的multicast是successded;
然后alter system set cluster_interconnect参数也是设置了priv的两个ip地址;
并进行多次测试以后问题依旧;
由于对于priv通信支持的是udp的包体通信,且经查询mos以及咨询原厂同学确认;
Network Protocols and Real Application Clusters (文档 ID 278132.1)
这个mos里边提到去掉Oracle typically recommends Infiniband (RDS)以外,Linux操作系统支持的udp协议;
心跳是udp通讯,必须用支持tcp的交换机;
image
image
因此怀疑是否是对于私网网络的MTU的包体通信过程中超过了MTU的大小导致的问题,故而进行了关闭UFO参数的操作来确认该问题;
经过关闭UFO,然后进行测试如下:
Eth0和eth1都需要关闭
ethtool -K eth1 ufo off
image
image
然后再次执行安装grid集群,二节点执行root.sh成功;
image
两节点的ocssd.log日志输出正常如下,有私网通信包体的发送;
image

  • 问题解决

因此临时解决的方式就是对于关闭UFO,设置/etc/rc.local开机自启动;
image

  • 根本原因

对于根本原因经过最后确认如下:
专有云环境libvswitch版本存在bug,单元udp大包,报文>mtu,可能会checksum算错的情况。目前已知的影响是oracle rac的部署,先临时通过关闭ufo的方式解决,但存在后期运维风险。最终的解决方案是升级libvswith版本,理论上是对整体集群不影响。
升级考虑使用hotfix的修复,但是对于UFO的设置,Linux官方后续的版本即将废弃,判断可能影响并不大,有兴趣可以关注!!!

目录
相关文章
|
6月前
rac 节点驱逐
rac 节点驱逐
47 0
|
3月前
|
Oracle 关系型数据库
分布式锁设计问题之Oracle RAC保证多个节点写入内存Page的一致性如何解决
分布式锁设计问题之Oracle RAC保证多个节点写入内存Page的一致性如何解决
|
6月前
|
Oracle 关系型数据库
oracle rac 手工安装补丁,不适用auto
oracle rac 手工安装补丁,不适用auto
74 3
|
Oracle 关系型数据库 数据库
RAC中,控制文件的快照文件必须能够被所有节点的数据实例访问到 ORA-00245
RMAN在使用控制文件备份的时候,备份开始点需要最新的检查点信息以及文件头信息。
113 0
rac安装报错“ Checking swap space 0 MB available, 150 MB required. Failed”
rac安装报错“ Checking swap space 0 MB available, 150 MB required. Failed”
837 0
|
Oracle 关系型数据库 Linux
|
Oracle 关系型数据库 数据库
|
Oracle 关系型数据库
oracle rac 添加节点常用命令
rac 添加节点常用命令
94 0
|
Shell Linux
Rhel7安装RAC 11gR2时运行root.sh报错找不到ohas服务妙招
Rhel7安装RAC 11gR2时运行root.sh报错找不到ohas服务妙招
287 0
|
存储 文字识别 Oracle
神龙RAC节点1无法启动问题处理
神龙Oracle rac由于空间问题希望扩容根目录,扩容失败,导致相关的asm磁盘组多路径映射出现问题导致集群挂起,之后进行集群恢复过程处理
792 0
神龙RAC节点1无法启动问题处理