阿里专有云3.6.1版本云上rac安装节点驱逐问题-阿里云开发者社区

开发者社区> silencecxq> 正文

阿里专有云3.6.1版本云上rac安装节点驱逐问题

简介: 阿里专有云云上Oracle rac节点驱逐解决方案
+关注继续查看
  • 问题描述

在某专有云3.6.1版本的客户现场安装Oracle rac安装的过程当中,在节点组播正常测试通过的情况下,依旧发生节点驱逐的情况发生;
由于云上采用共享存储以及havip产品的使用的情况下,对于Oracle的11.2.0.2版本以后需要确认使用priv网络ip设置cluster_interconnect来替代169心跳网络特性;
但是按照云上Oracle rac商业输出方案进行常规的配置安装以后,以后依然发生节点驱逐的情况发生;
报错截图如下:
图为在二节点执行root.sh脚本的时候报错节点通信失败,报错退出;
image
从报错看是cssd进程没有启动导致;
检查ocssd.log日志如下超时信息:
image
网络节点通信超时,节点退出;root.sh脚本执行失败,grid集群安装失败;

  • 问题排查

由于对于专有云网络侧的不了解或者未知问题的了解,故而按照常规思路考虑对于节点驱逐的情况,一般是由于组播未通信或者cluster_interconnect参数未设置导致;
但是经过测试组播通信无误,并使用mcasttest测试以后结果显示也是组播没有通信出现问题;
image
对于42424端口的multicast是successded;
然后alter system set cluster_interconnect参数也是设置了priv的两个ip地址;
并进行多次测试以后问题依旧;
由于对于priv通信支持的是udp的包体通信,且经查询mos以及咨询原厂同学确认;
Network Protocols and Real Application Clusters (文档 ID 278132.1)
这个mos里边提到去掉Oracle typically recommends Infiniband (RDS)以外,Linux操作系统支持的udp协议;
心跳是udp通讯,必须用支持tcp的交换机;
image
image
因此怀疑是否是对于私网网络的MTU的包体通信过程中超过了MTU的大小导致的问题,故而进行了关闭UFO参数的操作来确认该问题;
经过关闭UFO,然后进行测试如下:
Eth0和eth1都需要关闭
ethtool -K eth1 ufo off
image
image
然后再次执行安装grid集群,二节点执行root.sh成功;
image
两节点的ocssd.log日志输出正常如下,有私网通信包体的发送;
image

  • 问题解决

因此临时解决的方式就是对于关闭UFO,设置/etc/rc.local开机自启动;
image

  • 根本原因

对于根本原因经过最后确认如下:
专有云环境libvswitch版本存在bug,单元udp大包,报文>mtu,可能会checksum算错的情况。目前已知的影响是oracle rac的部署,先临时通过关闭ufo的方式解决,但存在后期运维风险。最终的解决方案是升级libvswith版本,理论上是对整体集群不影响。
升级考虑使用hotfix的修复,但是对于UFO的设置,Linux官方后续的版本即将废弃,判断可能影响并不大,有兴趣可以关注!!!

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Oracle 11g R2版本使用exp命令导出表不全的解决方案
建议使用 expdp和 impdp 替代  exp和imp 命令!
617 0
【转】RAC 安装维护的 Metalink 必读文档
作者:eygle | English Version 【转载时请以超链接形式标明文章出处和作者信息及本声明】 链接:http://www.eygle.com/archives/2010/03/rac_metalink_recommend_notes.html 在进行RAC安装和维护过程中,有些Metalink文档是非常重要的参考,必读。
711 0
【转】Maclean教你一步一步使用Vbox在Linux 5上安装Oracle 11gR2 RAC
视频内容链接:http://www.oracledatabase12g.com/archives/step-by-step-install-11gr2-rac-on-linux5-by-vbox.html
632 0
一天内碰到的3个rac节点问题
说到问题,真是层出不穷,自己搭建了也不少的rac的环境的,但是在本地试验的时候总是会碰到一些问题,昨晚铲掉旧环境,搭建了两遍rac环境,终于在凌晨搭建好了环境,配置好EM,看了下效果,还不错,然后就把虚拟机设为suspend状态,早上打开虚拟机发现两个节点都自动停掉了,再次重启就启动不了了。
792 0
在Ubuntu上安装rabbitMq server
版权声明:您好,转载请留下本人博客的地址,谢谢 https://blog.csdn.net/hongbochen1223/article/details/78473870 下载Ser...
1897 0
11gRAC安装
主hostname:enmoedu1   副hostname:enmoedu2     安装包: 11g oracle软件:p13390677_112040_Linux-x86-64_1of7.
902 0
+关注
silencecxq
一路行走的云上小小牧师
15
文章
1
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载