技术好文共享:谁说阿里云不能跑Oracle,让驻云架构师告诉你怎么办!

简介: 技术好文共享:谁说阿里云不能跑Oracle,让驻云架构师告诉你怎么办!

以下正文:


· 关于阿里云的HAVIP


阿里云官方文档的介绍:


私网高可用虚拟IP(Private High-Availability Virtual IP Address,简称HaVip),是一种可以独立创建和释放的私网IP资源。这种私网IP的特殊之处在于,用户可以在ECS上使用协议进行该IP的宣告。


一个HaVip对象可以与最多两台ECS实例进行绑定;绑定了的实例可以通过ARP方式进行该私网IP的宣告。


一台ECS实例可以在持有一个普通私网IP的情况下,可以宣告多个HaVip类型的私网IP,从而同时持有多个私网IP。


利用可在ECS进行私网IP宣告的功能,可以 实现基于VRRP协议的高可用方案,包括keepalived、heartbeat等成熟的开源方案。


HaVip可以与EIP进行绑定,从而实现HaVip在ECS实例间切换时,发向EIP的消息也被重定向到新的ECS实例上。


HaVip仅支持VPC网络环境。Classic网络环境下不提供HaVip功能。


文字多了理解起来困难,直接看图。


在vpc-23c099ge5中有个交换机vsw-23a3275jc的交换机,交换机下有个HAVIP是10.10.1.99,在这个高可用虚拟IP下挂载了两台ECS,那10.10.1.99 这个IP地址就可以在这两台ECS上飘来飘去了。


· Keepalived是什么?


keepalived是一个类似于layer3、4、7交换机制的软件,也就是我们平时说的第3层、第4层和第7层交换。Keepalived的作用是检测web服务器的状态,如果有一台web服务器死机,或工作出现故障,Keepalived将检测到,并将有故障的web服务器从系统中剔除,当web服务器工作正常后Keepalived自动将web服务器加入到服务器群中,这些工作全部自动完成,不需要人工干涉,需要人工做的只是修复故障的web服务器。


但是在这里,keepalived的作用是与HAVIP通信,目的是将HAVIP指向到我们开启了keepalived服务的那台ECS上。


· 关于阿里云的Oracle的高可用


有着Oracle背景的DBA们都知道,Oracle的高可用集群是Real Application Cluster(RAC),但是搭建RAC集群需要几个硬性条网络通讯模式得是广播


网络通讯模式得是广播


必须有两个网络分别用于心跳链路与公网服务


共享存储 (可以使用NFS挂载来解决)


这网络广播模式在阿里云上就无法跳过,更不用说VPC环境下只能有一个网卡地址,只能考虑使用其他的方案来解决OracleDB的高可用环境。


有过阿里云RDS经验的同学都知道,RDS的高可用是通过主备库的服务切换来实现的,当主库损坏的情况下,备库会在很短时间内接管服务,其代价就是在切换过程中session会断开造成短时间的数据库服务中断,大概在30秒左右。而我们在阿里云上实现Oracle高可用也是类似这种方式实现。


言归正传,接下来我们说说如何在阿里云上部署这套高可用方案。


传统方式下的Dataguard架构如下图:


一般是由有两台ECS,IP地址分别为10.10.1.2,与10.10.1.3,这两台ECS上部署着一套Oracle PRIMARY-STANDBY环境,这套Dataguard方案使用Oracle dgbroker管理,当PRIMARY库崩溃的时候,Standby会主动的接管服务,但是这里大家都知道,Oracle database的访问是需要通过listener的,我们两台ECS默认的IP地址是不同的,这样当standby接管服务后,application的数据库连接池要把IP改为10.10.1.3才能再次连接数据库服务,大家都知道,连接池地址的改动是要重启容器,如果application都需要重启,就完全不能称做高可用了,很庆幸,阿里云提供了一个叫做havip的服务。


我们来看看下面这幅图


这里我们在ECS原IP的基础上,加入了HAVIP的概念,application 通过10.10.1.99这个IP地址访问数据库服务,当PRIMARY与STANDBY角色互换之后。


application依然还是通过10.10.1.99访问数据库服务,只是这个IP地址已经漂移到我们曾经的standbyDB了。大家都知道Oracle的RAC环境是必须共享存储的,也就是说当物理文件损坏的时候,整个数据库服务依然还是会崩溃。上面这套HAVIP+Dataguard的方案既实现了数据库物理层面的灾备,同时可以实现数据库服务停止后的快速接管。


以上就是这套方案的框架图,说起来很简单,但是实现起来就麻烦了,主要两个难点:


如果ECS服务不终止,数据库角色做切换,havip如何漂移?


如果ECS服务强制停止了,Havip如何漂移到备用环境?


要解决这两个问题,我们就要用到我们的keepalived了,具体的实现思路,我们来看看。


· 实现思路


1:首先我们先创建一套Dataguard环境,为了保证切换后连接池无需改动,两台ECS上的DB的sid必须一致。


2: oracle的dataguard 通过DGbroker管理,当primary db崩溃physical standby db自动切换为primary;这里必须把observer启动在STANDBY上面,我们试过在管理控制台上强制//代码效果参考:http://www.jhylw.com.cn/101624035.html

关闭ecs,如果observer所在的ECS被强制关闭,dgbroker无法做主备切换。

3: 接下来,将这两台ECS加载到HAVIP服务的集群挂载进集群的时候,可以看到两台ECS都是虚线连接,而且都是(备),这里,我们就要开始部署keepalived服务了。


4:通过keepalived做一个master->backup的配置集群启动,这里贴出两份配置文件这里master (10.10.1.2) backup(10.10.1.3)


master配置文件


keepalived.conf


! Configuration File for keepalived


global_defs {


router_id LVS_DEVEL #集群的ID 主备两台机器的这名字得一样


}


#检查脚本,keepalived会定时的执行shell做检查


vrrp_script chk_http_port {


script "/etc/keepalived/mcheckdb.sh"


interval 2


weight 2


}


vrrp_instance VI_1 {


state MASTER


interface eth0


virtual_router_id 51


priority 100


advert_int 1


authentication {


auth_type PASS


auth_pass 1111


}


track_script {


chk_http_port


}


virtual_ipaddress {


10.10.1.99 dev eth0 label eth0:havip #havip


}


unicast_src_ip 10.10.1.2 #本地IP


unicast_peer {


10.10.1.3 #备机IP


}


}


Backup 配置文件


keepalived.conf


! Configuration File for keepalived


global_defs {


router_id LVS_DEVEL


}


vrrp_script chk_http_port {


script "/etc/keepalived/scheckdb.sh"


interval 2


weight 2


}


vrrp_instance VI_1 {


state BACKUP


interface eth0


virtual_router_id 51


priority 99


advert_int 1


authentication {


auth_type PASS


auth_pass 1111


}


track_script {


chk_http_port


}


virtual_ipaddress {


10.10.1.99 dev eth0 label eth0:havip


}


unicast_src_ip 10.10.1.3


unicast_peer {


10.10.1.2


}


}


这里我们假设两个场景,keepalived启动后。


1、10.10.1.2使用了master(primary)配置文件,10.10.1.3使用了backup(standby)配置文件。当primary db与standby db互换了角色,而这时候havip依然是与master也就是10.10.1.2这台绑定。


2、10.10.1.2使用了master(primary)配置文件,10.10.1.3使用了backup(standby)配置文件。我们强制关闭了10.10.1.2这台ECS,这时候havip漂移到了backup机器上,standby db也变成了primary角色,当我们再次启动10.10.1.2这台ECS后,havip又会飘回master配置文件所在的ECS,这时候数据库服务又无法通过havip访问了。


这里该如何去解决这个问题呢?面对上面的两个场景,我们取了个巧。


注意配置文件中的这两段


这里shell都会定时的在ECS上执行用于检查环境配置。那么既然可以写逻辑,还有什么不能实现?


说到这,大家是不是很想看看shell的代码~


首先我们看看master的检查逻辑


mcheckdb.sh


#!/bin/bash


max_sn="PRIMARY"


su - oracle -c "sh /etc/keepalived/oracle/dbrole.sh"


max_sn=cat /etc/keepalived/oracle/dbrole


if 【 "$max_sn" != "PRIMARY" 】


then


cat /etc/keepalived/samples/backup.keepalived.conf > /etc/keepalived/keepalived.conf


/etc/init.d/keepalived restart


echo date > /etc/keepalived/date


fi;


很简单的逻辑,切换到oracle用户执行一个dbrole.sh,这个shell会执行Oracle db的角色查询,然后把结果写在/etc/keepalived/oracle/dbrole这个文件中。如果结果不是’PRIMARY’就把/etc/keepalived/samples/backup.keepalived.conf 文件内容替换掉当前keepalived进程使用的配置文件,然后再重启keepalived 服务。到这儿,大家应该知道如何做了吧。


scheckdb.sh


#!/bin/bash


max_sn="PHYSICAL STANDBY"


su - oracle -c "sh /etc/keepalived/oracle/dbrole.sh"


max_sn=cat /etc/keepalived/oracle/dbrole


if 【 "$max_sn" = "PRIMARY" 】


then


cat /etc/keepalived/samples/master.keepalived.conf > /etc/keepalived/keepalived.conf


/etc/init.d/keepalived restart


#echo "stop keepalived"


#打开监听


#su - oracle -c " lsnrctl start listener2"


fi;


scheckdb.sh的内容大同小异样,不过多了一步,打开监听listener2,这listener2,就是开启HAVIP的监听地址。


我们可以在两台ECS上都准备好master与backup 两份配置文件,这样不但解决了上面两个场景的问题,还直接让havip可以根据数据库的角色做漂移,保证在dataguard可用的前提下,时刻漂移在我们的primary database。


最后,给大家提供一些代码与一个小工具。


Keepalived 的各种配置文件:


下载地址:


解压后把整个keepallived 目录直接放到/etc下,注意其中有个oracle目录,包括其中的文件必须改成oracle用户的权限。


再提供提供一个配置DG的shell工具,大家没事可以用用,脚本有针对性,仅用于学习不建议配置生产环境时使用。


下载地址:

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
20天前
|
Kubernetes Cloud Native 微服务
探索云原生技术:容器化与微服务架构的融合之旅
本文将带领读者深入了解云原生技术的核心概念,特别是容器化和微服务架构如何相辅相成,共同构建现代软件系统。我们将通过实际代码示例,探讨如何在云平台上部署和管理微服务,以及如何使用容器编排工具来自动化这一过程。文章旨在为开发者和技术决策者提供实用的指导,帮助他们在云原生时代中更好地设计、部署和维护应用。
|
14天前
|
监控 安全 API
使用PaliGemma2构建多模态目标检测系统:从架构设计到性能优化的技术实践指南
本文详细介绍了PaliGemma2模型的微调流程及其在目标检测任务中的应用。PaliGemma2通过整合SigLIP-So400m视觉编码器与Gemma 2系列语言模型,实现了多模态数据的高效处理。文章涵盖了开发环境构建、数据集预处理、模型初始化与配置、数据加载系统实现、模型微调、推理与评估系统以及性能分析与优化策略等内容。特别强调了计算资源优化、训练过程监控和自动化优化流程的重要性,为机器学习工程师和研究人员提供了系统化的技术方案。
134 77
使用PaliGemma2构建多模态目标检测系统:从架构设计到性能优化的技术实践指南
|
14天前
|
弹性计算 运维 监控
阿里云云服务诊断工具:合作伙伴架构师的深度洞察与优化建议
作为阿里云的合作伙伴架构师,我深入体验了其云服务诊断工具,该工具通过实时监控与历史趋势分析,自动化检查并提供详细的诊断报告,极大提升了运维效率和系统稳定性,特别在处理ECS实例资源不可用等问题时表现突出。此外,它支持预防性维护,帮助识别潜在问题,减少业务中断。尽管如此,仍建议增强诊断效能、扩大云产品覆盖范围、提供自定义诊断选项、加强教育与培训资源、集成第三方工具,以进一步提升用户体验。
662 243
|
20天前
|
运维 Cloud Native 持续交付
云原生技术深度探索:重塑现代IT架构的无形之力####
本文深入剖析了云原生技术的核心概念、关键技术组件及其对现代IT架构变革的深远影响。通过实例解析,揭示云原生如何促进企业实现敏捷开发、弹性伸缩与成本优化,为数字化转型提供强有力的技术支撑。不同于传统综述,本摘要直接聚焦于云原生技术的价值本质,旨在为读者构建一个宏观且具体的技术蓝图。 ####
|
27天前
|
Cloud Native 持续交付 云计算
云原生技术在现代IT架构中的转型力量####
本文深入剖析了云原生技术的精髓,探讨其在现代IT架构转型中的关键作用与实践路径。通过具体案例分析,展示了云原生如何赋能企业实现更高效的资源利用、更快的迭代速度以及更强的系统稳定性,为读者提供了一套可借鉴的实施框架与策略。 ####
24 0
|
27天前
|
运维 Kubernetes Docker
深入理解容器化技术及其在微服务架构中的应用
深入理解容器化技术及其在微服务架构中的应用
57 1
|
1月前
|
监控 Java 微服务
从零构建微服务架构:一次深度技术探索之旅####
本文作为一篇深度技术分享,引领读者踏上自底向上搭建微服务架构的征途,旨在通过实战经验剖析,揭示微服务转型背后的技术挑战与解决方案。不同于常规摘要仅概述内容,本文摘要将直接以故事化手法,简述作者从单体应用困境出发,逐步迈向微服务化的心路历程,涵盖关键决策点、技术选型考量及实践收获,激发读者对微服务架构设计与实现的浓厚兴趣。 ####
|
1月前
|
Cloud Native 持续交付 云计算
深入理解云原生技术及其在现代IT架构中的应用
在数字化浪潮的推动下,云原生技术已成为企业转型的关键。本文将通过浅显易懂的语言和生动的比喻,带领读者探索云原生的核心概念、优势以及如何在企业中实现云原生架构。我们将一起揭开云原生的神秘面纱,了解它如何助力企业快速适应市场变化,提升业务的灵活性和创新能力。
|
9天前
|
弹性计算 Cloud Native Serverless
阿里云 SAE 邀您参加 Serverless 高可用架构挑战赛,赢取精美礼品
阿里云 SAE 邀您参加 Serverless 高可用架构挑战赛,赢取精美礼品。
|
1月前
|
敏捷开发 缓存 中间件
.NET技术的高效开发模式,涵盖面向对象编程、良好架构设计及高效代码编写与管理三大关键要素
本文深入探讨了.NET技术的高效开发模式,涵盖面向对象编程、良好架构设计及高效代码编写与管理三大关键要素,并通过企业级应用和Web应用开发的实践案例,展示了如何在实际项目中应用这些模式,旨在为开发者提供有益的参考和指导。
25 3

热门文章

最新文章

推荐镜像

更多