谁说阿里云不能跑Oracle,让驻云架构师告诉你怎么办!

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 谁说阿里云不能跑Oracle,让驻云架构师告诉你怎么办!

58e3d8465ca3f89b3e9f469177b4f2525f130796

本文作者,缪睿,来自驻云信息的云计算资深数据库架构师。

以下正文:

· 关于阿里云的HAVIP


阿里云官方文档的介绍:


私网高可用虚拟IP(Private High-Availability Virtual IP Address,简称HaVip),是一种可以独立创建和释放的私网IP资源。这种私网IP的特殊之处在于,用户可以在ECS上使用协议进行该IP的宣告

  • 一个HaVip对象可以与最多两台ECS实例进行绑定;绑定了的实例可以通过ARP方式进行该私网IP的宣告。
  • 一台ECS实例可以在持有一个普通私网IP的情况下,可以宣告多个HaVip类型的私网IP,从而同时持有多个私网IP。
  • 利用可在ECS进行私网IP宣告的功能,可以 实现基于VRRP协议的高可用方案,包括keepalived、heartbeat等成熟的开源方案。
  • HaVip可以与EIP进行绑定,从而实现HaVip在ECS实例间切换时,发向EIP的消息也被重定向到新的ECS实例上。
  • HaVip仅支持VPC网络环境。Classic网络环境下不提供HaVip功能。

文字多了理解起来困难,直接看图。

02520b5f4d34ddb248d8184883add1cd6025aa1c


在vpc-23c099ge5中有个交换机vsw-23a3275jc的交换机,交换机下有个HAVIP是10.10.1.99,在这个高可用虚拟IP下挂载了两台ECS,那10.10.1.99 这个IP地址就可以在这两台ECS上飘来飘去了。

·  Keepalived是什么?

keepalived是一个类似于layer3、4、7交换机制的软件,也就是我们平时说的第3层、第4层和第7层交换。Keepalived的作用是检测web服务器的状态,如果有一台web服务器死机,或工作出现故障,Keepalived将检测到,并将有故障的web服务器从系统中剔除,当web服务器工作正常后Keepalived自动将web服务器加入到服务器群中,这些工作全部自动完成,不需要人工干涉,需要人工做的只是修复故障的web服务器。


但是在这里,keepalived的作用是与HAVIP通信,目的是将HAVIP指向到我们开启了keepalived服务的那台ECS上。

· 关于阿里云的Oracle的高可用

         有着Oracle背景的DBA们都知道,Oracle的高可用集群是Real Application ClusterRAC),但是搭建RAC集群需要几个硬性条网络通讯模式得是广播

  1. 网络通讯模式得是广播
  2. 必须有两个网络分别用于心跳链路与公网服务
  3. 共享存储 (可以使用NFS挂载来解决)

这网络广播模式在阿里云上就无法跳过,更不用说VPC环境下只能有一个网卡地址,只能考虑使用其他的方案来解决OracleDB的高可用环境。


有过阿里云RDS经验的同学都知道,RDS的高可用是通过主备库的服务切换来实现的,当主库损坏的情况下,备库会在很短时间内接管服务,其代价就是在切换过程中session会断开造成短时间的数据库服务中断,大概在30秒左右。而我们在阿里云上实现Oracle高可用也是类似这种方式实现。


言归正传,接下来我们说说如何在阿里云上部署这套高可用方案。


传统方式下的Dataguard架构如下图:

c70076277c546a788488e840d2e3d1ebe52ee5a7

一般是由有两台ECSIP地址分别为10.10.1.2,与10.10.1.3,这两台ECS上部署着一套Oracle PRIMARY-STANDBY环境,这套Dataguard方案使用Oracle dgbroker管理,当PRIMARY库崩溃的时候,Standby会主动的接管服务,但是这里大家都知道,Oracle database的访问是需要通过listener的,我们两台ECS默认的IP地址是不同的,这样当standby接管服务后,application的数据库连接池要把IP改为10.10.1.3才能再次连接数据库服务,大家都知道,连接池地址的改动是要重启容器,如果application都需要重启,就完全不能称做高可用了,很庆幸,阿里云提供了一个叫做havip的服务。


我们来看看下面这幅图

8afb68710361c9945e3d8cae59bf7cfe9b99b2c1

这里我们在ECSIP的基础上,加入了HAVIP的概念,application 通过10.10.1.99这个IP地址访问数据库服务,当PRIMARYSTANDBY角色互换之后。

948083269797422b839be826fe23585e94f5d979

      application依然还是通过10.10.1.99访问数据库服务,只是这个IP地址已经漂移到我们曾经的standbyDB了。大家都知道OracleRAC环境是必须共享存储的,也就是说当物理文件损坏的时候,整个数据库服务依然还是会崩溃。上面这套HAVIP+Dataguard的方案既实现了数据库物理层面的灾备,同时可以实现数据库服务停止后的快速接管。


     以上就是这套方案的框架图,说起来很简单,但是实现起来就麻烦了,主要两个难点:

  1. 如果ECS服务不终止,数据库角色做切换,havip如何漂移?
  2. 如果ECS服务强制停止了,Havip如何漂移到备用环境?

 

要解决这两个问题,我们就要用到我们的keepalived了,具体的实现思路,我们来看看。


·  实现思路

      1:首先我们先创建一套Dataguard环境,为了保证切换后连接池无需改动,两台ECS上的DB的sid必须一致。
bfd183da528e02a96f25ce7950c1af00965dbd4d
     2: oracle的dataguard 通过DGbroker管理,当primary db崩溃physical standby db自动切换为primary; 这里必须把observer启动在STANDBY上面,我们试过在管理控制台上强制关闭ecs,如果observer所在的ECS被强制关闭,dgbroker无法做主备切换。
8cd13bcc6627e06561f4b34ed61ba1b16a773632
     3: 接下来,将这两台ECS加载到HAVIP服务的集群挂载进集群的时候,可以看到两台ECS都是虚线连接,而且都是(备),这里,我们就要开始部署keepalived服务了。
932f1381d1fafe64cf7106d8dcc76a4dfd964254

4:通过keepalived做一个master->backup的配置集群启动,这里贴出两份配置文件这里master (10.10.1.2) backup(10.10.1.3)master配置文件keepalived.conf



! Configuration File for keepalived

global_defs {


         router_id LVS_DEVEL   #集群的ID 主备两台机器的这名字得一样

}

#检查脚本,keepalived会定时的执行shell做检查

vrrp_script chk_http_port {

     script  "/etc/keepalived/mcheckdb.sh" 

     interval 2

     weight 2

}

      vrrp_instance VI_1 {

          state MASTER

          interface eth0

          virtual_router_id 51

          priority 100

          advert_int 1

          authentication {

              auth_type PASS

              auth_pass 1111

          }

      track_script {

                chk_http_port

         }

          virtual_ipaddress {

              10.10.1.99 dev eth0 label eth0:havip  #havip

         }

          unicast_src_ip 10.10.1.2   #本地IP

          unicast_peer {

                  10.10.1.3   #备机IP

                       }

      }


Backup 配置文件

keepalived.conf


! Configuration File for keepalived

 global_defs {

           router_id LVS_DEVEL

        }

vrrp_script chk_http_port {

     script  "/etc/keepalived/scheckdb.sh"

     interval 2

     weight 2

}

        vrrp_instance VI_1 {

            state BACKUP

            interface eth0

            virtual_router_id 51

            priority 99

            advert_int 1

            authentication {

                auth_type PASS

                auth_pass 1111

            }

      track_script {

         chk_http_port

       }

            virtual_ipaddress {

              10.10.1.99 dev eth0 label eth0:havip

        }

            unicast_src_ip 10.10.1.3

            unicast_peer {

                    10.10.1.2

                         }

        }


 


这里我们假设两个场景,keepalived启动后。


110.10.1.2使用了masterprimary)配置文件,10.10.1.3使用了backupstandby)配置文件。当primary dbstandby db互换了角色,而这时候havip依然是与master也就是10.10.1.2这台绑定。


210.10.1.2使用了masterprimary)配置文件,10.10.1.3使用了backupstandby)配置文件。我们强制关闭了10.10.1.2这台ECS,这时候havip漂移到了backup机器

上,standby db也变成了primary角色,当我们再次启动10.10.1.2这台ECS后,havip又会飘回master配置文件所在的ECS,这时候数据库服务又无法通过havip访问了。


这里该如何去解决这个问题呢?面对上面的两个场景,我们取了个巧。

注意配置文件中的这两段


1beaf898e9055ec5f4a86d2412a2ee63edecfd3e
1df0fbb4833bc0a8e4e01378dd5a3d188a280dd2

这里shell都会定时的在ECS上执行用于检查环境配置。那么既然可以写逻辑,还有什么不能实现?

说到这,大家是不是很想看看shell的代码~

首先我们看看master的检查逻辑

mcheckdb.sh


#!/bin/bash

max_sn="PRIMARY"

su - oracle  -c "sh /etc/keepalived/oracle/dbrole.sh"

max_sn=`cat /etc/keepalived/oracle/dbrole`

if [ "$max_sn" != "PRIMARY" ]

then

    cat /etc/keepalived/samples/backup.keepalived.conf > /etc/keepalived/keepalived.conf

    /etc/init.d/keepalived restart

    echo `date` > /etc/keepalived/date

fi;


很简单的逻辑,切换到oracle用户执行一个dbrole.sh,这个shell会执行Oracle db的角色查询,然后把结果写在/etc/keepalived/oracle/dbrole这个文件中。如果结果不是’PRIMARY’就把/etc/keepalived/samples/backup.keepalived.conf 文件内容替换掉当前keepalived进程使用的配置文件,然后再重启keepalived 服务。到这儿,大家应该知道如何做了吧。

scheckdb.sh


#!/bin/bash

max_sn="PHYSICAL STANDBY"

su - oracle  -c "sh /etc/keepalived/oracle/dbrole.sh"

max_sn=`cat /etc/keepalived/oracle/dbrole`

if [ "$max_sn" = "PRIMARY" ]

then

    cat /etc/keepalived/samples/master.keepalived.conf > /etc/keepalived/keepalived.conf

    /etc/init.d/keepalived restart

    #echo "stop keepalived"

#打开监听

#su - oracle  -c " lsnrctl start listener2"

fi;


scheckdb.sh的内容大同小异样,不过多了一步,打开监听listener2,listener2,就是开启HAVIP的监听地址。

我们可以在两台ECS上都准备好masterbackup 两份配置文件,这样不但解决了上面两个场景的问题,还直接让havip可以根据数据库的角色做漂移,保证在dataguard可用的前提下,时刻漂移在我们的primary database


最后,给大家提供一些代码与一个小工具。


Keepalived 的各种配置文件:


下载地址:http://jiagouyun-cn.oss-cn-hangzhou.aliyuncs.com/oracle/keepalived/keepalived.zip


解压后把整个keepallived 目录直接放到/etc下,注意其中有个oracle目录,包括其中的文件必须改成oracle用户的权限。


再提供提供一个配置DG的shell工具,大家没事可以用用,脚本有针对性,仅用于学习不建议配置生产环境时使用。


下载地址:http://jiagouyun-cn.oss-cn-hangzhou.aliyuncs.com/oracle/dataguard.1.3.zip

相关实践学习
一小时快速掌握 SQL 语法
本实验带您学习SQL的基础语法,快速入门SQL。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
3天前
|
存储 监控 安全
360 企业安全浏览器基于阿里云数据库 SelectDB 版内核 Apache Doris 的数据架构升级实践
为了提供更好的日志数据服务,360 企业安全浏览器设计了统一运维管理平台,并引入 Apache Doris 替代了 Elasticsearch,实现日志检索与报表分析架构的统一,同时依赖 Doris 优异性能,聚合分析效率呈数量级提升、存储成本下降 60%....为日志数据的可视化和价值发挥提供了坚实的基础。
360 企业安全浏览器基于阿里云数据库 SelectDB 版内核 Apache Doris 的数据架构升级实践
|
3天前
|
Cloud Native 关系型数据库 分布式数据库
阿里云瑶池助力九州通B2B电商平台,完成100%云原生架构升级
九州通数字化转型,通过引入阿里云云原生数据库PolarDB,云原生内存数据库Tair等产品,完美支撑了医药电商平台数据库100%云原生化,实现了统一、高效、标准化和可跟踪的B2B医药平台。
392 4
|
3天前
|
存储 数据可视化 数据管理
基于阿里云服务的数据平台架构实践
本文主要介绍基于阿里云大数据组件服务,对企业进行大数据平台建设的架构实践。
761 2
|
3天前
|
弹性计算 数据库 Docker
学习阿里云架构设计知识2-wp搭建及配置
VPC分区清晰架构,VSW网络分隔,CEN连通VPC,按量付费小规格,均衡策略,ESS/ACK内置SNAT,ECS用NAT上网。建DMZ需VPC、VSW、NAT、EIP。主系统多VPC/VSW配ECS和Redis,CEN全连接。CEN设路由表,外网访问设DMZ、CEN、EIP,加堡垒机。Web系统ACR部署WordPress,配数据库。验证WordPress、弹性伸缩,测外访、发文、负载。含架构图。
30 1
学习阿里云架构设计知识2-wp搭建及配置
|
1天前
|
运维 Oracle 容灾
Oracle dataguard 容灾技术实战(笔记),教你一种更清晰的Linux运维架构
Oracle dataguard 容灾技术实战(笔记),教你一种更清晰的Linux运维架构
|
3天前
|
弹性计算 负载均衡 容灾
应用阿里云弹性计算:打造高可用性云服务器ECS架构
阿里云弹性计算助力构建高可用云服务器ECS架构,通过实例分布、负载均衡、弹性IP、数据备份及多可用区部署,确保业务连续稳定。自动容错和迁移功能进一步增强容灾能力,提供全方位高可用保障。
70 0
|
3天前
|
人工智能 分布式计算 Cloud Native
阿里云PAI平台架构介绍
阿里云PAI平台架构介绍
29 0
|
3天前
|
Oracle 安全 数据管理
Oracle 12c多租户架构:数据管理的“摩天大楼”
【4月更文挑战第19天】Oracle 12c的多租户架构允许多个独立数据库环境在同一实例中共享资源,提高效率,降低成本。该架构保证了数据隔离和安全性,同时提供灵活性和可扩展性,简化管理任务。通过理解其原理和管理方法,我们可以充分利用这一架构,为企业数据管理和业务发展提供强大支持。
|
3天前
|
人工智能 Serverless 数据处理
利用阿里云函数计算实现 Serverless 架构的应用
阿里云函数计算是事件驱动的Serverless服务,免服务器管理,自动扩展资源。它降低了基础设施成本,提高了开发效率,支持Web应用、数据处理、AI和定时任务等多种场景。通过实例展示了如何用Python实现图片压缩应用,通过OSS触发函数自动执行。阿里云函数计算在云计算时代助力企业实现快速迭代和高效运营。
60 0
|
3天前
|
存储 弹性计算 安全
阿里云活动内云服务器没有数据盘怎么办?购买后如何购买并挂载云盘?
在我们通过阿里云的活动来购买云服务器的时候,一般默认情况下只有系统盘,是没有数据盘的,但是很多用户处于实际使用需求和安全等方面的需求,通常都需要在购买之后单独再购买一块云盘作为数据盘挂载到云服务器上,本文以图文形式为大家展示阿里云活动内云服务器购买流程以及购买后如何购买并挂载云盘,适合新手用户参考。
阿里云活动内云服务器没有数据盘怎么办?购买后如何购买并挂载云盘?

推荐镜像

更多