HACMP 认证学习系列,第 2 部分:计划与设计

简介:

了解应用程序在故障情况下的行为,对于控制集群在此类情况下应当如何反应是非常重要的。

规划和实现集群所必需的信息应该涵盖应用程序、环境、硬件、网络、存储,同时还要涵盖支持和变更过程。

本章将介绍以下 HACMP 集群主题:

  • 节点规模调整注意事项
  • 集群硬件规划
  • 软件规划
  • 存储规划
  • 灾难恢复规划

注意:规划是成功的实现的一半,但是就 HACMP 而言,如何强调正确规划的重要性都不为过。如果规划不当,您可能会在以后某个时候发现自己陷入种种限制之中,而要摆脱这些限制可能是非常痛苦的经历。因此,请保持镇定从容,并使用产品附带的规划工作表;这些工作表对于任何迁移或问题确定情形或者对于规划的文档记录都是非常有价值的。

规划注意事项

在规划高可用性集群时,您应该考虑节点、存储、网络等方面的规模调整,以便即使是在接管情况下,也能够提供应用程序正确运行所必需的资源。

规模调整:选择集群中的节点

在开始集群的实现之前,您应该了解需要多少个节点,以及应该使用什么节点类型。就应用程序所需要的资源而言,将要使用的节点类型是非常重要的。

节点的规模调整应该涵盖以下方面:

  • CPU(CPU 的数量和速度)
  • 每个节点中的随机访问存储器 (RAM) 容量
  • 磁盘存储(内部)
  • 每个节点中的通信和磁盘适配器数量
  • 节点可靠性

集群中的节点数量取决于要实现高可用性的应用程序的数量,同时还取决于所需的可用性程度。在集群中为每个应用程序准备多个备用节点可以提高应用程序的总体可用性。

注意:HACMP V5.1 集群中的最大节点数量是 32。

HACMP V5.1 支持各种各样的节点,涵盖从桌面系统到高端服务器的范围。SP 节点和逻辑分区(Logical Partition,LPAR)也受支持。有关进一步的信息,请参阅红皮书《HACMP for AIX 5L V5.1 Planning and Installation Guide》(SC23-4861-02)。

集群资源的共享基于应用程序的需求。有些节点执行的任务与要实现高可用性的应用程序并不直接相关,并且不需要与应用程序节点共享资源,应该将此类节点配置在单独的集群中以简化实现和管理。

所有的节点都应该提供足够的资源(CPU、内存和适配器),以维持所有指定的应用程序在故障转移(接管故障节点中的资源)情况下的执行。

如果可能,应该在集群中包括附加的节点,以提高集群的可用性;这还可以在执行节点故障转移、重新集成和维护操作时提供更大的灵活性。

建议使用具有相似硬件配置的集群节点,

在实现具有相互接管(mutual takeover)或并发配置的应用程序的集群时尤其是如此。这样使得分发资源和执行管理操作(软件维护等等)变得更加容易。

规模调整:存储注意事项

在最常用的配置中,要实现高可用性的应用程序需要一个共享存储空间来存储应用程序数据。该共享存储空间或者用于并发访问,或者用于使数据对接管节点上的应用程序可用(在 fail-over 情况下)。

要在集群中使用的存储应该允许每个应用程序从所有的指定节点进行共享访问。当前支持的 HACMP 共享存储技术包括 SCSI、SSA 和光纤通道(Fibre Channel.)。

根据应用程序的需求,应该将存储配置定义为非共享(“私有”)或共享存储。私有存储可以保留在内部磁盘上,并且不参与任何接管活动。

考虑到以下原因,共享存储应该提供访问控制机制:

  • 放在共享存储中的数据必须能够从可能在某个时间点运行应用程序的任何一个节点进行访问。在某些情况下,应用程序一次仅在一个节点上运行(非并发),但是在另一些情况下,必须提供对数据的并发访问。
  • 在非并发环境中,如果共享数据被错误的节点更新,这可能会导致数据破坏。
  • 在并发环境中,应用程序应该提供自己的数据访问机制,因为平台并发软件 (AIX/HACMP) 会绕过由存储控制的访问机制。

网络注意事项

在规划 HACMP 集群时,应该考虑以下方面:

  • IP 网络拓扑(路由、交换机等等)
  • IP 网络性能(速度/带宽、延迟和冗余)
  • ATM 和/或 X.25 网络配置

IP 网络用于使客户端访问运行在集群中的节点上的应用程序,以及用于在集群节点之间交换心跳信号消息。在 HACMP 集群中,心跳信号消息是通过 IP 网络和点对点(非 IP)网络进行交换的。

HACMP 旨在通过基于 TCP/IP 的网络、X.25 和 ATM 网络提供客户端的访问。

HACMP 集群规划

集群规划也许是实现成功的配置过程中最重要的步骤。HACMP 规划应该包括以下方面:

  • 硬件规划
    • 节点
    • 网络
    • 存储
  • 软件规划
    • 操作系统版本
    • HACMP 版本
    • 应用程序兼容性
  • 测试和维护规划
    • 测试过程
    • 变更管理
    • 管理操作

硬件规划

实现高可用性配置的目标是通过消除单点故障(硬件、软件和网络),以及通过屏蔽服务中断(无论是计划内还是计划外的中断),从而提供高度可用的服务。

节点规划的决策因素包括:

  • 支持的节点:计算机类型、功能、支持的适配器、电源(AC、DC、双电源与单电源等等)。
  • 连接和电缆:电缆类型、长度、接头、型号、导线管布线、电缆槽容量需求,以及可用性。

节点配置

HACMP V5.1 支持在一个集群中使用 IBM Eserver pSeries(独立和 LPAR 模式)、IBM SP 节点以及现有的 RS/6000 服务器的任何节点组合。节点必须满足内部内存、内部磁盘、可用 I/O 插槽数量和操作系统兼容性(AIX 版本)的最低要求。

要考虑的项包括:

  • 内部磁盘(磁盘数量、容量以及是否使用 LVM 镜像)
  • 共享磁盘容量和存储数据保护方法(RAID 和 LVM 镜像)
  • I/O 插槽限制及其对导致单点故障 (SPOF) 的影响
  • 对集群的客户端访问(网络适配器)
  • 其他 LAN 设备(交换机、路由器和网桥)
  • I/O 适配器和子系统冗余
  • 电源冗余

网络配置

规划群集网络时的主要目标是评估所需的冗余程度,以消除网络组件成为单点故障的可能性。应该考虑以下方面:

  • 网络:连接到多个物理网络的节点
  • 对于 TCP/IP 子系统故障:使用非 IP 网络以帮助决策过程
  • 网络接口:每个网络上的冗余网络适配器(以防止在单个网络接口发生故障情况下的资源组故障转移)

在规划集群网络配置时,必须为节点连接选择正确的组合:

  • 集群网络拓扑(交换机、路由器等等)。
  • 连接集群节点的 IP 和非 IP(点到点)网络组合和每个节点到所有网络的连接数量。

用于提供高可用性服务 IP 地址的方法:

  • 通过 IP 别名的 IP 地址接管(IP address takeover,IPAT)
  • 通过 IP 替换的 IPAT。

有关 HACMP 配置中支持的节点和适配器的完整列表,请参阅红皮书《HACMP for AIX 5L V5.1 Planning and Installation Guide》(SC23-4861-02);另请访问位于以下地址的 IBM 支持网站:

http://www-1.ibm.com/servers/eserver/pseries/ha/

HACMP 网络术语

从 HACMP V5.1 开始,用于描述 HACMP 配置和操作的术语已发生了很大的变化。做出此更改是为了简化 HACMP 的总体使用和维护,同时也是为了使术语与 IBM 产品系列保持一致。

例如,在早期的 HACMP 版本中,取决于上下文,术语“适配器”可以具有不同的含义,从而使配置变得非常令人混淆和困难。

IP 标签 (IP label)

术语“IP 标签”表示与特定 IP 地址相关联的名称,此名称是在集群节点上使用的名称解析方法(DNS 或静态 - /etc/hosts)中定义的。此术语取代“主机名称”(host name),后者可能与 hostname 命令的输出产生混淆,并且可能没有与任何 IP 地址相关联。

在 HACMP V5.1 中,术语“适配器”(Adapter) 已替换如下:

  • 服务 IP 标签/地址 (Service IP Label / Address):通过其提供服务的 IP 标签/地址。此 IP 标签/地址可能与单个节点绑定,也可能由多个节点共享,并且 HACMP 保持其高度可用。
  • 通信接口 (Communication Interface):支持 TCP/IP 协议并由其基本 IP 地址表示的物理接口。
  • 通信设备 (Communication Device):表示点到点非 IP 网络连接的一端的物理设备,例如 /dev/tty1、/dev/tmssa1、/dev/tmscsi1 和 /dev/hdisk1。
  • 通信适配器 (Communication Adapter):用于提供高度可用的通信链路的 X.25 适配器。

服务 IP 地址/标签 (Service IP address/label)

服务 IP 地址是用于客户端访问的 IP 地址。此 IP 地址(及其关联的标签)由 HACMP 监视,并且是资源组的一部分。

存在两种类型的服务 IP 地址(标签):

  • 共享服务 IP 地址(标签):可以配置在多个节点上的 IP 地址,并且是一次只能在一个节点上处于活动状态的资源组的一部分。
  • 与节点绑定的服务 IP 地址(标签):只能配置在一个节点上(不由多个节点共享)的 IP 地址。通常,此类服务 IP 地址与并发资源组相关联。

服务 IP 地址在 HACMP 已启动并且关联的资源组处于在线状态时变得可用。

HACMP 通信接口 (HACMP communication interface)

HACMP 中的通信接口定义是以下内容的逻辑分组:

  • 逻辑网络接口一个名称,AIX 将某个物理网络适配器端口(例如,en0)解析为此名称。
  • 服务 IP 地址是一个 IP 地址,将通过该 IP 地址提供诸如应用程序等服务,并且客户端节点将通过该 IP 地址进行通信。
  • 服务 IP 标签是映射到服务 IP 地址的标签。

通信接口指的是基于 IP 的网络和网络适配器。

连接到公共物理网络的网络适配器组合为 HACMP 所使用的逻辑网络。

每个网络适配器能够承载多个 TCP/IP 地址。在配置集群时,您要定义 HACMP 将监视的 IP 地址(基本或启动 IP 地址)和 HACMP 将保持其对 HACMP 高度可用的 IP 地址(服务 IP 地址)。

HACMP 中的心跳信号通过通信接口进行传递。HACMP 使用 RSCT 子系统的心跳检测功能(通过 UDP)来监视其网络接口和 IP 地址。每当 HACMP 服务在该节点上启动,HACMP 就将 ODM 中定义和存储的网络拓扑传递给 RSCT,并且 RSCT 将向 HACMP 提供故障通知。

HACMP 通信设备 (HACMP communication device)

HACMP 还提供点对点非 IP 网络的监视。点对点网络的两端都是 AIX 设备(在 /dev 目录中定义)。这些设备是通信设备,并包括串行 RS232 连接、目标模式 SCSI、目标模式 SSA 和磁盘检测信号连接。

点对点网络也由 RSCT 监视,并且 HACMP 使用它们的状态来区分节点故障和 IP 网络故障。

例如,通过磁盘的心跳检测使用磁盘设备名称(例如,/dev/hdisk2)作为在连接的每一端配置到 HACMP 的设备。

建议此类网络至少要在集群中的任何两个节点之间配置一个非 IP 网络。

在磁盘心跳检测的情况下,建议使用一个点对点网络,此网络由每个物理机箱的每个节点对的一个磁盘组成。不能将一个物理磁盘用于两个点对点网络。

通信适配器和链路 (Communication adapter and link)

可以将以下通信链路定义为 HACMP 中的资源:

  • LAN 网络适配器 (ent*) 上配置的 SNA
  • X.25 适配器上配置的 SNA
  • 本机 X.25 链路

HACMP 将这些链路作为资源组的一部分进行管理,从而确保高可用性通信链路。在物理网络接口故障、X.25 链路故障或节点故障的情况下,高度可用的通信链路(连同相同资源组中的所有资源一起)将被迁移到同一个节点或接管节点上的另一个可用的适配器。

IP 别名

IP 别名是通信(网络)接口上配置的除基本 IP 地址以外的 IP 地址。IP 别名是受 HACMP 支持的一个 AIX 功能。AIX 支持在每个通信接口上使用多个 IP 别名。适配器上的每个 IP 别名可以在单独的子网上。

AIX 还允许为接口配置具有不同子网掩码的 IP 别名;HACMP 尚不支持此功能。

IP 别名在 HACMP 中同时用作用于 IP 地址接管的服务和非服务地址,以及用于心跳配置。

网络接口功能 (Network interface function)

对于 IP 网络,建议您在每个节点上为每个网络配置多个通信接口。那些通信接口将分别具有特定的作用,具体取决于 HACMP 集群的状态。

  • 服务接口 (Service Interface)

服务接口是配置了一个或多个服务 IP 地址(标签)的通信接口。取决于为每个网络定义的 IP 地址接管 (IPAT) 方法,将在基本 IP 地址之外添加服务 IP 地址(通过别名的 IPAT),或者服务 IP 地址将取代通信接口的基本(启动)IP 地址。此接口用于提供对运行在该节点上的应用程序的访问。服务 IP 地址由 HACMP 通过 RSCT 心跳信号进行监视。

  • 启动接口 (Boot Interface)

这是由在 AIX 配置中定义的基本(启动)IP 地址表示的通信接口。如果使用了通过 IP 别名进行的心跳检测,则 HACMP 将不监视此 IP 地址,而是通过 HACMP 在启动时分配的 IP 别名来监视通信接口。

启动接口不传输任何客户端流量;然而,如果服务接口失败,HACMP 将把服务 IP 地址转移到非服务接口上。如果某个节点发生故障,接管节点上的另一个接口将在执行资源组故障转移时配置服务 IP 地址。

注意:对于每个网络,一个节点可以具有零到七个非服务接口。在同一个网络上使用多个非服务接口可以消除通信接口的单点故障。

  • 持久节点 IP 标签 (Persistent Node IP Label)

持久节点 IP 标签是一个 IP 别名,可以将其分配给集群网络上的某个特定节点。持久节点 IP 标签:

    • 与节点绑定(始终保持在同一个节点上)。
    • 能够在已经定义了某个服务或非服务 IP 标签的网络适配器上共存。
    • 具有不需要在该节点上安装附加物理网络适配器的优点。
    • 不属于任何资源组。

分配持久节点 IP 标签可以提供一个与节点绑定的 IP 地址,并且对于管理目的来说非常有用,因为到持久节点 IP 标签的连接始终会确定该特定的集群节点,即使 HACMP 服务没有在该节点上启动时也是如此。

注意:可以在每个节点上为每个网络配置一个持久节点 IP 标签(地址)。例如,如果有一个连接到 HACMP 中定义的两个网络的节点,可以通过两个分别用于每个网络的持久 IP 标签(地址)来确定该节点。

持久 IP 标签是在 HACMP 配置中定义的,并在 HACMP 第一次在每个节点上启动时变得可用。一经配置,持久 IP 标签(地址)将在配置它们的适配器上保持可用,即使 HACMP 已在节点上停止或节点已重新启动时也是如此。

可以在以下类型的基于 IP 的网络上创建持久节点 IP 标签:

    • 以太网
    • 令牌环网
    • FDDI 网
    • ATM 局域网模拟器

限制:不能在 SP 交换机、ATM 传统 IP 或非 IP 网络上配置持久节点 IP 标签。

持久 IP 标签的行为如下:

    • 如果某个配置了服务 IP 标签的网络适配器发生故障,并且该网络适配器上还定义了一个持久标签,则会将持久 IP 标签(地址)连同服务 IP 标签(地址)一起转移到同一个非服务接口上。
    • 如果指定节点上用于集群网络的所有网络适配器均发生故障,则持久节点 IP 标签将变得不可用。持久节点 IP 标签始终保持在同一个网络上,并保持在同一个节点上;它不会在集群中的节点之间移动。

用于心跳检测的 IP 别名 (IP aliases used for heartbeat)

这些 IP 地址是从专用的不可路由地址池中分配的,并用于监视通信接口,而不需要更改通信接口的基本(启动)IP 地址。

这在某些情况下是非常有用的,例如,当更改每个节点上的网络适配器的基本 IP 地址不适宜(因为它们是在 AIX 中定义的),并且那些地址不符合 HACMP 要求(它们在同一个子网中,因此不能监视网络适配器)的时候。

为此目的,HACMP 提供了通过 IP 别名的进行心跳检测的方法。

网络类型

在 HACMP 中,“网络”这个术语用于定义一个逻辑实体,此逻辑实体将用于集群中的节点间通信和用于客户端访问的通信接口和设备分组在一起。可以将 HACMP 中的网络定义为 IP 网络和非 IP 网络。

IP 网络和非 IP 网络均用于在节点之间交换心跳信号(“Keep Alive”)消息。通过这种方式,HACMP 维护有关集群节点及其各自的通信接口和设备状态的信息。

HACMP V5.1 中支持的 IP 网络类型包括:

  • 以太网 (ether)
  • 令牌环网 (token)
  • FDDI 网 (fddi)
  • SP Switch 和 SP Switch2 网 (hps)
  • ATM 网 (atm)

下列 IP 网络类型不受支持:

  • 串行光纤通道转换器网 (SOCC)
  • 串行线路 IP 网 (SLIP)
  • 光纤通道交换网 (FCS)
  • 802.3
  • IBM 高性能交换网 (HPS)

非 IP 网络是两个集群节点之间的点对点连接,HACMP 将其用于控制消息和心跳信号。在 IP 网络(或节点上的 TCP/IP 子系统)发生故障的情况下,这些网络可以为 HACMP 提供附加级别的保护。

HACMP 中的非 IP(基于设备)网络支持下列设备:

  • 目标模式 SCSI (tmscsi)
  • 目标模式 SSA (tmssa)
  • 磁盘心跳信号 (diskhb)
  • 串行 RS232

注意:在 AIX 5L V5.1 和 AIX 5L V5.2 中,HACMP 现在还支持将以太网聚合 (Etherchannel) 通信接口用于 IP 地址接管。不支持将 Etherchannel 用于:

  • 硬件地址接管
  • PCI 热插拔

此外,在当前版本中,HACMP 不支持 AIX 虚拟 IP 功能 (VIPA) 和 IPV6。

选择 IP 地址接管 (IPAT) 方法

在实现集群时要做出的关键决策之一是资源组和与之关联的服务 IP 地址的行为。

由于 HACMP 在大多数时间都用于保护独立的非并发应用程序,因此必须选择将要用于提供高度可用的服务 IP 地址的方法。

在启动应用程序或将其连同关联的资源组一起移动到另一个节点时,可以通过两种方式配置服务 IP 地址:

  • 通过替换通信接口的基本(启动时)IP 地址;

此方法称为“通过 IP 替换的 IP 地址接管 (IPAT)”。

  • 通过为通信接口配置一个除现有 IP 地址之外的附加 IP 地址;此方法称为“通过 IP 别名的 IP 地址接管”。

HACMP V5.1 中的缺省 IPAT 方法是通过别名(通过别名的 IPAT)。要更改此缺省行为,必须使用 HACMP 扩展配置菜单来更改网络属性。

IP 地址接管

IP 地址接管是一种恢复 IP 地址标签的机制,其方法是在初始物理网络适配器发生故障时,将服务 IP 标签转移到另一个节点上的另一个物理网络适配器。IPAT 确保用于向客户端节点提供服务的 IP 地址(标签)保持可用。

IPAT 和服务 IP 标签

可以将两种 IPAT 方法和这些方法控制服务 IP 标签的方式作如下解释:

  • 通过 IP 别名的 IP 地址接管

将服务 IP 地址/标签用作某个现有通信接口的别名,而不更改(替换)该接口的基本地址。

HACMP 使用 ifconfig 命令来执行此操作。

注意:在此配置中,节点上定义的所有基本(启动)IP 地址/标签必须配置在不同的子网上,并且还要与服务 IP 地址(标签)不同。此方法还可以节省硬件,但是需要额外的子网。图 1。


图 1 通过 IP 别名的 IPAT
 

HACMP 使用 AIX 的 IP 别名网络功能来支持不同类型的网络上的 IP 地址接管。通过 IP 别名的 IPAT 可以在某些类型的网络上使用无故 ARP (gratuitous ARP) 功能。

通过 IP 别名的 IPAT 使单个网络适配器可以支持多个服务 IP 地址(标签)。因此,同一个节点可以同时承载多个资源组,而不会将资源组的数量限制为可用的通信接口的数量。

相对于通过 IP 替换的 IPAT,通过别名的 IPAT 提供了以下优点:

    • 通过 IP 别名的 IP 地址接管比通过 IP 替换的 IPAT 速度更快,因为与在同一个接口上添加一个 IP 别名相比,替换 IP 地址要花显著更长的时间。
    • IP 别名允许多个服务标签在同一个网络接口上共存,因此可以在集群中使用更少的物理网络接口卡。

注意:在 HACMP V5.1 中,通过 IP 别名的 IPAT 是用于保持服务 IP 标签高度可用的缺省机制。

  • 通过 IP 替换的 IP 地址接管

服务 IP 地址替换网络接口上的现有(启动/基本)IP 地址。

使用此方法,同一网络接口上一次仅配置有一个 IP 地址/标签。

注意:在此配置中,服务 IP 地址必须与其中一个节点的通信接口启动地址在同一个子网上,而备用通信接口的基本 IP 地址必须在一个不同的子网上。此方法还可以节省子网,但是需要额外的硬件。


图 2 通过 IP 替换的 IPAT
 

如果包含服务 IP 地址的通信接口发生故障,在使用通过 IP 替换的 IPAT 时,HACMP 将把服务 IP 地址转移到在同一个节点并在同一网络上的另一个可用接口;在此情况下,关联的资源组不受影响。

如果同一个节点上没有可用的接口,则将资源组连同服务 IP 标签一起转移到另一个具有可用通信接口的节点上。

在使用通过 IP 替换的 IPAT(也称为“传统 IPAT”)时,还可以配置硬件地址接管 (HWAT)。硬件地址接管的实现方式是使用本地管理地址(locally administered address,LAA)来屏蔽通信接口的本机 MAC 地址,从而确保客户端上的 ARP 缓存中的映射保持不变。








      本文转自glying 51CTO博客,原文链接:http://blog.51cto.com/liying/968615,如需转载请自行联系原作者




相关文章
|
6月前
|
监控 安全 数据安全/隐私保护
|
6月前
|
存储 安全 Linux
【专栏】RHCSA认证考试(EX200)聚焦Linux用户和组管理,涉及基本概念、命令及管理策略。
【4月更文挑战第28天】RHCSA认证考试(EX200)聚焦Linux用户和组管理,涉及基本概念、命令及管理策略。理解用户与组、根用户与普通用户、标准组与附加组的区别至关重要。关键文件包括`/etc/passwd`、`/etc/group`、`/etc/shadow`和`/etc/gshadow`。熟悉`useradd`、`passwd`、`groupadd`等命令以及权限管理工具如`chown`和`chmod`。遵循最小特权原则,定期审计账户,实施密码策略,并利用自动化工具提升效率。掌握这些知识将助力考生在RHCSA考试中表现出色,并在实际工作中有效管理Linux系统。
65 2
|
安全 Windows 数据安全/隐私保护
|
负载均衡 网络安全 数据安全/隐私保护