文章
· 三月 20, 2023 阅读大约需 4 分钟

第三章 高可用性的故障转移策略

第三章 高可用性的故障转移策略

随着组织越来越依赖基于网络的应用程序,使数据库尽可能可用和可靠变得至关重要。本指南解释了 IRIS 数据平台如何提供高度可用和可靠的数据存储,并描述了从中断和故障中快速恢复并同时保持数据完整性的策略。

IRIS® 数据平台提供多种高可用性 (HA) 解决方案,并可轻松与操作系统供应商提供的所有常见 HA 配置集成。

维持系统高可用性的主要机制称为故障转移。在这种方法下,一个失败的主系统被一个备份系统取代;也就是说,处理故障转移到备份系统。许多 HA 配置还提供灾难恢复机制,即在故障转移机制无法保持系统可用时恢复系统可用性。

IRIS 实例故障转移有五种通用方法以实现 HA(包括不实施 HA 策略)。本章概述了这些方法,而本指南的其余部分提供了实施这些方法的过程。

重要的是要记住,在除镜像之外的所有这些方法中,单个存储故障都可能是灾难性的。因此,磁盘冗余、数据完整性指南“日志记录”一章中描述的数据库日志记录以及数据完整性指南“备份和还原”一章中描述的良好备份过程必须始终是您的一部分方法,因为它们对于减轻磁盘故障的后果至关重要。

如果需要详细信息来帮助制定适合环境的故障转移和灾难恢复策略。

无故障转移策略

IRIS 数据库的完整性始终受到数据完整性指南中描述的功能的保护,免受生产系统故障的影响。结构数据库完整性由 写图像日志 (WIJ) 技术维护,而逻辑完整性则通过日志记录和事务处理维护。自动 WIJ 和日志恢复是 “bulletproof”数据库架构的基本组成部分。

但是,如果没有适当的故障转移策略,故障可能会导致大量停机,具体取决于故障原因以及您隔离和解决故障的能力。对于许多非关键业务的应用程序,这种风险可能是可以接受的。

采用这种方法的客户具有以下特点:

  • 清晰详细的操作恢复程序,包括日志记录、备份和恢复
  • 磁盘冗余(RAID 和/或磁盘镜像)
  • 能够快速更换硬件
  • 24x7 维护合同与所有供应商签订
  • 管理接受度和应用程序用户对故障导致的中等停机时间的容忍度

故障转移集群

实现 HA 的一种常见方法是故障转移集群,其中主要生产系统由(通常相同的)备用系统补充,具有共享存储和跟随活动成员的集群 IP 地址。如果生产系统出现故障,备用系统将承担生产工作负载,接管之前在故障主系统上运行的程序和服务,包括 IRIS

IRIS 旨在与操作系统级别提供的故障转移解决方案轻松集成,特别是 IBM PowerHA SystemMirrorRed Hat Enterprise Linux HAIRIS 的单个实例安装在共享存储设备上,以便两个集群成员都能识别该实例,然后将其添加到故障转移集群配置中,以便它作为故障转移的一部分自动启动。如果活动节点在指定的时间段内变得不可用,故障转移技术会将集群 IP 地址和共享存储的控制权转移到备用节点,并在新的主节点上重新启动 IRIS。重新启动时,系统会自动执行正常的启动恢复,WIJ、日志记录和事务处理会保持结构和数据的完整性,就好像 IRIS 在故障系统上重新启动一样。

备用服务器必须能够处理正常的生产工作负载,只要它可能需要恢复发生故障的主服务器。可选地,备用数据库可以成为主要数据库,故障的主要数据库在恢复后成为备用数据库。

在这种方法下,共享存储设备的故障是灾难性的。因此,磁盘冗余、日志记录以及良好的备份和恢复过程对于提供足够的恢复能力至关重要。

虚拟化高可用

虚拟化平台通常提供 HA 功能,通常会监控来宾操作系统及其运行的硬件的状态。在任何一个失败时,虚拟化平台都会根据需要在备用硬件上自动重启失败的虚拟机。当 IRIS 实例重新启动时,它会自动执行正常的启动恢复,WIJ、全局日志记录和事务处理保持结构和数据完整性,就好像 IRIS 在物理服务器上重新启动一样。

此外,虚拟化平台允许将虚拟机重新定位到备用硬件以进行维护,从而实现物理服务器的升级,例如,无需任何停机时间。虚拟化 HA 共享故障转移集群和并发集群的主要缺点,但是:共享存储的故障是灾难性的。

讨论 (0)1
登录或注册以继续