可用性和灾难恢复都依赖于一些相同的最佳做法,例如监控故障、部署到多个位置以及自动故障切换。然而,可用性侧重于工作负载的组件,而灾难恢复侧重于整个工作负载的离散副本。灾难恢复具有不同于可用性的目标,即在发生符合灾难条件的大规模事件后测量恢复时间。您应该首先确保工作负载满足可用性目标,因为高可用性架构将使您能够在发生影响可用性的事件时满足客户的需求。您的灾难恢复策略需要不同于可用性的方法,重点是将分散的系统部署到多个位置,以便您可以在必要时对整个工作负载进行故障切换。
您必须在灾难恢复规划中考虑工作负载的可用性,因为这会影响您采取的方法。在一个可用性区域中的单个AmazonEC2实例上运行的工作负载不具有高可用性。如果本地洪泛问题影响该可用区域,则此场景需要故障切换到另一个AZ以满足灾难恢复目标。将此场景与部署在多站点活动/活动的高可用工作负载进行比较,其中工作负载部署在多个活动区域中,所有区域都在为生产流量提供服务。在这种情况下,即使在不太可能发生大规模灾难导致某个区域无法使用的情况下,灾难恢复策略也可以通过将所有流量路由到剩余区域来实现。
在可用性和灾难恢复之间,您处理数据的方式也有所不同。考虑一个连续复制到另一个站点以实现高可用性的存储解决方案(例如多站点、活动/活动工作负载)。如果主存储设备上的一个或多个文件被删除或损坏,则可以将这些破坏性更改复制到辅助存储设备。在这种情况下,尽管具有高可用性,但数据删除或损坏时的故障切换能力将受到影响。相反,作为灾难恢复战略的一部分,还需要时间点备份。
本文地址:https://architect.pub/high-availability-not-disaster-recovery