使关键应用保持运行
当组织将其系统迁移至混合云时,弹性往往是关键问题。要提供能够为业务连续性做出贡献的可靠应用服务,在不丢失数据的情况下承受错误和故障的能力至关重要。
此外,关键应用必须继续保持良好性能,即使在组件发生故障时也应如此。在提供弹性方面,应用本身只能止步于此,故障条件下的弹性和性能最终取决于底层数据服务基础架构。
构建高可用性平台
高可用性是指保护单个站点上的基础架构或应用,确保其持续运行。它的目的是利用冗余访问路径和组件弹性来减少计算堆栈中的单点故障。如果环境设计时纳入了高可用性的概念,那就意味着各项服务具备内置的弹性,可以自行恢复。为了恢复,这些服务可能会在故障时重启,允许故障节点重新启动,将故障硬件上的工作负载重新部署到该环境中的其他位置,或者在网络路径故障时将事务重新发送至服务或服务的其他实例。
高可用性的重要作用是确保应用能够在不停机的情况下运行并处理意外故障。随着容器、Kubernetes 和无服务器等技术在应用开发方面带来新的机遇,但仍然需要制定恢复计划,以防发生故障。
红帽资源
超越实现您的恢复目标
灾难恢复(DR)是指从自然或人为造成的灾难中恢复和继续业务关键应用的能力,以地理分布的方式保护基础架构或应用,从而尽可能减少业务影响。这是任何大型组织的整体业务连续性策略,设计目的是在发生严重的不良事件时保留业务运维的连续性。DR 的目的是实现比传统高可用性更长距离的自动恢复,并将恢复扩展至不同的群集。在应用一次只能用于一个站点的环境中,站点间的迁移可能是自动化的,需要拥有权限的人决定在站点之间移动计算服务。这样做是因为站点间进行故障切换时,需要一定的技术成本来重新同步应用。减少从事故恢复的时间对企业的成功至关重要。
区域性 DR 能力在地理位置分散的站点之间提供卷持久的数据和元数据复制。在公共云中,这类似于避免区域性故障。区域性 DR 确保地理区域不可用时的业务连续性,接受可预测数量的数据丢失。这通常表示为恢复点目标(RPO)和恢复时间目标(RTO)。
RPO 用于衡量您备份持久数据或为其拍摄快照的频率。在实践中,RPO 表示发生中断后将丢失或需要重新输入的数据量。
RTO 是指企业可容忍的停机时间。RTO 解答了问题"在我们收到业务中断通知后,系统需要多长时间才能恢复?"
查看文档,了解如何配置红帽 OpenShift 数据基础,以便通过高级集群管理实现区域性灾难恢复。
红帽官方博客
获取有关我们的客户、合作伙伴和社区生态系统的最新信息。