概述
高可用性是指几乎可以随时访问 IT 系统并保持可靠性,从而可以更大限度地消除或减少停机时间。它会结合两个概念来决定 IT 系统是否达到应有的运行性能水平:特定设备或服务器几乎在任意时间都可访问或可用,没有停机时间;该设备或服务器在特定时间段内的性能满足合理的预期。高可用性要求的不仅是满足正常运行时间服务水平协议(SLA),或达到服务供应商与客户设定的预期,它还意味着系统具有真正的弹性,能够可靠且良好地运作。
为什么高可用性很重要?
随着企业和机构越来越多地采用在线服务和混合工作负载,大家既需要维持运维标准,也越来越多地要求基础架构去处理更高系统负载的需求。要实现高可用性,这些基础架构(也就是高可用性的系统)必须达到定义好的可量化的成果,而不仅满足于“更好地运行”。
高可用性解决方案(或高可用性服务)有一个目标叫做“五个九”可用性,即系统在 99.999% 的时间里运行良好且性能良好。通常情况下,出于合规或竞争的原因,只有医疗卫生、政府及金融服务等任务关键型系统要求可用性达到该标准。然而,许多企业/机构和行业仍然要求高可用性系统保持 99.9% 甚至 99.99% 的运行时间,来保障为客户提供全天候、不间断的数字访问权限,或让员工能够居家办公。
红帽资源
高可用性如何运作?
高可用性基础架构中,起到决定性作用的是检测和消除可能增加系统停机时间或妨碍企业达成性能目标的单点故障。基础架构的单点故障可能会使整个系统中断脱机,而复杂的系统可能存在多个单点故障。
企业与机构还必须考虑在现代复杂的 IT 基础架构中可能出现的多种故障类型。这些故障包括硬件故障和软件故障(二者针对操作系统和运行应用),及服务故障(网络无法访问和延迟、云服务或性能下降)和外部故障(如断电)。
要实现高可用性,企业与机构可采取的第一步是基于其核心服务、工作负载和监管或合规要求、性能基准、关键应用及运行优先级,确定其希望获得的具体、最重要的成果:
- 以遵守法规或用户体验为目的,对正常运行时间有什么要求?
- IT 环境是如何分布的?有哪些关键故障点?
- 应用必要的性能是怎样的?这种应用性能有哪些风险(如高用户流量或高写入负载)?
- 使用的存储类型是什么?
- 对数据丢失或数据访问有什么要求?
- 对于目前的 IT 资源,在断电的情况下,可实现的 SLA 是什么?目前计划的维护时间是怎样安排的,对正常运行时间有什么影响?
- 是否有针对不同灾难恢复场景或业务运营变化的计划?
高可用性环境中也有一些常见指标可供 IT 团队确定高可用性架构是否达到了目标。有些指标可能比其他指标更适用于您的架构,但为了设定预期的基线性能,所有指标都值得评估:
- 平均故障间隔(MTBF):环境在系统故障之间的运行时间。
- 平均停机时间:系统在拓扑结构中恢复或被替换掉前的停机时间(分钟)。
- 恢复时间目标(RTO):系统完成修复或重新运行所需的总时间。
- 恢复点目标(RPO):能够恢复数据的时间段。它是可接受的丢失数据的时间窗口。举个例子,如果一个系统要靠从备份来恢复,而每天都会进行备份,那么恢复的系统中可能有 24 小时的数据丢失。但是,如果有复制或共享存储,那么数据丢失时间可能仅有几分钟或更短。
高可用性和灾难恢复
一个好的高可用性架构会囊括业务连续性规划中的每一层要素,如监控和自动化。这可使整个系统能够适应所有类型的故障,包括特定的局部故障和整体停机。高可用性甚至还能让整个系统在出现计划维护窗口和其他服务中断时维持运行。
灾难恢复或连续计划会包含针对每种潜在故障的方法:
- 预测特定故障:对于每个故障领域,IT 架构首先会确保系统是冗余的,出现故障时可以使用备份系统。下一步是自动化故障转移和故障检测流程,以便自动检测出故障系统,将服务切换至备份系统。
- 主动管理性能:容错机制可以解决中断问题,但不一定能处理性能下降的问题。这时可使用负载平衡和可扩展性工具。在这种情况下,IT 架构会监测系统性能,应用多个系统管理用户请求和操作。负载平衡器和流量管理可以实时根据带宽和系统性能、用户或请求类型智能地路由流量。
- 处理灾难性事件:云供应商瘫痪或数据中心现场发生自然灾害等大范围的基础架构故障很罕见,但要应对这种故障,需要用比单纯的硬件/软件故障更全面的方法。不仅要让基础架构重新上线,还有必要提供最新数据。要实现这一目标,可以采取同步复制(但有性能风险)或异步进行数据备份(但有丢失数据的风险)的方法。
什么是高可用性集群?
高可用性架构会运行活动故障转移集群,因此有内生的冗余和故障转移功能,并有可能实现零停机时间。在集群内,我们监控节点不仅是为了可用性,还是为了应用、服务和网络的整体性能。因为有共享存储,所有集群节点都从同一数据源工作,因此某个节点出现故障,也不会出现数据丢失。负载平衡可用于管理流量,以实现最佳性能。
除了这些宽泛的优点,高可用性集群还根据可 IT 基础架构内部的优先级和活动,为更专业的活动而设计。例如,红帽企业 Linux 高可用性附加组件有四种默认配置:
- 高可用性:关注运行时间和可用性
- 高性能:关注高速度和并行操作
- 负载平衡:关注具备成本效益的可扩展性
- 存储:关注弹性数据管理
在实际环境中,高可用性系统能包含这些重点元素各个方面。
红帽如何帮助您实现高可用性
想让高可用性贯穿整个基础架构,必须考虑到独立环境(包括云和物理环境)中的数据和存储管理以及服务和应用的不同位置。所以普通的平台和标准的操作环境也可以非常强大:不论何种部署环境,它都能带来一致体验。
红帽企业 Linux 还会以附加软件包的形式,提供许多附加功能和服务。红帽企业 Linux 高可用性附加组件可解决拓扑中网络、集群和存储方面的问题。
由于高可用性与数据管理密切相关,红帽企业 Linux 对微软 SQL Server 和 SAP 的部署也包括红帽企业 Linux 高可用性附加组件。
红帽官方博客
获取有关我们的客户、合作伙伴和社区生态系统的最新信息。