Resumen
La alta disponibilidad combina dos conceptos para determinar si un sistema cumple con su nivel de rendimiento operativo: el primero tiene que ver con la accesibilidad o la disponibilidad prácticamente permanentes de un servicio o servidor sin tiempo de inactividad; y el segundo se refiere a su funcionamiento según las expectativas razonables y durante un período establecido. No se trata solo de cumplir con el tiempo de actividad indicado en el acuerdo de nivel del servicio (SLA) o con las expectativas establecidas entre el proveedor y el cliente, sino que implica que el sistema sea resistente, confiable y eficaz.
La importancia de la alta disponibilidad
La adopción de los servicios en línea y los entornos híbridos para las cargas de trabajo genera la necesidad de que las infraestructuras gestionen el aumento de las cargas en los sistemas mientras mantienen los estándares operativos.No es suficiente con que las infraestructuras "funcionen mejor", sino que deben generar resultados definidos y cuantificables para lograr la alta disponibilidad.
Uno de los objetivos de las soluciones de alta disponibilidad es ofrecer el tiempo de actividad del 99,999 %, es decir que el sistema funcione correctamente el 99,999 % del tiempo. Por lo general, solo los sectores más importantes, como la salud, el Gobierno y los servicios financieros, requieren este nivel de disponibilidad por razones de cumplimiento normativo o de competencia. Sin embargo, también hay otras empresas y sectores que necesitan que los sistemas mantengan el tiempo de actividad del 99,9 % o incluso del 99,99 % para ofrecer el acceso digital permanente a los clientes o permitir que los empleados trabajen desde sus hogares.
El funcionamiento de la alta disponibilidad
La infraestructura de alta disponibilidad depende de la detección y eliminación de los puntos únicos de fallas que podrían aumentar el tiempo de inactividad e impedir que las empresas alcanzaran sus objetivos de rendimiento. Los puntos únicos de fallas son aspectos de la infraestructura que podrían desconectar todo el sistema, y puede haber muchos de ellos en los sistemas complejos.
Las empresas también deben tener en cuenta los diferentes tipos de fallas que pueden ocurrir en las infraestructuras de TI modernas y complejas, como las del hardware; del software (tanto en el sistema operativo como en las aplicaciones en ejecución); del servicio (como las que se producen por la falta de accesibilidad de la red y la latencia en los servicios de nube, o el deterioro del rendimiento); y las fallas externas, como por un corte de la energía eléctrica.
La primera medida que pueden tomar las empresas para lograr la alta disponibilidad es determinar los resultados específicos más importantes que esperan para sus servicios esenciales, los requisitos de cumplimiento normativo, los puntos de referencia de rendimiento y las prioridades operativas:
- ¿Cuáles son sus requisitos en cuanto al tiempo de actividad, ya sea para el cumplimiento normativo o para la experiencia del usuario?
- ¿Qué tan distribuido está su entorno? ¿Cuáles son los puntos de fallas más importantes?
- ¿Cuáles son los requisitos de rendimiento para la aplicación? ¿Cuáles son los riesgos que corre el rendimiento? (Por ejemplo, el tráfico de usuarios o la carga de escritura).
- ¿Qué tipo de almacenamiento utiliza?
- ¿Cuáles son los requisitos respecto a la pérdida de datos o el acceso a ellos?
- Teniendo en cuenta los recursos informáticos actuales, ¿cuáles son los acuerdos de nivel de servicio (SLA) que se pueden cumplir en caso de que se produzca una interrupción del servicio? ¿Cuáles son los períodos de mantenimiento programados en la actualidad? ¿De qué manera afectarán el tiempo de actividad?
- ¿Tiene planes para los diferentes casos de recuperación ante desastres o los cambios en las operaciones de la empresa?
Los equipos de TI utilizan varios indicadores comunes para determinar si la arquitectura de los entornos de alta disponibilidad cumple con sus objetivos. Es posible que algunos sean más útiles que otros, pero vale la pena evaluar todos para establecer las expectativas de referencia en cuanto al rendimiento:
- Tiempo medio entre fallas (MTBF): determina el tiempo de funcionamiento del entorno entre una falla y otra del sistema.
- Tiempo medio de inactividad: determina el tiempo de inactividad del sistema antes de que se recupere o sustituya.
- Objetivo de tiempo de recuperación (RTO): determina el tiempo total que toma completar una reparación y volver a conectar el sistema.
- Objetivo de punto de recuperación (RPO): determina el momento exacto en el que se deben poder recuperar los datos. Es el período en que se pierden los datos. Por ejemplo, si un sistema depende de la recuperación de otro cuyas copias de seguridad se ejecutan una vez al día, podría haber una pérdida de datos de hasta 24 horas. Por el contrario, si cuenta con el almacenamiento replicado o compartido, la pérdida de datos puede ser de tan solo unos minutos o menos.
La alta disponibilidad y la recuperación ante desastres
La arquitectura de alta disponibilidad incorpora los principios de cada aspecto del plan de continuidad, como la supervisión y la automatización. Esto permite que todo el sistema sea resistente a cualquier tipo de fallas, desde las locales y específicas hasta las que se producen por los cortes generales de energía eléctrica. Además, permite mantenerlo en ejecución incluso durante los períodos de mantenimiento programados u otras interrupciones.
El plan de recuperación ante desastres o de continuidad permite abordar cada tipo de falla:
- Previsión de fallas específicas: los arquitectos de TI se aseguran de que los sistemas sean redundantes y con copias de seguridad en caso de que se produzcan fallas. Luego, se encargan de automatizar los procesos de conmutación por error para detectar automáticamente la desconexión de los sistemas y trasladar los servicios al sistema de respaldo.
- Gestión preventiva del rendimiento: la tolerancia a los errores puede ocuparse de las interrupciones, pero no necesariamente del deterioro del rendimiento. En este caso, resulta muy útil contar con el equilibrio de carga y la capacidad de ajuste. Los arquitectos de TI supervisan el rendimiento del sistema y utilizan varios sistemas para gestionar las operaciones y solicitudes de los usuarios. La gestión del tráfico y los equilibradores de carga dirigen de forma inteligente el tráfico en función del ancho de banda, el rendimiento del sistema, el tipo de usuario o el tipo de solicitud.
- Gestión de las fallas generalizadas: si bien son poco frecuentes, como la desconexión de un proveedor de nube o un desastre natural en el centro de datos, estas requieren un enfoque más integral que las fallas en el hardware o el software. Además de recuperar la conexión de la infraestructura, es necesario disponer de los datos actualizados mediante su replicación (la cual se ejecuta de forma sincrónica, pero puede afectar el rendimiento), o bien mediante las copias de seguridad (las cuales se ejecutan de forma asíncrona, pero pueden implicar la pérdida de datos).
Los clústeres de alta disponibilidad
Las arquitecturas de alta disponibilidad ejecutan clústeres activos, por lo que ofrecen la redundancia y la conmutación por error integradas. Dentro del clúster, se supervisa la disponibilidad de los nodos y el rendimiento general de las aplicaciones, los servicios y la red. Dado que el almacenamiento es compartido, es decir que todos los nodos del clúster utilizan la misma fuente de datos, si un nodo deja de funcionar, no se pierde ningún dato. Se puede utilizar el equilibrio de carga para gestionar el tráfico y obtener el mejor rendimiento.
Además de ofrecer estas características generales, también se pueden diseñar los clústeres de alta disponibilidad para tareas más específicas en función de las prioridades y las actividades de la infraestructura de TI. Por ejemplo, el complemento Red Hat Enterprise Linux High Availability Add-On tiene cuatro configuraciones predeterminadas:
- Alta disponibilidad: se centra en el tiempo de actividad y la disponibilidad.
- Alto rendimiento: se centra en las operaciones simultáneas de alta velocidad.
- Equilibrio de carga: se centra en la capacidad de ajuste rentable.
- Almacenamiento: se centra en la gestión flexible de los datos.
En los entornos reales, los sistemas de alta disponibilidad podrían incorporar características de todos esos elementos.
Red Hat y la alta disponibilidad
La alta disponibilidad abarca toda la infraestructura y debe contemplar la gestión de los datos y el almacenamiento en entornos distintos, tanto físicos como en la nube, así como las diferentes ubicaciones de los servicios y las aplicaciones. Por eso es tan útil contar con una plataforma común y un entorno operativo estándar: crean uniformidad independientemente del entorno de implementación.
Red Hat Enterprise Linux tiene funciones y servicios adicionales que pueden incluirse mediante paquetes de complementos. Red Hat Enterprise Linux High Availability Add-On se ocupa de los aspectos de la red, la agrupación en clústeres y el almacenamiento.
Las implementaciones de Red Hat Enterprise Linux para Microsoft SQL Server y SAP también incluyen el complemento Red Hat Enterprise Linux High Availability Add-On, dado que la alta disponibilidad está muy relacionada a la gestión de los datos.