Secciones

¿Qué es la alta disponibilidad?

Copiar URL

Red Hat User Group en Latinoamérica

Llegó Red Hat User Group Community a Latinoamérica. Nos reunimos para tener conversaciones técnicas, compartir experiencias y casos de uso en un ambiente cercano y distendido.

La alta disponibilidad es la capacidad que tiene un sistema de TI para ser accesible y confiable casi todo el tiempo, lo cual elimina o disminuye el tiempo de inactividad. Combina dos conceptos para determinar si un sistema cumple con su nivel de rendimiento operativo: el primero tiene que ver con la accesibilidad o la disponibilidad prácticamente permanentes de un servicio o servidor sin tiempo de inactividad; y el segundo se refiere a su funcionamiento según las expectativas razonables y durante un período establecido. No se trata solo de cumplir con el tiempo de actividad indicado en el acuerdo de nivel del servicio (SLA) o con las expectativas establecidas entre el proveedor y el cliente, sino que implica que el sistema sea resistente, confiable y eficaz.

 

La adopción de los servicios en línea y las cargas de trabajo híbridas genera la necesidad de que las infraestructuras gestionen el aumento de las cargas en los sistemas mientras mantienen los estándares operativos.No es suficiente con que las infraestructuras, comúnmente conocidas como sistemas de alta disponibilidad, "funcionen mejor", sino que deben generar resultados definidos y cuantificables para lograr la alta disponibilidad.

Uno de los objetivos de estas soluciones o servicios es ofrecer un tiempo de actividad del 99,999 %, es decir, que el sistema funcione correctamente el 99,999 % del tiempo. Por lo general, solo los sectores más importantes, como la salud, el Gobierno y los servicios financieros, requieren este nivel de disponibilidad por razones de cumplimiento normativo o de competencia. Sin embargo, también hay otras empresas y sectores que necesitan que los sistemas mantengan el tiempo de actividad del 99,9 % o incluso del 99,99 % para ofrecer acceso digital constante a los clientes o permitir que los empleados trabajen desde sus hogares.

La infraestructura de alta disponibilidad depende de la detección y eliminación de los puntos únicos de fallas que podrían aumentar el tiempo de inactividad de los sistemas e impedir que las empresas alcancen sus objetivos de rendimiento. Los puntos únicos de fallas son aspectos de la infraestructura que podrían desconectar todo el sistema, y puede haber muchos de ellos en los sistemas complejos.

Las empresas también deben considerar los distintos tipos de fallas que se pueden producir en las infraestructuras de TI modernas y complejas, como las del hardware; del software (tanto en el sistema operativo como en las aplicaciones en ejecución); del servicio (como las que se producen por la falta de accesibilidad de la red y la latencia en los servicios de nube, o el deterioro del rendimiento), y las fallas externas, como por un corte de la energía eléctrica.

La primera medida que pueden tomar las empresas para lograr la alta disponibilidad es determinar los resultados específicos más importantes que esperan para sus servicios esenciales, los requisitos de cumplimiento normativo y de las cargas de trabajo, los parámetros de rendimiento, las aplicaciones fundamentales y las prioridades operativas:

 

  • ¿Cuáles son sus requisitos en cuanto al tiempo de actividad, ya sea para el cumplimiento normativo o para la experiencia del usuario?
  • ¿Qué tan distribuido está su entorno? ¿Cuáles son los puntos de fallas más importantes?
  • ¿Cuáles son los requisitos de rendimiento para la aplicación? ¿Cuáles son los riesgos que corre el rendimiento de las aplicaciones? (Por ejemplo, el tráfico de usuarios o la carga de escritura).
  • ¿Qué tipo de almacenamiento utiliza?
  • ¿Cuáles son los requisitos respecto a la pérdida de datos o el acceso a ellos?
  • Teniendo en cuenta los recursos informáticos actuales, ¿cuáles son los acuerdos de nivel de servicio (SLA) que se pueden cumplir en caso de que se produzca una interrupción del servicio? ¿Cuáles son los períodos de mantenimiento programados en la actualidad? ¿De qué manera afectarán el tiempo de actividad?
  • ¿Tiene planes para los diferentes casos de recuperación ante desastres o los cambios en las operaciones de la empresa?

Los equipos de TI utilizan varios indicadores comunes para determinar si la arquitectura de los entornos de alta disponibilidad cumple con sus objetivos. Es posible que algunos sean más útiles que otros para su arquitectura, pero vale la pena evaluarlos a todos para establecer las expectativas de referencia en cuanto al rendimiento:

  • Tiempo medio entre fallas (MTBF): determina el tiempo de funcionamiento del entorno entre una falla y otra del sistema.
  • Tiempo medio de inactividad: determina el tiempo de inactividad del sistema, en minutos, antes de que se recupere o sustituya.
  • Objetivo de tiempo de recuperación (RTO): determina el tiempo total que toma completar una reparación y volver a conectar el sistema.
  • Objetivo de punto de recuperación (RPO): determina el período en el que se deben poder recuperar los datos. Es el período en que se pierden los datos. Por ejemplo, si un sistema depende de la recuperación de otro cuyos backups se ejecutan una vez al día, podría haber una pérdida de datos de hasta 24 horas. Por el contrario, si cuenta con el almacenamiento replicado o compartido, la pérdida puede ser de tan solo unos minutos o menos.

Open Technology Sessions en español

Explora esta serie de webinars on-demand y descubre cómo impulsar la innovación tecnológica en tu organización. ¡Aprende más sobre automatización, infraestructura, plataforma de aplicaciones, cloud services y mucho más!

La arquitectura de alta disponibilidad incorpora los principios de cada aspecto del plan de continuidad, como la supervisión y la automatización. Esto permite que todo el sistema sea resistente a cualquier tipo de fallas, desde las locales y específicas hasta las que se producen por los cortes generales de energía eléctrica. Además, permite mantenerlo en ejecución incluso durante los períodos de mantenimiento programados u otras interrupciones.

El plan de recuperación ante desastres o de continuidad permite abordar cada tipo de falla:

  • Previsión de fallas específicas: los arquitectos de TI se aseguran de que los sistemas sean redundantes y cuenten con backups en caso de que se produzcan fallas. Luego, se encargan de automatizar los procesos de conmutación por error y de detección de fallas para identificar automáticamente la desconexión de los sistemas y trasladar los servicios al sistema de backup
  • Gestión preventiva del rendimiento: la tolerancia a los errores puede ocuparse de las interrupciones, pero no necesariamente del deterioro del rendimiento. En este caso, resulta muy útil contar con el equilibrio de carga y la capacidad de ajuste. Los arquitectos de TI supervisan el rendimiento del sistema y utilizan varios sistemas para gestionar las operaciones y solicitudes de los usuarios. La gestión del tráfico y los equilibradores de carga dirigen de forma inteligente el tráfico en tiempo real en función del ancho de banda, el rendimiento del sistema y el tipo de usuario o de solicitud.
  • Gestión de las fallas generalizadas: si bien son poco frecuentes, como la desconexión de un proveedor de nube o un desastre natural en el centro de datos, requieren un enfoque más integral que las fallas en el hardware o el software. No solo es necesario recuperar la conexión de la infraestructura, sino también disponer de los datos actualizados mediante su replicación (la cual se ejecuta de forma sincrónica, pero puede afectar el rendimiento), o bien mediante los backups (los cuales se ejecutan de forma asíncrona, pero pueden implicar la pérdida de datos).

Las arquitecturas de alta disponibilidad ejecutan clústeres activos de conmutación por error, por lo que la conmutación y la redundancia están integradas, y, con suerte, no habrá tiempos de inactividad.Dentro del clúster, se supervisa la disponibilidad de los nodos y el rendimiento general de las aplicaciones, los servicios y la red. Dado que el almacenamiento es compartido, es decir que todos los nodos del clúster utilizan la misma fuente de datos, si un nodo deja de funcionar, no se pierde ningún dato. Se puede utilizar el equilibrio de carga para gestionar el tráfico y obtener el mejor rendimiento.

Además de ofrecer estas características generales, también se pueden diseñar los clústeres de alta disponibilidad para tareas más específicas en función de las prioridades y las actividades de la infraestructura de TI. Por ejemplo, Red Hat Enterprise Linux High Availability Add-On tiene cuatro configuraciones predeterminadas:

  • Alta disponibilidad: se centra en el tiempo de actividad y la disponibilidad.
  • Alto rendimiento: se centra en las operaciones simultáneas de alta velocidad.
  • Equilibrio de carga: se centra en la capacidad de ajuste rentable.
  • Almacenamiento: se centra en la gestión flexible de los datos.

En los entornos reales, los sistemas de alta disponibilidad podrían incorporar características de esos elementos.

La alta disponibilidad abarca toda la infraestructura y debe contemplar la gestión de los datos y el almacenamiento en entornos distintos, tanto físicos como en la nube, así como las diferentes ubicaciones de los servicios y las aplicaciones. Por eso es tan útil contar con una plataforma común y un entorno operativo estándar: crean uniformidad independientemente del entorno de implementación.

Red Hat Enterprise Linux tiene funciones y servicios adicionales que pueden incluirse mediante paquetes de complementos. Red Hat Enterprise Linux High Availability Add-On se ocupa de los aspectos de la red, la agrupación en clústeres y el almacenamiento.

Las implementaciones de Red Hat Enterprise Linux para Microsoft SQL Server y SAP también incluyen Red Hat Enterprise Linux High Availability Add-On, dado que la alta disponibilidad está muy relacionada con la gestión de los datos.