Adopta un enfoque de detección temprana de fallos para desarrollar la automatización de la actualización de RHEL

28 de octubre de 2025Bob Mader, Bob Handlin8 minutos de lectura

Hace poco más de dos años que escribimos sobre la automatización de las actualizaciones integradas de Red Hat Enterprise Linux (RHEL). Durante ese tiempo, hemos visto a docenas de clientes actualizar cientos de miles de sistemas con nuestro enfoque prescriptivo y automatizado para que las actualizaciones de RHEL se realicen a escala. En este artículo, haremos un repaso rápido de las características clave que ayudan a agilizar la implementación de la automatización de la actualización de RHEL. Veremos lo que funcionó bien, pero también algunos de los desafíos y las lecciones aprendidas.

El aprendizaje clave: falla rápido, repite y vuelve a intentarlo Lo más importante que se logra con esto es que el proceso de actualización sea menos intimidante, lo que permite una recuperación rápida al estado original cuando las cosas no funcionan perfectamente de inmediato.

El desafío

Muchos de nuestros clientes más importantes tienen grandes entornos de RHEL que han crecido y evolucionado a lo largo de las décadas desde que comenzó la adopción empresarial de Linux a principios de la década de 2000. Las empresas han intentado implementar la virtualización y la organización en contenedores con la mejor intención de modernizar la forma en que implementan y gestionan las cargas de trabajo de las aplicaciones, pero algunas aún tienen una gran cantidad de hosts de RHEL que no se han puesto al día. Estas aplicaciones se ejecutan en servidores «pet» que se han cuidado con esmero a lo largo de los años. Los cambios manuales han provocado una gran acumulación de desajustes sin seguimiento.

Es la dificultad de realizar cambios en estos entornos de aplicaciones lo que mantiene a las empresas atrapadas en las versiones anteriores de RHEL. El cambio de plataforma a una nueva versión de RHEL suele ser sencillo para los equipos de infraestructura y operaciones, pero volver a implementar las aplicaciones «pet» es una tarea ardua para los equipos de aplicaciones. Desentrañar toda la deuda técnica para encontrar la manera de volver a implementar sus cargas de trabajo de manera segura resulta muy costoso y está plagado de riesgos. Es por eso que fallar rápido y aprender es una pieza fundamental del rompecabezas.

En pocas palabras: hay una manera más sencilla de trasladar los entornos a una nueva versión de RHEL sin tener que tocar las aplicaciones. Cuando se implementa a escala, el ahorro de costos en toda la empresa se suma rápidamente.

La solución

Nuestro enfoque para escalar las actualizaciones de RHEL consiste en automatizarlas con Red Hat Ansible Automation Platform y el contenido validado de Ansible. Estas automatizaciones pueden gestionar actualizaciones desde RHEL 6 a 7, hasta las versiones más recientes de RHEL 9 a 10, y todo lo que se encuentre en el medio. Incluso hemos visto a clientes automatizar actualizaciones de varios saltos, como de RHEL 7 a RHEL 9, en una sola ventana de mantenimiento.

La solución se basa en cuatro funciones esenciales.

RHEL In-place Upgrade Automation - Key Features to Succeed at Scale (slide)

1. Automatización integral

La automatización integral de las actualizaciones de RHEL permite que el proceso esté disponible y se pueda repetir como un servicio fácil de usar y con solo presionar un botón, tanto para los equipos de operaciones como para los de aplicaciones.

2. Instantánea con restauración

Esta es la característica más importante del enfoque, ya que minimiza el riesgo de impacto en las aplicaciones, por lo que nunca hay una excusa para no actualizar. Las instantáneas se pueden automatizar con el administrador de volúmenes lógicos (LVM), las instantáneas de VMware o las copias de seguridad relax-and-recover (ReaR), según el entorno. Las restauraciones te permiten fallar rápido y volver a intentarlo.

3. Módulos personalizados

Si bien el marco RHEL Leapp actualiza el propio sistema operativo, es necesario desarrollar una automatización personalizada para gestionar los aspectos específicos de tu entorno, como las herramientas y los agentes estándar de terceros.

4. Panel de informes (opcional, pero MUY útil)

El panel de informes realiza un seguimiento de los resultados de la actualización en todo el entorno de RHEL. Visualiza los informes previos a la actualización que genera Leapp, lo que facilita el análisis de los resultados y los indicadores agregados sobre el volumen y el progreso de las actualizaciones completadas.

Lecciones aprendidas de la automatización de un millón de actualizaciones integradas de RHEL

Si algo hemos aprendido mientras ayudamos a los clientes a implementar este enfoque es que nada funciona a la perfección la primera vez. No hay forma de anticipar todas las configuraciones «copo de nieve», el impacto de los productos de terceros de bajo nivel, los factores ambientales externos, etc. Descubrimos que lo mejor es comenzar a probar las actualizaciones, empezando en los entornos de laboratorio y desarrollo iniciales.

A esto lo llamamos el enfoque de «detección temprana de fallos», y es la clave para desarrollar rápidamente la solución de modo que, en última instancia, gestione cualquier variación específica de tu entorno. Esta es una metodología que permite el aprendizaje y la iteración rápidos. Se logra al probar intencionalmente las actualizaciones con la expectativa de que las cosas fallen, al observar esas fallas, al revertirlas rápidamente y al usar lo aprendido para hacer que la automatización sea a prueba de fallas.

A continuación, se explican los motivos por los que el enfoque de detección temprana de fallos es fundamental para la automatización de las actualizaciones integradas de RHEL:

Reducción de los riesgos y aumento de la confianza.
- El elemento más importante para reducir los riesgos es la función de restauración de las instantáneas. Esto disminuye la preocupación de que una actualización sea demasiado riesgosa para los equipos de aplicaciones. Si algo sale mal, el sistema puede volver rápidamente a su estado anterior sin causar una interrupción prolongada. Esta función de recuperación rápida permite que los equipos de aplicaciones actualicen las aplicaciones rápidamente y aborden un problema importante relacionado con los requisitos normativos y de cumplimiento en sectores como el bancario.
- En un cliente conocido, el equipo de aplicaciones probó la actualización y la restauración de un host varias veces solo para ganar confianza en el proceso de instantáneas. Incluso rompieron los elementos intencionalmente antes de restaurarlos solo para probar su punto.
- De manera similar, un importante cliente bancario consideró un «problema» durante su primera actualización de servidor dedicado (bare metal) como un éxito porque la restauración funcionó, lo que validó la metodología de detección temprana de fallos.
- Otro cliente con un entorno más pequeño logró actualizar con éxito los 60 hosts de RHEL en solo dos semanas con el espíritu de «ir rápido, interrumpir las tareas» y confiar en la automatización y la restauración.
Desarrollo acelerado y perfeccionamiento de la automatización
- La detección temprana de fallos acelera el desarrollo de la automatización personalizada, ya que permite que los equipos repitan los procesos con rapidez. En lugar de tratar de prever todos los posibles problemas, el enfoque fomenta la ejecución de la actualización, la observación de las fallas, la restauración, la automatización de una corrección y, luego, la repetición del proceso.
- Esto permite identificar y perfeccionar las soluciones para los requisitos personalizados complejos, como el manejo de las herramientas, los agentes y el middleware de terceros que podrían no ser compatibles con la nueva versión de RHEL. Por ejemplo, otro cliente bancario utilizó este enfoque para identificar los paquetes de proveedores externos eliminados por las actualizaciones y automatizar su reinstalación.
- El enfoque permite descubrir los desajustes y las variaciones inesperados en un entorno, y luego perfeccionar la automatización para abordarlos.
Superación de los obstáculos empresariales
- Puede haber un estigma asociado con el fracaso que lleva a un comportamiento excesivamente reacio a los riesgos. El enfoque de detección temprana de fallos, respaldado por una función sólida de restauración, ayuda a superar esto. Demuestra que las fallas no solo pueden solucionarse de manera rápida y segura, sino que también son una oportunidad para aprender rápidamente.
- Cuando Red Hat se ha encontrado con las dudas de los equipos centrales de operaciones o de TI escépticos, es útil hacer hincapié en el enfoque de detección temprana de fallos y en los beneficios para los equipos de aplicaciones. Muestra cómo la solución los empodera sin obligarlos a cambiar de plataforma de manera costosa.
Posibilidad de ajuste
- Al identificar y resolver rápidamente los problemas a través de pruebas iterativas, las empresas pueden aumentar la velocidad de actualización. Por ejemplo, un cliente con un entorno de RHEL de más de 100 000 instancias logró 8000 actualizaciones por mes en todo el mundo gracias a la automatización de autoservicio, que permitió una iteración y una restauración rápidas.
- La capacidad de probar y perfeccionar la automatización fácilmente en entornos inferiores (laboratorio y desarrollo) antes de pasar a la producción es la práctica recomendada para evitar interrupciones y lograr una gran cantidad de actualizaciones.

Estos son los elementos clave que respaldan la detección temprana de fallos

Funciones automatizadas de instantáneas y restauración: Esta es la base del enfoque de detección temprana de fallos. Las opciones incluyen instantáneas de LVM o de VMware. Los backups de ReaR también se pueden usar como un enfoque de doble seguridad, en caso de que una restauración de la instantánea no funcione.
Automatización y módulos personalizados: Los repositorios oficiales de actualización del sistema Leapp y sus actores se encargan de la actualización del sistema operativo, pero se necesitan tareas de Ansible personalizadas o actores Leapp personalizados adicionales para gestionar las herramientas, los agentes y el middleware de terceros específicos del entorno de un cliente. Estas automatizaciones personalizadas se perfeccionan a través de las iteraciones de detección temprana de fallos.
Paneles de informes: Las herramientas como Elastic o Splunk pueden visualizar los resultados previos a la actualización y realizar un seguimiento del progreso de las actualizaciones, lo que permite que los equipos identifiquen los problemas comunes y perfeccionen la automatización.

Obtén más información sobre las actualizaciones de RHEL

Con la adopción de un enfoque de detección temprana de fallos, la tarea aparentemente abrumadora de realizar actualizaciones a gran escala de RHEL se transforma en un proceso iterativo que prioriza el aprendizaje y la seguridad, lo cual, en última instancia, permite una mayor agilidad y una mejora rápida del cumplimiento normativo.

Cómo automatizar las actualizaciones antes de que finalice el período de mantenimiento de RHEL 7
Ya casi finaliza el período de mantenimiento de Red Hat Enterprise Linux 7
infra.leapp Git repo: Un conjunto de funciones de Ansible para automatizar las actualizaciones integradas de RHEL, con el respaldo de una comunidad upstream próspera. Estas funciones proporcionan métodos estandarizados para usar el marco de Leapp para realizar análisis previos a la actualización y la actualización de RHEL en sí. Cuando estés listo para desarrollar tus propios playbooks personalizados para ejecutar actualizaciones para tu empresa, considera usar las funciones de esta colección de Ansible para facilitar tu trabajo.
infra.lvm_snapshots Ansible collection: Es un elemento fundamental para la automatización de las actualizaciones integradas de RHEL, ya que proporciona las funciones específicas para la gestión de instantáneas del LVM. Este conjunto ofrece funciones esenciales, como snapshot_create, para crear conjuntos definidos de volúmenes de instantáneas del LVM, snapshot_remove, para eliminarlos, y snapshot_revert, para revertir instantáneamente un sistema a un estado capturado anteriormente. También incluye funciones como shrink_lv para reducir de forma segura el tamaño de los volúmenes lógicos y liberar espacio para las instantáneas, y bigboot para aumentar la partición de arranque.
ripu-splunk repo: Ofrece una implementación de referencia para los paneles de informes diseñados para mejorar las soluciones de automatización de actualizaciones de RHEL. Este conjunto open source ofrece ejemplos que se pueden importar a Splunk Dashboard Studio, como un resumen previo a la actualización, un informe detallado previo a la actualización y un cronograma del progreso de la actualización.

Estamos aquí para ayudarte

A medida que evolucionaron las actualizaciones automatizadas en los últimos años, Red Hat Consulting Services ha sido fundamental para ayudar a muchos clientes a implementar la solución. Si te sientes abrumado o no sabes por dónde comenzar con la idea de actualizar un entorno grande, los servicios de Red Hat Consulting pueden brindarte su experiencia y orientación para lograrlo y, posiblemente, ahorrarte tiempo y dinero en el proceso.

Sobre los autores

Bob Mader

Principal Software Engineer

Bob is an industry veteran with a lifetime of experience in IT dating back to the 1980s. Before coming to Red Hat in 2022, he held software consulting roles at DEC/HP and later moved to the banking industry as a pioneer leading Wall Street's early adoption of Linux. Today as a member of Red Hat's Customer-led Open Innovation team, he is committed to growing the community that's developing automation to make RHEL in-place upgrades successful at enterprise scale.

Read full bio

Bob Handlin

Experience Product Manager, Red Hat Enterprise Linux

Bob Handlin has helped build and promote products in various parts of the tech industry for more than 20 years. He currently focuses on RHEL migrations and upgrades, but also assists with storage technologies and live patching.

Read full bio

Más como éste

Publicación en blog

Obtenga más información

Navegar por canal

Explore todos los canales

Adopta un enfoque de detección temprana de fallos para desarrollar la automatización de la actualización de RHEL

El desafío

La solución

1. Automatización integral

2. Instantánea con restauración

3. Módulos personalizados

4. Panel de informes (opcional, pero MUY útil)

Lecciones aprendidas de la automatización de un millón de actualizaciones integradas de RHEL

Obtén más información sobre las actualizaciones de RHEL

Estamos aquí para ayudarte

Red Hat Ansible Automation Platform | Versión de prueba del producto

Sobre los autores

Bob Mader

Bob Handlin

Más como éste

Obtenga más información

Navegar por canal

Plataformas

Herramientas

Versiones de prueba, compras y ventas

Canales de comunicación

Acerca de Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links