Cómo superar el costo y la complejidad de la inferencia de inteligencia artificial a gran escala

21 de octubre de 2025Brian Stevens5 minutos de lectura

Poner en funcionamiento los modelos de inteligencia artificial a gran escala es uno de los mayores desafíos para los líderes de TI. Si bien entrenar un modelo de lenguaje de gran tamaño (LLM) requiere una fuerte inversión inicial, el costo real, y muchas veces subestimado, proviene de la inferencia.

La inferencia de inteligencia artificial, es decir, el uso de un modelo entrenado para generar un resultado, constituye la fase más costosa y exigente en términos de recursos de cualquier aplicación que use esta tecnología, ya que se ejecuta de manera permanente en entornos de producción. Una inferencia poco eficiente puede reducir el retorno sobre la inversión (ROI) del proyecto y generar un impacto negativo en la experiencia del usuario debido a la elevada latencia.

El enfoque integral del rendimiento de la inteligencia artificial

Para distribuir los LLM de forma efectiva se necesita una estrategia integral que abarque tanto el desarrollo del modelo como el tiempo de ejecución de su distribución. No basta con abordar un solo aspecto. Para alcanzar el máximo rendimiento y rentabilidad, es necesario centrarse en dos objetivos clave: gestionar el uso de los recursos y optimizar el rendimiento.

Optimización del modelo de inteligencia artificial

Una parte estratégica de este enfoque es la compresión del modelo, en la que se reduce el tamaño y los requisitos de recursos del modelo sin comprometer su precisión.

La cuantización es una técnica fundamental en la optimización de los modelos. Disminuye la precisión de los valores numéricos del modelo (por ejemplo, pesos y activaciones) de los 16 bits estándares a formatos de menor precisión, como 8 bits o 4 bits. Con ello, se reduce de forma considerable el espacio en memoria del modelo y se facilita su ejecución en dispositivos con menor capacidad de hardware.

La esparsidad es otra técnica eficaz que permite optimizar los modelos al eliminar conexiones innecesarias (pesos). De este modo, la red se vuelve más compacta y veloz sin afectar significativamente la precisión.

Optimización del tiempo de ejecución de la inferencia

Optimizar el tiempo de ejecución de la distribución es igualmente importante. Los tiempos de ejecución básicos suelen sufrir una gestión ineficiente de la memoria de la GPU y una generación lenta de tokens, lo que deriva en GPU inactivas y latencia elevada. En cambio, los tiempos de ejecución de alto rendimiento aprovechan al máximo el uso del costoso hardware de GPU y mejoran la velocidad de respuesta.

El proyecto vLLM open source se ha posicionado como la referencia del sector en inferencia de alto rendimiento, ya que supera estas limitaciones mediante técnicas optimizadas para lograr una mayor eficiencia.

El procesamiento por lotes continuo es una técnica que reduce el tiempo de inactividad de la GPU al procesar tokens de varias solicitudes de manera simultánea. En lugar de hacerlo una por una, el sistema combina tokens de distintas secuencias en lotes, lo cual logra una mejora sustancial en el uso de la GPU y en el rendimiento de la inferencia.
PagedAttentiones otro caso destacado. Se trata de una estrategia innovadora de gestión de memoria que optimiza el manejo de caché de clave-valor (KV) a gran escala, lo que permite incrementar la concurrencia de peticiones y procesar secuencias más extensas, a la vez que reduce los bloqueos de memoria.

Implementación de la inteligencia artificial distribuida a gran escala

En entornos empresariales con aplicaciones de mucho tráfico, las implementaciones de un único servidor suelen ser insuficientes. El proyecto llm-d open source amplía las funciones de vLLM para ofrecer la inferencia distribuida en varios nodos. De esta manera, las empresas pueden ampliar las cargas de trabajo de inteligencia artificial en varios servidores, gestionar modelos más grandes y una mayor demanda, a fin de garantizar un rendimiento y una rentabilidad predecibles.

llm-d funciona como un plano de control open source que potencia Kubernetes con funciones específicas para las cargas de trabajo de inteligencia artificial. El proyecto se centra en características que afectan directamente al rendimiento y la eficiencia de la inferencia, entre las que se encuentran:

Enrutamiento semántico: llm-d utiliza los datos en tiempo real para direccionar de manera inteligente las solicitudes de inferencia a la instancia más adecuada. Así, se logra un uso más eficiente de los recursos y se reduce el costoso exceso de aprovisionamiento.
Separación de las cargas de trabajo: esta función distingue las fases de prellenado y decodificación, de manera que se utilice el recurso más adecuado para cada tarea.
Soporte para arquitecturas avanzadas: llm-d se diseñó con el fin de gestionar arquitecturas de modelos nuevos, como la mezcla de expertos (MoE), para las cuales se requiere la organización y el paralelismo entre varios nodos.

Con la creación de un plano de control flexible que se adapta a diferentes tipos de hardware y entornos, la comunidad llm-d busca definir un estándar para la inteligencia artificial empresarial a gran escala.

Cómo Red Hat facilita la implementación de la inteligencia artificial a gran escala

Adoptar la inteligencia artificial en entornos empresariales no consiste solo en elegir un modelo. Es necesario contar con una estrategia completa para desarrollar, implementar y gestionar esta tecnología en una infraestructura de nube híbrida. Red Hat ofrece una cartera de productos empresariales que simplifican y aceleran todo el proceso, desde las primeras etapas del desarrollo del modelo hasta la ejecución de inferencias a gran escala.

Red Hat AI

La cartera de productos de Red Hat AI ofrece un enfoque integral para la optimización de la inteligencia artificial. Esta oferta integrada incluye Red Hat Enterprise Linux AI (RHEL AI), Red Hat OpenShift AI y Red Hat AI Inference Server.

RHEL AI proporciona la base para desarrollar inteligencia artificial y combina RHEL con elementos open source esenciales, como los modelos Granite de IBM y bibliotecas como PyTorch. La plataforma es portátil y puede ejecutarse en las instalaciones, en la nube pública o en el extremo de la red.
Red Hat OpenShift AI se basa en Red Hat OpenShift y facilita la gestión de todo el ciclo de vida de la inteligencia artificial. Proporciona un entorno uniforme de colaboración para los analistas de datos, los desarrolladores y los equipos de TI, permite ajustar las cargas de trabajo de inteligencia artificial en los entornos de nube híbrida y simplifica la gestión de aceleradores de hardware.
Red Hat AI Inference Server optimiza la inferencia al proporcionar una distribución compatible de vLLM, diseñada para ofrecer un alto rendimiento y una baja latencia. Se distribuye como contenedor, puede utilizarse en diversas infraestructuras y cuenta con una herramienta de compresión de modelos que reduce el uso de recursos informáticos. Para que la capacidad de ajuste no se limite a un solo servidor, Red Hat AI Inference Server se integra al proyecto llm-d open source.

Para los líderes de TI, la manera más efectiva de poner en funcionamiento la inteligencia artificial a gran escala es adoptar una estrategia integral en entornos de nube híbrida. Red Hat AI brinda una base uniforme que acompaña a las empresas en su transición desde la fase de prueba de la inteligencia artificial hasta la de producción completa, todo ello respaldado por nuestra visión de "cualquier modelo, cualquier acelerador, cualquier nube".

Más información

Para dar los primeros pasos hacia la adopción de una inteligencia artificial simplificada y adaptable en tu empresa, consulta los recursos disponibles en el sitio web de Red Hat AI.

Sobre el autor

Brian Stevens

SVP and AI CTO

Brian Stevens is Red Hat's Senior Vice President and Chief Technology Officer (CTO) for AI, where he drives the company's vision for an open, hybrid AI future. His work empowers enterprises to build and deploy intelligent applications anywhere, from the datacenter to the edge. As Red Hat’s CTO of Engineering (2001-2014), Brian was central to the company’s initial growth and the expansion of its portfolio into cloud, middleware, and virtualization technologies.

After helping scale Google Cloud as its VP and CTO, Brian’s passion for transformative technology led him to become CEO of Neural Magic, a pioneer in software-based AI acceleration. Red Hat’s strategic acquisition of Neural Magic in 2025 brought Brian back to the company, uniting his leadership with Red Hat's mission to make open source the foundation for the AI era.

Read full bio

Más como éste

Publicación en blog

Obtenga más información

Navegar por canal

Explore todos los canales

Cómo superar el costo y la complejidad de la inferencia de inteligencia artificial a gran escala

El enfoque integral del rendimiento de la inteligencia artificial

Optimización del modelo de inteligencia artificial

Optimización del tiempo de ejecución de la inferencia

Implementación de la inteligencia artificial distribuida a gran escala

Cómo Red Hat facilita la implementación de la inteligencia artificial a gran escala

Red Hat AI

Más información

Sobre el autor

Brian Stevens

Más como éste

Obtenga más información

Navegar por canal

Plataformas

Herramientas

Versiones de prueba, compras y ventas

Canales de comunicación

Acerca de Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links