La importancia de la inferencia de la inteligencia artificial

Por decirlo de una manera sencilla, no hay inteligencia artificial sin inferencia.

La inferencia es la parte central de la inteligencia artificial generativa. Sin embargo, cuando los modelos de gran tamaño tienen que ejecutar estrategias muy ambiciosas, la complejidad se dispara.

Por este motivo, analizamos los desafíos y las oportunidades que plantea la inferencia de la inteligencia artificial, desde la optimización con vLLM hasta los marcos distribuidos open source más avanzados, como llm-d.

cubo rojo central interconectado con una red de nodos grises

¿Por qué la inferencia es clave?

La inferencia es la etapa final de un proceso extenso y sofisticado de machine learning (aprendizaje automático): el momento en que el modelo genera el resultado esperado.

Y, sobre todo, es una función imprescindible para que la inteligencia artificial realmente funcione y aporte valor.

Es por eso que el hardware y el software que te permiten realizar inferencias pueden facilitar o entorpecer tu estrategia de inteligencia artificial.

Fundamentos de la inferencia de IA

¿Qué ocurre después de la petición a la IA?

Ajusta la IA con open source

Primeros pasos en la inferencia de IA

bloques geométricos grises y rojos ensamblados en forma de cubo, con destellos digitales que simbolizan inteligencia artificial

Desafíos que frenan tu capacidad de ajuste

El crecimiento constante de los modelos afecta el rendimiento de la inferencia. A medida que los modelos se vuelven más complejos, este proceso se torna más lento.

Para que la inferencia sea exitosa, los modelos de inteligencia artificial deben realizar muchas operaciones matemáticas en poco tiempo. Por lo tanto, factores como el tamaño del modelo, el gran volumen de usuarios y la latencia pueden limitar el rendimiento.

Cuando los modelos requieren más datos y más memoria, el hardware y los aceleradores tienen dificultades para satisfacer tal demanda.

Lleva la inferencia de LLM al límite con Marlin

Cómo los aceleradores de IA potencian la inferencia

Inferencia más rápida con decodificación especulativa

Implementa un modelo de IA ligero

66 %

es el porcentaje de recursos informáticos de IA que se prevé que se destinarán a la inferencia en 2026, en contraste con el 33 % de 2023 y el 50 % de 2025¹.

Formas de optimizar la inferencia

Al optimizar la inferencia, los modelos de inteligencia artificial ejecutan tareas más rápido y con mayor inteligencia.

Entre los métodos de optimización se incluyen un uso más eficiente de las GPU, la decodificación especulativa, la esparsidad, la compresión de modelos mediante técnicas de cuantización y la inferencia distribuida.

Herramientas como LLM Compressor aprovechan las últimas investigaciones en compresión de modelos para reducir el tamaño de los modelos de lenguaje de gran tamaño, aumentar su eficiencia energética y acelerar su funcionamiento. De este modo, disminuyen los requisitos de hardware y mejoran la eficiencia, sin comprometer la precisión.

Optimizaciones de este tipo aseguran que la inferencia de inteligencia artificial siga siendo rentable, lo que facilita su ajuste conforme aumentan las demandas de tu equipo.

LLM Compressor: Optimize LLMs for low-latency deployments

La economía de LLM Compressor

LLM Compressor en fase de producción

Consulta el proyecto open source

Más del 99 %

de precisión conservada durante las optimizaciones con LLM Compressor².

2

veces más rendimiento informático con modelos comprimidos, sin comprometer la precisión³.

50 %

de ahorro en costos al optimizar modelos con LLM Compressor sin afectar el rendimiento⁴.

Optimización de la inferencia con vLLM

La optimización de modelos representa solo una parte del desafío. También se requiere un motor de inferencia de alto rendimiento, y, en este aspecto, vLLM resulta clave.

Los sistemas convencionales de gestión de memoria en los modelos de lenguaje de gran tamaño no organizan los datos de la mejor manera, lo que reduce su velocidad. vLLM implementa PagedAttention, una técnica que detecta valores clave repetidos para reducir el trabajo innecesario del modelo.

Esto permite al vLLM aprovechar mejor la memoria de la GPU y acelerar la inferencia de la inteligencia artificial generativa. Aumenta el rendimiento (tokens procesados por segundo) para prestar servicio a muchos usuarios a la vez.

El uso eficiente de los aceleradores permite que los modelos realicen operaciones más complejas en menos tiempo, para que los equipos puedan responder más rápido a un mayor número de usuarios y agentes.

¿Qué es el vLLM?

Optimize LLM inference with vLLM

vLLM: tres casos prácticos reales

Diseño de soluciones de IA eficientes con vLLM

50 %

de reducción de los parámetros con el uso de estructura de esparsidad⁵.

2,1

veces menor latencia de inferencia gracias a técnicas de decodificación especulativa⁶.

24

veces más rendimiento con vLLM respecto a la competencia⁷.

Motivos que explican el éxito de vLLM

vLLM aborda los desafíos centrales de la eficiencia en el uso de la GPU, reduce el costo por token y logra una latencia estable a gran escala, todo ello con un enfoque de implementación abierto y portátil.

Por eso, cuenta con una comunidad activa y dinámica. Las contribuciones de equipos comprometidos como Hugging Face, UC Berkeley, NVIDIA y Red Hat impulsan mejoras permanentes, y aseguran que el software evolucione constantemente dentro del proyecto open source.

Con compatibilidad desde el día cero con todos los modelos y aceleradores más utilizados, su accesibilidad facilita la adopción en empresas y ámbitos académicos.

Únete a la comunidad vLLM

Inscríbete en una reunión sobre vLLM

vLLM Office Hours

* Los commits son actualizaciones, modificaciones e instancias guardadas en el proyecto open source, realizados por los colaboradores que adaptan vLLM a sus casos prácticos específicos.

Más de 10 000

commits de vLLM en GitHub*, lo que supone un aumento de más del 200 % en 2025.

La comunidad vLLM hoy

Más de 500 000

GPU implementadas de manera ininterrumpida⁸

Más de 200

tipos diferentes de aceleradores⁹

Más de 500

arquitecturas de modelos compatibles⁹

Más de 2200

colaboradores únicos⁹

El papel de la inferencia distribuida

Con la inferencia distribuida, los modelos de inteligencia artificial dividen la carga de trabajo entre un grupo de dispositivos interconectados.

Cuando un modelo puede satisfacer diferentes solicitudes de manera simultánea, disminuyen los requisitos de hardware y la eficiencia de la inferencia mejora.

La inferencia distribuida utiliza técnicas como el paralelismo tensorial, la programación inteligente de la inferencia y la desagregación. En combinación con vLLM, permite que la inferencia funcione como una máquina multitarea altamente eficiente.

Así, se mantiene ajustable, uniforme y fácil de supervisar.

¿Qué es la inferencia distribuida?

Introducción a la inferencia distribuida

3,9 veces

más rendimiento de tokens con el paralelismo tensorial, una arquitectura de inferencia distribuida¹⁰.

¿Hay una comunidad open source para esto?

Sí, se denomina llm-d.

Es un marco open source que ofrece a los desarrolladores un plan para diseñar una inferencia distribuida a gran escala.

Gracias a su arquitectura modular, se adapta a las complejas exigencias de recursos de los modelos de lenguaje de gran tamaño complejos y sustituye los procesos manuales y fragmentados por procesos integrados y optimizados, lo que acelera la transición de la fase inicial a la de producción.

Con llm-d, la inferencia llega a Kubernetes. Su kit de herramientas estandarizado permite implementar inferencia distribuida adaptada a los casos prácticos específicos de tu empresa.

¿Qué es llm-d?

Explora la inferencia distribuida con llm-d

¿Por qué es necesario llm-d?

Comienza ahora mismo con los sencillos tutoriales de llm-d

2

es el valor de referencia de consultas por segundo (QPS) que se obtiene con llm-d¹¹.

Recursos adicionales de inteligencia artificial

Para los encargados de la toma de decisiones

Ebook

La inferencia, explicada por especialistas de Red Hat

Ebook

Sistemas de inteligencia artificial con agentes y Red Hat AI

Blog

Accede a una IA más inteligente: ajuste del tiempo de inferencia

Podcast

Diseño de soluciones de IA eficientes con vLLM

Artículo

¿Qué es la IA generativa?

Artículo

Ampliación de la IA en el entorno empresarial

Blog

Modelos comprimidos: la clave para reducir el costo de la inferencia

Para los usuarios

Producto

Descubre Red Hat AI Inference Server

Blog

Inferencia distribuida propia de Kubernetes

Blog

Ollama vs. vLLM

Video

Potencia vLLM con llm-d

PODCAST

Ingeniería de plataformas para agentes de inteligencia artificial

Blog

Ajuste automático de vLLM con OpenShift AI

Podcast

Diseña un conjunto de herramientas de IA listo para la producción

Blog

Ireland’s next steps for effective AI delivery

Podcast

Descubrimientos en la atención médica impulsados por la IA

Red Hat AI Inference Server

Acelera la transición de tus modelos de lenguaje de gran tamaño de la fase de desarrollo a la producción.

Nuestro motor de inferencia para empresas se basa en vLLM y ofrece mayor velocidad sin afectar al rendimiento.

Ajusta la capacidad en la nube híbrida con el modelo de inteligencia artificial generativa optimizado que elijas, con cualquier acelerador y en cualquier entorno de nube.

Más información

Prueba el producto

Cubos de inferencia junto con el ícono de IA

Referencias

[1] "Why AI’s Next Phase Will Likely Demand More Computing Power—Not Less ". The Wall Street Journal, 22 de enero de 2026.

[2] Kurtić, Eldar, et al. "We ran over half a million evaluations on quantized LLMs—here's what we found". Blog de Red Hat Developer, 17 de octubre de 2024.

[3] Condado, Carlos. "Un enfoque estratégico para el rendimiento de la inferencia de la inteligencia artificial". Blog de Red Hat, 15 de septiembre de 2025.

[4] Zelenović, Saša. "Aprovecha todo el potencial de los LLM: optimiza el rendimiento con los vLLM". Blog de Red Hat, 27 de febrero de 2025.

[5] Kurtić, Eldar, et al. "2:4 Sparse Llama: Smaller models for efficient GPU inference". Blog de Red Hat Developer, 28 de febrero de 2025.

[6] Marques, Alexandre, et al. "Fly Eagle(3) fly: Faster inference with vLLM & speculative decoding". Blog de Red Hat Developer, 1.º de julio de 2025.

[7] Kwon, Woosuk, et al. "vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention". Blog de vLLM, 20 de junio de 2023.

[8] Goin, Michael. "[vLLM Office Hours #38] vLLM 2025 Retrospective & 2026 Roadmap - December 18, 2025". YouTube, 8 de diciembre de 2025.

[9] Kwon, Woosuk. "Today, vLLM supports 500+ model architectures, runs on 200+ accelerator types, and powers inference at global scale". X, 26 de enero de 2026.

[10] Goin, Michael. "Distributed inference with vLLM". Red Hat Developer, 6 de febrero de 2025.

[11] Shaw, Robert. "llm-d: Kubernetes-native distributed inferencing". Red Hat Developers, 20 de mayo de 2025.

La importancia de la inferencia de la inteligencia artificial

¿Por qué la inferencia es clave?

Desafíos que frenan tu capacidad de ajuste

66 %

Formas de optimizar la inferencia

Más del 99 %

2

50 %

Optimización de la inferencia con vLLM

50 %

2,1

24

Motivos que explican el éxito de vLLM

Más de 10 000

La comunidad vLLM hoy

Más de 500 000

Más de 200

Más de 500

Más de 2200

El papel de la inferencia distribuida

3,9 veces

¿Hay una comunidad open source para esto?

2

Recursos adicionales de inteligencia artificial

La inferencia, explicada por especialistas de Red Hat

Sistemas de inteligencia artificial con agentes y Red Hat AI

Accede a una IA más inteligente: ajuste del tiempo de inferencia

Diseño de soluciones de IA eficientes con vLLM

¿Qué es la IA generativa?

Ampliación de la IA en el entorno empresarial

Modelos comprimidos: la clave para reducir el costo de la inferencia

Descubre Red Hat AI Inference Server

Inferencia distribuida propia de Kubernetes

Ollama vs. vLLM

Potencia vLLM con llm-d

Ingeniería de plataformas para agentes de inteligencia artificial

Ajuste automático de vLLM con OpenShift AI

Diseña un conjunto de herramientas de IA listo para la producción

Ireland’s next steps for effective AI delivery

Descubrimientos en la atención médica impulsados por la IA

Red Hat AI Inference Server

Acelera la transición de tus modelos de lenguaje de gran tamaño de la fase de desarrollo a la producción.

Referencias

Plataformas

Herramientas

Versiones de prueba, compras y ventas

Canales de comunicación

Acerca de Red Hat

Cambiar el idioma

Red Hat legal and privacy links

Red Hat legal and privacy links