¿Qué es el vLLM?

Publicado 10 de febrero de 2026•8 minutos de lectura

vLLM significa “modelo virtual de lenguaje de gran tamaño” y es una biblioteca de código open source gestionada por su propia comunidad. Permite que los modelos de lenguaje de gran tamaño (LLM) realicen cálculos a gran escala de manera más eficiente.

El vLLM incluye un servidor de inferencia (que gestiona el tráfico de la red) y un motor de inferencia (para aumentar al máximo la velocidad informática). Funciona acelerando los resultados de las aplicaciones de inteligencia artificial generativa al hacer un mejor uso de la memoria de la GPU a través de su algoritmo PagedAttention.

El objetivo general del vLLM es aumentar el rendimiento (tokens procesados por segundo) para prestar servicios a muchos usuarios a la vez.

Descubre Red Hat AI

Para comprender la importancia del vLLM, es fundamental conocer el rol de un servidor de inferencia, así como los mecanismos básicos que intervienen en su funcionamiento. A partir de ahí, es posible comprender mejor la función que desempeña en lo que respecta a la optimización del rendimiento de los modelos de lenguaje actuales.

Ponte al día con vLLM Office Hours para conocer las últimas novedades

¿Qué es un servidor de inferencia?

Un servidor de inferencia es un software que ayuda a un modelo de inteligencia artificial a obtener conclusiones nuevas a partir de su entrenamiento anterior. Los servidores de inferencia procesan las solicitudes de entrada a través de un modelo de machine learning (aprendizaje automático) y devuelven un resultado.

La importancia de la inferencia

La inferencia es el proceso de obtener conclusiones basadas en pruebas. Es posible que veas encendida la luz de la sala de estar de tu amigo, pero no lo ves a él. Puedes inferir que se encuentra en casa, pero no tienes pruebas fehacientes que lo demuestren.

Un modelo de lenguaje tampoco dispone de pruebas definitivas sobre el significado de una palabra o una frase (es un sistema de software), así que utiliza su entrenamiento como evidencia y, a partir de una serie de cálculos basados en datos, genera una conclusión. Al igual que cuando estimas que, si la luz está apagada, es porque tu amigo no está en su casa.

Los LLM utilizan las matemáticas para generar conclusiones

Cuando un LLM está en fase de entrenamiento, aprende mediante cálculos matemáticos, es decir, realiza una serie de cálculos de probabilidad (también una herramienta matemática) para generar una respuesta (inferencia).

Para que el modelo pueda entender la solicitud, debe conocer la forma en que las palabras se relacionan entre sí y las asociaciones que existen entre ellas. Por eso, a diferencia de las personas, que aprenden sobre el significado de las palabras y las asocian, los LLM recurren directamente a las matemáticas.

Cuando un LLM da respuesta a millones de usuarios al día, debe realizar numerosos cálculos. El procesamiento de todos estos de forma simultánea mientras una aplicación se encuentra en funcionamiento puede suponer todo un desafío. En general, obedece a que la capacidad de procesamiento que implica la ejecución de este tipo de modelos puede consumir rápidamente una gran cantidad de memoria.

Las mejoras en la arquitectura del vLLM siguen aportando eficiencia en el uso de los recursos en áreas como la memoria y la velocidad.

La inteligencia artificial en la empresa

En el estudio pionero Efficient Memory Management for Large Language Model Serving with PagedAttention, se detectó que los sistemas actuales de gestión de memoria de los LLM no organizan los cálculos de la manera más eficiente. PagedAttention es una técnica de gestión de memoria que surge con los vLLM y que se basa en la memoria virtual y la paginación de los sistemas operativos.

En esta investigación, se observa que el almacenamiento en caché (memoria a corto plazo de un LLM) de clave-valor (KV) se reduce y aumenta durante la ejecución, y se determina que un vLLM es la solución más estable para gestionar el espacio y la potencia informática.

En esencia, un vLLM funciona como un conjunto de instrucciones que inducen al caché de KV a crear accesos directos a partir del procesamiento por lotes continuo de las respuestas de los usuarios.

Antes de continuar, definamos brevemente los términos "caché de KV" y "procesamiento por lotes continuo".

¿Qué es la memoria caché de KV?

La sigla "KV" corresponde a "clave-valor" y hace referencia al modo en que un LLM expresa el significado de una palabra o una frase. Supongamos que procesas la clave-valor de un artículo de un menú: las papas fritas (clave) cuestan USD 3,99 (valor). Por lo tanto, cuando un cajero registra un pedido de este producto, el "valor" calculado de esa "clave" es de USD 3,99. Los LLM procesan las KV de manera similar, ya que almacenan el valor correspondiente a cada clave (o token) en su caché.

El término "caché" se refiere a un almacenamiento de memoria a corto plazo. Por ejemplo, cuando una computadora funciona lento, se suele "borrar la memoria caché" para mejorar y acelerar el procesamiento de los datos.

¿Qué es el procesamiento por lotes continuo?

El procesamiento por lotes continuo es una técnica que sirve para procesar varias consultas de manera simultánea, con el objetivo de mejorar la eficacia global del procesamiento.

Analicemos un ejemplo: un chatbot recibe miles de consultas por minuto, y muchas de ellas plantean preguntas similares, como "¿cuál es la capital de la India?" y "¿cuál es la capital de Irlanda?". En ambos casos, la frase "¿cuál es la capital de?" es una cadena de tokens (palabras) a partir de la cual el LLM debe realizar muchos cálculos para generar el significado.

Con un vLLM, el chatbot puede almacenar esta cadena de tokens ("cuál es la capital de") en una memoria a corto plazo (caché de KV) y enviar una única "solicitud de traducción" en lugar de dos por separado.

En otras palabras, los vLLM no generan una respuesta nueva, sino que permiten que la memoria en caché de KV almacene y cree accesos directos para consultas nuevas que sean similares a los cálculos realizados anteriormente. Si se procesan estos cálculos por lotes (en lugar de hacerlo de forma individual), se mejora el rendimiento y se optimiza el espacio disponible en la memoria.

El vLLM optimiza la memoria y aumenta la capacidad de almacenamiento de tokens para que puedas aumentar el tamaño de los lotes y trabajar con tareas de contextos amplios.

¿Qué son los modelos como servicio?

El vLLM permite que las empresas saquen más provecho con menos recursos en un mercado en el que el hardware que necesitan las aplicaciones basadas en el LLM tiene un precio elevado.

Para ofrecer servicios basados en este modelo que sean rentables y de confianza, es necesario contar con capacidad informática, recursos energéticos y conocimientos operativos especializados importantes. En la práctica, estos desafíos impiden a muchas empresas aprovechar las ventajas de una solución de inteligencia artificial más centrada en la seguridad, personalizada y lista para implementarse.

El objetivo de los vLLM y PagedAttention, el algoritmo en el que se basa, es abordar dichos desafíos con un uso más eficiente del hardware necesario para admitir las cargas de trabajo de inteligencia artificial.

Ventajas del vLLM

El uso del vLLM como servidor de inferencia para los LLM presenta diversas ventajas:

Agilización del tiempo de respuesta: Según algunos cálculos, el vLLM alcanza un rendimiento hasta 24 veces superior (la cantidad de datos que puede procesar un LLM) en comparación con Hugging Face Transformers, que es una biblioteca open source muy utilizada para trabajar con los LLM.

Reducción de los costos de hardware: Gracias al uso más eficiente de los recursos, no se necesitan tantas GPU para procesar los LLM. Para las empresas que trabajan con LLM muy grandes (aquellos que tienen cientos de miles de millones de parámetros), el vLLM ayuda a mantener la eficiencia. En concreto, se puede utilizar el VLLM junto con otras técnicas como la inferencia distribuida para aprovechar al máximo el hardware actual y reducir los costos.

Capacidad de ajuste: Los vLLM organizan la memoria virtual para que la GPU pueda gestionar un mayor número de solicitudes de los usuarios de manera simultánea. Esto es especialmente importante para las aplicaciones de inteligencia artificial con agentes (Agentic AI), que deben procesar muchas solicitudes simultáneas para completar una sola tarea de varios pasos.

Privacidad de los datos: Un LLM autoalojado con vLLM brinda un mayor control sobre la privacidad y el uso de los datos con respecto a una aplicación o un servicio de terceros basados en un LLM, como ChatGPT.

Innovación con la tecnología de open source: El compromiso de la comunidad con el mantenimiento y el soporte del vLLM permite incorporar mejoras uniformes en el código. Además, la transparencia con la que los usuarios pueden acceder al código y modificarlo brinda a los desarrolladores la posibilidad de utilizar el vLLM conforme a sus necesidades.

Descubre la manera de implementar Llama con el vLLM

El vLLM está pensado para los desarrolladores que necesitan aprovechar al máximo el potencial de rendimiento de sus servidores e implementar aplicaciones confiables y con capacidad de ajuste. Para los equipos que avanzan hacia la producción a gran escala, el vLLM proporciona la base necesaria para trabajar con LLM de manera confiable y eficiente a gran escala.

Diferencias entre el vLLM y Ollama: cuándo usar cada marco

PagedAttention es el principal algoritmo que surgió del vLLM; sin embargo, no es la única función que ofrece. Estas son algunas de las optimizaciones de rendimiento adicionales que brinda un vLLM:

PyTorch Compile/CUDA Graph: Optimiza la memoria de la GPU.
Cuantización: Reduce el espacio de memoria que se necesita para ejecutar los modelos.
Paralelismo tensorial: Divide las tareas de procesamiento entre varias GPU.
Decodificación especulativa: Genera texto más rápido al usar un modelo más pequeño que predice los tokens y otro de mayor tamaño que los valida.
Flash Attention: Mejora la eficiencia de los modelos de transformador.

Además de las funciones de optimización que ofrece vLLM, su flexibilidad también explica la creciente popularidad. Funciona con modelos de lenguaje pequeños y de gran tamaño y se integra a los modelos y los marcos más conocidos. Por último, su naturaleza open source permite que haya una mayor transparencia y personalización del código, así como correcciones de errores mucho más rápidas.

Descubre el modo en que vLLM admite inferencias para la comunidad open source

vLLM y llm-d

llm-d es un marco open source que integra y aprovecha la capacidad de los vLLM. Es un método para realizar inferencias distribuidas y se diseñó para respaldar la creciente demanda de recursos de los LLM.

Piénsalo de esta manera: si el vLLM ayuda con la velocidad, el llm-d lo hace con la coordinación. Ambos funcionan en conjunto para dirigir el tráfico de manera inteligente a través del modelo y lograr que el procesamiento se lleve a cabo de la manera más rápida y eficiente posible.

Obtén más información sobre llm-d

Red Hat® AI aprovecha la innovación open source para superar los desafíos de la inteligencia artificial en toda la empresa, y el vLLM es una de nuestras herramientas esenciales.

Con Red Hat AI, tienes acceso a Red Hat® AI Inference Server para optimizar la inferencia de los modelos en toda la nube híbrida y lograr que las implementaciones sean más rápidas y rentables. El servidor de inferencia, que se basa en los vLLM, aprovecha al máximo la GPU y agiliza los tiempos de respuesta.

Obtén más información sobre Red Hat AI Inference Server

Red Hat AI Inference Server incluye el repositorio de Red Hat AI, un conjunto de modelos optimizados y validados por terceros que fomentan la flexibilidad y la uniformidad entre los equipos. Con el acceso a este repositorio, las empresas pueden agilizar el tiempo de comercialización y reducir los obstáculos financieros que dificultan la adopción de la inteligencia artificial.

Explora nuestro repositorio en Hugging Face

Obtén más información sobre los modelos validados por Red Hat AI

Red Hat AI cuenta con tecnologías de open source y un ecosistema de partners que se centra en el rendimiento, la estabilidad y la compatibilidad con las GPU en diversas infraestructuras.

Descubre nuestro ecosistema de partners

Más información

IA predictiva vs IA generativa: diferencias, ventajas, riesgos y casos prácticos

La IA generativa y la IA predictiva presentan diferencias sustanciales y se aplican a distintos casos prácticos. A medida que la inteligencia artificial evoluciona, establecer una distinción entre estos dos tipos permite conocer mejor sus diferentes funciones.

Inteligencia artificial: La infraestructura de IA

La infraestructura de IA (inteligencia artificial) combina la tecnología de inteligencia artificial y machine learning (aprendizaje automático) para desarrollar e implementar soluciones de datos confiables y con capacidad de ajuste.

Diferencias entre LoRA y QLoRA

La adaptación de bajo rango (LoRA) y la adaptación de bajo rango cuantificada (QLoRA) son técnicas para entrenar modelos de inteligencia artificial.

IA/ML: lecturas recomendadas

Producto destacado

Red Hat OpenShift AI

Una plataforma de inteligencia artificial (IA) que proporciona herramientas para desarrollar, entrenar, servir y monitorear rápidamente modelos y aplicaciones habilitadas para la inteligencia artificial.

¿Qué es el vLLM?

¿Qué es un servidor de inferencia?

Los LLM utilizan las matemáticas para generar conclusiones

Red Hat AI

¿Qué es la memoria caché de KV?

¿Qué es el procesamiento por lotes continuo?

Ventajas del vLLM

vLLM y llm-d

Generative AI use cases with Red Hat AI

La empresa adaptable: Motivos por los que la preparación para la inteligencia artificial implica prepararse para los cambios drásticos

Más información

IA predictiva vs IA generativa: diferencias, ventajas, riesgos y casos prácticos

Inteligencia artificial: La infraestructura de IA

Diferencias entre LoRA y QLoRA

IA/ML: lecturas recomendadas

Red Hat OpenShift AI

Plataformas

Herramientas

Versiones de prueba, compras y ventas

Canales de comunicación

Acerca de Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links