Los modelos de lenguaje de gran tamaño (LLM) están transformando diversos sectores, como el servicio de atención al cliente o las aplicaciones de vanguardia, lo que genera grandes oportunidades de innovación. Sin embargo, su potencial presenta dos inconvenientes: los costos informáticos elevados y la complejidad. La implementación de los LLM suele requerir sistemas de hardware costosos y una gestión compleja, lo que hace que las soluciones adaptables y eficientes resulten inaccesibles para muchas empresas. Pero ¿y si pudieras aprovechar el potencial de los LLM sin tener que gastar mucho dinero? La compresión de modelos y la inferencia eficiente con los modelos de lenguaje de gran tamaño virtuales (vLLM) ofrecen una respuesta innovadora que permite reducir los costos y agilizar la implementación para las empresas de todos los tamaños.
La necesidad de velocidad (y eficiencia)
La ejecución de los LLM a gran escala no es una tarea sencilla. Estos modelos requieren un hardware potente y costoso que incremente los gastos de infraestructura y los problemas operativos. El auge de las aplicaciones con respuestas inmediatas, como los chatbots o los flujos de trabajo de varios modelos, solo aumenta la presión, ya que exige velocidad y asequibilidad. La optimización no solo reduce los costos, sino que también libera tiempo de los ingenieros, acelera los ciclos de desarrollo y permite que los equipos se centren en las prioridades estratégicas, en lugar de tener que lidiar con el hardware.
Compresión de los LLM: la clave para una inferencia eficiente
La compresión de modelos aborda estos desafíos de manera directa, ya que reduce la demanda de recursos de los LLM sin comprometer el rendimiento de la inferencia. Hay dos técnicas destacadas que lideran esta iniciativa:
- Cuantización: convierte los pesos de alta precisión en formatos con menos bits (p. ej., FP8, INT8, INT4, etc.), lo que reduce considerablemente los requisitos informáticos y de memoria. Las 500 000 evaluaciones de Neural Magic sobre los LLM cuantizados muestran que la velocidad de inferencia puede ser 2 a 4 veces más rápida en promedio, con pérdidas del 0,5 % al 1 % en la precisión (más del 99 % de recuperación).
- Esparsidad: elimina los parámetros redundantes para que los modelos sean más livianos y rápidos. Si hay menos conexiones, necesitará menos almacenamiento y procesamiento, lo que simplifica la implementación y reduce los costos.
Para impulsar esta visión, recientemente, Red Hat adquirió Neural Magic, una empresa líder en compresión de LLM, lo que nos permite reforzar nuestro compromiso con la inferencia rápida y eficiente en cualquier hardware. Durante el año pasado, Neural Magic optimizó modelos conocidos, como Granite, Llama, Mistral y Qwen, entre otros, mediante la cuantización de vanguardia. Estos modelos open source listos para la inferencia están disponibles en Hugging Face.
Para la optimización práctica, la biblioteca open source LLM Compressor ofrece:
- un amplio conjunto de algoritmos de cuantización para pesos y activaciones;
- integración con los modelos y los repositorios de Hugging Face;
- compatibilidad con safetensors, un formato sencillo para almacenar tensores de manera segura que admite los vLLM;
- gestión de modelos de gran tamaño con Accelerate;
- compatibilidad con algoritmos probados como GPTQ, SmoothQuant y SparseGPT, entre otros.
vLLM: optimización de la inferencia en diversos sistemas de hardware
La compresión es la mitad del proceso; la otra mitad es un motor de inferencia de alto rendimiento. Aquí es donde entra en juego vLLM, una biblioteca open source que se diseñó desde cero para poner a disposición los LLM en la etapa de producción de forma más rápida y flexible. Se creó en la universidad UC Berkeley, cuenta con casi 40 000 estrellas de GitHub y es una de las favoritas tanto en el mundo académico como en los distintos sectores. No se trata solo de la velocidad, sino de lograr que la implementación de los LLM sea práctica, accesible y adaptable. Estas características distinguen a los vLLM:
- Alto rendimiento: con técnicas como PagedAttention (que optimiza la memoria para los modelos más grandes mediante la gestión dinámica de las memorias caché de clave-valor), los vLLM ofrecen un mayor rendimiento que los marcos tradicionales, como Hugging Face Transformers, con una sobrecarga de latencia casi nula. Esto significa que tus aplicaciones, desde los chatbots hasta el análisis en tiempo real, responden rápidamente y se ajustan con mayor facilidad. Descubre los indicadores de los vLLM más recientes aquí y aquí.
- Amplia compatibilidad con el hardware: los vLLM se adaptan a tu configuración, desde las unidades de procesamiento gráfico (GPU) de NVIDIA y AMD hasta las unidades de procesamiento de tensores (TPU) de Google, Intel Gaudi, AWS Neuron y las unidades centrales de procesamiento (CPU). Optimizan distintos aceleradores, lo que te permite aprovechar la infraestructura actual o elegir opciones rentables sin necesidad de buscar nuevas herramientas. Descubre el hardware compatible con los métodos de cuantización aquí.
- Capacidad de ajuste y procesamiento por lotes dinámico: la gestión avanzada de solicitudes de los vLLM procesa las consultas entrantes por lotes de forma dinámica, lo que permite aprovechar al máximo los recursos sin necesidad de realizar ajustes manuales. Este aspecto es importante para los casos con mucho tráfico, como los bots de soporte para los clientes o las plataformas de inteligencia artificial multiusuario, en los que la demanda fluctúa de forma impredecible.
- Implementación más sencilla: los vLLM simplifican la gestión de los LLM con extremos de servicio integrados compatibles con el formato de la interfaz de programación de aplicaciones (API) de OpenAI. Para implementar un modelo solo tienes que ejecutar un solo comando:
vllm serve [tu modelo aquí], lo que reduce los gastos operativos y permite que tu equipo se centre en la innovación y no en la infraestructura. Es una opción rápida para las soluciones listas para la producción. - Personalización para los especialistas: los vLLM no solo simplifican su uso, sino que también ofrecen enlaces para los usuarios avanzados, como tokenizadores personalizados, fragmentación de modelos e indicadores de optimización perfeccionados. Gracias a esto, los vLLM se convierten en una herramienta flexible para los ingenieros que traspasan los límites de las aplicaciones de LLM.
- Tecnología de open source y contribución de la comunidad: los vLLM cuentan con el respaldo de Linux Foundation y una comunidad próspera, por lo que ofrecen transparencia, actualizaciones rápidas de las funciones y soporte completo. Las contribuciones de los investigadores y los líderes del sector permiten que los vLLM se mantengan a la vanguardia, mientras que la extensa documentación reduce la curva de aprendizaje.
Junto con los modelos comprimidos, los vLLM crean un canal integral más rápido, asequible y fácil de gestionar. Ya sea que pongas a disposición un solo chatbot en la etapa de producción o impulses un ecosistema de inteligencia artificial en expansión, los vLLM se adaptan a tus objetivos y ofrecen alto rendimiento de manera sencilla.
Conclusión: implementa la optimización con los vLLM
Los LLM ofrecen una ventaja competitiva, en especial si puedes controlar los costos y la complejidad. La optimización y los vLLM lo hacen posible, ya que transforman las posibilidades en ganancias y eficiencia operativa. Puedes reducir los costos operativos (por ejemplo, ahorrar entre un 40 % y un 50 % en la GPU), agilizar los tiempos de comercialización con implementaciones optimizadas y contar con clientes más satisfechos gracias a la capacidad de respuesta inmediata. Ya sea que estés expandiendo una empresa nueva o dirigiendo una ya establecida, esta combinación te permite implementar la inteligencia artificial de manera más eficiente y económica.
Los resultados son la prueba. Una conocida empresa de videojuegos utilizó Llama 70B cuantizada a INT8 de Neural Magic con vLLM para impulsar cientos de miles de líneas de código que se generan diariamente y para ejecutar diez consultas por segundo a 50 ms por token. Al reducir a la mitad el uso de la GPU, disminuyeron los costos de infraestructura en un 50 % sin comprometer el rendimiento.
Comienza hoy mismo
¿Todo listo para aprovechar los LLM optimizados y el potencial de los vLLM? Sigue estos pasos:
- Descubre los modelos optimizados: accede aquí para conocer los LLM optimizados con anterioridad en Hugging Face, que están listos para implementarse de inmediato.
- Optimiza tus propios modelos: utiliza la biblioteca LLM Compressor para usar las técnicas de compresión y adaptar los modelos a tus necesidades.
- Prueba los vLLM: ejecuta una inferencia de muestra para comprobar su velocidad y sencillez.
Los especialistas de Red Hat ofrecen orientación para utilizar las soluciones listas para la producción. Comunícate con nosotros y descubre la manera en que podemos ayudar a tu empresa a aprovechar los LLM de manera eficiente y efectiva.
Recurso
Introducción a la inteligencia artificial para las empresas: Guía para principiantes
Sobre el autor
Saša Zelenović is a Principal Product Marketing Manager at Red Hat, joining in 2025 through the Neural Magic acquisition where he led as Head of Marketing. With a passion for developer-focused marketing, Sasa drives efforts to help developers compress models for inference and deploy them with vLLM. He co-hosts the bi-weekly vLLM Office Hours, a go-to spot for insights and community around all things vLLM.
Navegar por canal
Automatización
Las últimas novedades en la automatización de la TI para los equipos, la tecnología y los entornos
Inteligencia artificial
Descubra las actualizaciones en las plataformas que permiten a los clientes ejecutar cargas de trabajo de inteligecia artificial en cualquier lugar
Nube híbrida abierta
Vea como construimos un futuro flexible con la nube híbrida
Seguridad
Vea las últimas novedades sobre cómo reducimos los riesgos en entornos y tecnologías
Edge computing
Conozca las actualizaciones en las plataformas que simplifican las operaciones en el edge
Infraestructura
Vea las últimas novedades sobre la plataforma Linux empresarial líder en el mundo
Aplicaciones
Conozca nuestras soluciones para abordar los desafíos más complejos de las aplicaciones
Virtualización
El futuro de la virtualización empresarial para tus cargas de trabajo locales o en la nube