El entrenamiento de los modelos de lenguaje de gran tamaño (LLM) es una tarea importante, pero la inferencia de inteligencia artificial plantea desafíos de costos más generalizados que suelen pasarse por alto. La inferencia es el procedimiento mediante el cual un modelo de inteligencia artificial entrenado procesa datos de entrada nuevos y genera un resultado. Cuando las empresas implementan estos modelos en la etapa de producción, los costos pueden aumentar rápidamente, en especial debido a los grandes volúmenes de tokens, las peticiones largas y las crecientes exigencias de uso. Para ejecutar los LLM de manera rentable y con un alto rendimiento, es importante contar con una estrategia integral.

Este enfoque aborda dos áreas esenciales: la optimización del tiempo de ejecución de la inferencia y la mejora del modelo.

Optimización del tiempo de ejecución de la inferencia

Los métodos básicos de prestación de servicios en la etapa de producción suelen presentar problemas, como el uso inadecuado de la memoria de la GPU, el procesamiento por lotes deficiente y la generación lenta de tokens. En este punto, es imprescindible tener tiempos de ejecución de inferencia de alto rendimiento. vLLM es la biblioteca open source más utilizada que permite que los LLM realicen cálculos de manera más eficiente y según sea necesario.

vLLM aborda estos desafíos de tiempos de ejecución con técnicas avanzadas, que incluyen:

  • Procesamiento por lotes continuo: en lugar de procesar las solicitudes una por una, el vLLM agrupa los tokens de varias secuencias en lotes. De este modo, se reduce el tiempo de inactividad de la GPU y se mejora significativamente su uso y el rendimiento de las inferencias.
  • PagedAttention: la estrategia de gestión de la memoria administra de manera eficiente las memorias caché grandes de clave-valor (KV). Al asignar y gestionar de forma dinámica las páginas de memoria de la GPU, PagedAttention aumenta considerablemente la cantidad de solicitudes simultáneas y admite secuencias más largas sin bloqueos de memoria.

Optimización del modelo de inteligencia artificial

Además de optimizar los tiempos de ejecución, las empresas también pueden comprimir los modelos para reducir el consumo de memoria y los requisitos informáticos. Las dos técnicas principales son la cuantización y la esparsidad.

  • Cuantización: esta técnica reduce los valores numéricos de un modelo, específicamente su peso y sus activaciones, con menos bits por valor. También disminuye de modo considerable la memoria que se necesita para almacenar los parámetros. Por ejemplo, un modelo Llama de 70 000 millones de parámetros se puede reducir de aproximadamente 140 GB a tan solo 40 GB. Esto implica que puede ejecutarse con menos recursos y duplicar el rendimiento informático sin disminuir la precisión de manera significativa.
  • Esparsidad: reduce las exigencias informáticas al establecer algunos de los parámetros del modelo en cero, lo que permite que los sistemas eviten las operaciones innecesarias. Este método disminuye considerablemente la complejidad del modelo y, por lo tanto, reduce el uso de la memoria y la carga informática. Esto se traduce en inferencias más rápidas y costos operativos más bajos.

Red Hat AI: pon en práctica la estrategia 

Para ayudar a las empresas a implementar este enfoque estratégico, la cartera de productos de Red Hat AI ofrece un conjunto unificado de soluciones para lograr inferencias de alto rendimiento según sea necesario.

Red Hat AI aborda la optimización tanto del modelo como del tiempo de ejecución a través de su potente conjunto de herramientas y recursos:

  • Red Hat AI Inference Server: Red Hat ofrece un motor de vLLM compatible y listo para empresas que utiliza métodos de procesamiento por lotes continuos y de uso eficiente de la memoria. Al aumentar el rendimiento y reducir el uso de la GPU, los tiempos de ejecución permiten que las empresas aprovechen al máximo la inversión en el costoso hardware de inteligencia artificial.
  • Acceso a modelos validados y optimizados: Red Hat AI brinda acceso a un repositorio de modelos que ya fueron evaluados y sometidos a pruebas de rendimiento y que están listos para usarse. Se comparan rigurosamente con varias tareas de evaluación y se pueden encontrar en el repositorio Red Hat AI Hugging Face, el cual permite que las empresas agilicen la obtención de resultados.
  • LLM Compressor incluido: el kit de herramientas para los LLM de Red Hat proporciona una forma estandarizada de aplicar técnicas de compresión, como la cuantización. Red Hat lo utiliza para ofrecer modelos optimizados que permiten que los clientes mejoren sus propios modelos personalizados o perfeccionados.

Al aprovechar Red Hat AI, las empresas pueden implementar modelos rentables y de alto rendimiento en una amplia variedad de configuraciones de hardware, lo que posibilita que los equipos cumplan con las crecientes exigencias de inteligencia artificial mientras controlan los costos y la complejidad.

Para obtener más información sobre los conceptos básicos de la ingeniería del rendimiento de la inferencia y la optimización de los modelos, descarga el ebook gratuito Get started with AI Inference.

Recurso

Introducción a la inteligencia artificial para las empresas: Guía para principiantes

Acelere su proceso de adopción de la inteligencia artificial con Red Hat OpenShift AI y Red Hat Enterprise Linux AI. Obtenga más información al respecto en esta guía para principiantes.

Sobre el autor

Carlos Condado is a Senior Product Marketing Manager for Red Hat AI. He helps organizations navigate the path from AI experimentation to enterprise-scale deployment by guiding the adoption of MLOps practices and integration of AI models into existing hybrid cloud infrastructures. As part of the Red Hat AI team, he works across engineering, product, and go-to-market functions to help shape strategy, messaging, and customer enablement around Red Hat’s open, flexible, and consistent AI portfolio.

With a diverse background spanning data analytics, integration, cybersecurity, and AI, Carlos brings a cross-functional perspective to emerging technologies. He is passionate about technological innovations and helping enterprises unlock the value of their data and gain a competitive advantage through scalable, production-ready AI solutions.

UI_Icon-Red_Hat-Close-A-Black-RGB

Navegar por canal

automation icon

Automatización

Las últimas novedades en la automatización de la TI para los equipos, la tecnología y los entornos

AI icon

Inteligencia artificial

Descubra las actualizaciones en las plataformas que permiten a los clientes ejecutar cargas de trabajo de inteligecia artificial en cualquier lugar

open hybrid cloud icon

Nube híbrida abierta

Vea como construimos un futuro flexible con la nube híbrida

security icon

Seguridad

Vea las últimas novedades sobre cómo reducimos los riesgos en entornos y tecnologías

edge icon

Edge computing

Conozca las actualizaciones en las plataformas que simplifican las operaciones en el edge

Infrastructure icon

Infraestructura

Vea las últimas novedades sobre la plataforma Linux empresarial líder en el mundo

application development icon

Aplicaciones

Conozca nuestras soluciones para abordar los desafíos más complejos de las aplicaciones

Virtualization icon

Virtualización

El futuro de la virtualización empresarial para tus cargas de trabajo locales o en la nube