En este punto, el potencial transformador de un modelo de lenguaje de gran tamaño (LLM) es claro, pero implementar estos modelos potentes en producción de manera eficiente puede ser un desafío.
Este desafío no es nuevo. En un episodio reciente del podcast Technically Speaking, Chris Wright habló con Nick Hill, un ingeniero de software principal de Red Hat que trabajó en la comercialización del sistema original IBM Watson "Jeopardy!" hace años. Hill señaló que estos primeros esfuerzos se centraron en optimizar Watson de una sala llena de servidores a una sola máquina, lo que estableció que la ingeniería a nivel de sistemas es clave para hacer que la inteligencia artificial potente sea práctica.
Wright y Hill también analizaron cómo este mismo principio se aplica a los LLM modernos y al proyecto open source vLLM, que está revolucionando la inferencia de la inteligencia artificial al hacer que la inteligencia artificial sea más práctica y con un rendimiento optimizado a gran escala.
¿Qué es vLLM?
vLLM es un servidor de inferencia que aborda directamente los desafíos de eficiencia y escalabilidad que se enfrentan al trabajar con inteligencia artificial generativa (gen AI). Al maximizar el uso de los recursos costosos de GPU, vLLM hace que la inteligencia artificial sea más accesible y práctica.
Red Hat participa activamente en el proyecto vLLM como un importante colaborador comercial. Integramos una versión de vLLM reforzada, compatible y lista para las empresas en Red Hat AI Inference Server. Este producto está disponible como una oferta independiente en contenedores o como un componente clave de la cartera más grande de Red Hat AI, que incluye Red Hat Enterprise Linux AI (RHEL AI) y Red Hat OpenShift AI. Nuestra colaboración con la comunidad de vLLM es un elemento clave de nuestra estrategia más amplia de inteligencia artificial open source.
La importancia de vLLM para la inferencia de LLM
La inferencia de LLM es el proceso en el que un modelo de inteligencia artificial presenta su entrenamiento a nuevos datos o consultas, y cuenta con algunos cuellos de botella inherentes. Los métodos de inferencia tradicionales pueden ser ineficientes debido a la generación secuencial de tokens y la baja utilización de GPU, lo que genera una alta latencia bajo carga, arquitecturas inflexibles que no pueden escalar y restricciones en el ancho de banda de la memoria.
vLLM ofrece un enfoque optimizado. Su objetivo principal es maximizar la utilización y el rendimiento de la GPU, y lo logra a través de una serie de optimizaciones clave.
- PagedAttention: esta innovación central utiliza un concepto similar a la memoria virtual de una computadora para administrar de manera eficiente la caché de clave-valor (KV). La caché de KV contiene los datos intermedios que un modelo necesita recordar de un token al siguiente.
- Procesamiento por lotes continuo: esta técnica permite que el servidor de inferencia procese de manera eficiente las nuevas solicitudes entrantes mientras procesa un lote ya existente, lo que reduce el tiempo de inactividad y aumenta el rendimiento general.
- Otras optimizaciones importantes: vLLM también aprovecha técnicas como la decodificación especulativa, que utiliza un modelo más pequeño y rápido para predecir los siguientes tokens, y kernels CUDA optimizados para maximizar el rendimiento en hardware específico.
vLLM actúa como una capa de interfaz que ayuda a administrar el flujo de datos general, el procesamiento por lotes y la programación, lo que permite que los LLM se integren con una amplia gama de hardware y aplicaciones.
Ventajas estratégicas para la inteligencia artificial empresarial
Si bien vLLM es técnicamente interesante, también ofrece beneficios estratégicos importantes para los líderes de TI. Las optimizaciones de vLLM pueden ayudarte a gestionar los costos, escalar de manera más efectiva y mantener un control más estricto sobre tu stack de tecnología.
Democratización de la inteligencia artificial y optimización de los costos
vLLM ayuda a tu empresa a aprovechar al máximo el hardware actual. Al aumentar considerablemente el uso de la GPU, reduce la cantidad de hardware necesario para ejecutar las cargas de trabajo, lo cual, a su vez, reduce los costos. Esto permite que más empresas puedan acceder a las funciones avanzadas de inteligencia artificial.
Escalamiento de las aplicaciones de inteligencia artificial con confianza
La mejor utilización de la GPU y los tiempos de respuesta más rápidos se traducen directamente en la capacidad para admitir implementaciones de modelos y aplicaciones de mayor tamaño. Tu empresa puede atender a más usuarios y gestionar cargas de trabajo de inteligencia artificial más complejas sin comprometer el rendimiento. Esto ayuda a proporcionar la escalabilidad de nivel empresarial que es esencial para trasladar los proyectos de inteligencia artificial de un entorno de prueba de concepto a un entorno de producción.
Flexibilidad del hardware y mayor variedad de opciones
La naturaleza open source de vLLM y su amplio soporte para varios aceleradores de hardware de empresas como NVIDIA, AMD e Intel, junto con modelos líderes de proveedores como Meta, Mistral e IBM, es una ventaja estratégica clave. Esto le da a tu empresa más flexibilidad a la hora de seleccionar soluciones de hardware y te permite elegir los aceleradores que mejor se adapten a tus necesidades específicas, incluso si son dinámicos.
Innovación acelerada e impacto en la comunidad
El valor de la comunidad activa del open source de vLLM es considerable. La comunidad es activa y está en crecimiento, lo que lleva a la rápida integración de nuevas investigaciones y avances. Gracias a este desarrollo e innovación acelerados, vLLM se consolidó como un estándar para la inferencia de LLM, y tu empresa puede beneficiarse constantemente de las innovaciones más recientes.
Inteligencia artificial de nivel empresarial con vLLM
La visión de Red Hat es lograr que la inteligencia artificial sea práctica, transparente y accesible en toda la nube híbrida. vLLM es una piedra angular de esta estrategia y un factor clave en nuestra visión rectora: "el modelo, el acelerador y la nube que prefieras".
Red Hat AI Inference Server
Hemos integrado vLLM en Red Hat AI Inference Server, una distribución de vLLM reforzada, compatible y lista para las empresas. Además de nuestro repositorio de modelos externos optimizados y validados, ofrecemos herramientas como LLM Compressor, que permite realizar implementaciones más rápidas y rentables en todos los entornos de nube híbrida.
Así como Red Hat ayudó a unificar el entorno fragmentado de Linux, Red Hat AI Inference Server, con la tecnología de vLLM, proporciona una capa unificadora similar para la inferencia de inteligencia artificial. Esto ayuda a simplificar las implementaciones complejas para las empresas que necesitan una forma uniforme y confiable de ejecutar las cargas de trabajo de IA.
Unificación de la infraestructura de inteligencia artificial
Red Hat AI Inference Server está disponible como una oferta independiente en contenedores. También desempeña un papel fundamental en la cartera de productos de Red Hat AI:
- Red Hat Enterprise Linux AI (RHEL AI) incluye los componentes principales, lo que proporciona una plataforma fundamental para el desarrollo, las pruebas y la implementación de LLM.
- Es un componente clave de Red Hat OpenShift AI, una plataforma integrada de MLOps que permite gestionar todo el ciclo de vida de los modelos de inteligencia artificial a gran escala.
- Además, nuestro repositorio Hugging Face de modelos optimizados ofrece acceso a modelos validados de terceros que están optimizados previamente para ejecutarse de manera eficiente en vLLM, como Llama, Mistral, Qwen y Granite.
Nuestro compromiso con la comunidad del open source es permanente. Además de nuestra participación en la comunidad de vLLM, recientemente lanzamos el proyecto llm-d, un marco de inferencia de LLM distribuido de alto rendimiento nativo de Kubernetes que incorpora vLLM. Esta nueva iniciativa incluye a otros colaboradores, como Google y NVIDIA, y se diseñó para ayudar a ejecutar la inteligencia artificial generativa a gran escala, lo que ayuda a ofrecer un rendimiento competitivo para la mayoría de los modelos en varios aceleradores de hardware.
Red Hat te puede ayudar a implementar la inteligencia artificial a nivel empresarial
Red Hat AI ofrece una plataforma empresarial completa de inteligencia artificial para el entrenamiento y la inferencia de modelos que proporciona mayor eficiencia, una experiencia simplificada y la flexibilidad para implementarla en cualquier entorno de nube híbrida. Nuestra visión es hacer que la inteligencia artificial sea práctica, transparente y accesible, y nuestra cartera de productos te ayuda a diseñar y ejecutar soluciones de inteligencia artificial que funcionen para tu empresa, desde los experimentos iniciales hasta la producción completa.
Nuestro enfoque de nube híbrida te brinda la libertad de implementar la inteligencia artificial de la forma que prefieras, ya sea que necesites modernizar las aplicaciones actuales o diseñar otras nuevas. También ofrecemos capacitación y certificación de inteligencia artificial, incluidos cursos gratuitos sobre los fundamentos de la inteligencia artificial, para que tus equipos desarrollen las habilidades de inteligencia artificial que tanto necesita tu empresa.
Sobre el autor
The Technically Speaking team is answering one simple question: What’s next for enterprise IT? But they can’t answer that question alone. They speak to tech experts and industry leaders who are working on innovative tools. Tune in to their show for a front-row seat to the industry’s visions for the future of technology.
Más como éste
How Red Hat OpenShift AI simplifies trust and compliance
A 5-step playbook for unified automation and AI
Technically Speaking | Platform engineering for AI agents
Technically Speaking | Driving healthcare discoveries with AI
Navegar por canal
Automatización
Las últimas novedades en la automatización de la TI para los equipos, la tecnología y los entornos
Inteligencia artificial
Descubra las actualizaciones en las plataformas que permiten a los clientes ejecutar cargas de trabajo de inteligecia artificial en cualquier lugar
Nube híbrida abierta
Vea como construimos un futuro flexible con la nube híbrida
Seguridad
Vea las últimas novedades sobre cómo reducimos los riesgos en entornos y tecnologías
Edge computing
Conozca las actualizaciones en las plataformas que simplifican las operaciones en el edge
Infraestructura
Vea las últimas novedades sobre la plataforma Linux empresarial líder en el mundo
Aplicaciones
Conozca nuestras soluciones para abordar los desafíos más complejos de las aplicaciones
Virtualización
El futuro de la virtualización empresarial para tus cargas de trabajo locales o en la nube