¿Qué es llm-d?

Copiar URL

llm-d es un marco open source de Kubernetes que agiliza la inferencia distribuida de los modelos de lenguaje de gran tamaño (LLM) a gran escala. 

Esto significa que cuando un modelo de inteligencia artificial recibe consultas complicadas con muchos datos, llm-d proporciona un marco que acelera el procesamiento. 

llm-d es una creación de Google, NVIDIA, IBM Research y CoreWeave, y su comunidad open source aporta actualizaciones para mejorar la tecnología.

La manera en que Red Hat AI agiliza la inferencia

La importancia de la inferencia

Las peticiones de los LLM pueden ser complejas y dispares. Por lo general, requieren muchos recursos informáticos y almacenamiento para procesar grandes cantidades de datos. 

llm-d tiene una arquitectura modular que respalda los crecientes requisitos de recursos de modelos de razonamiento sofisticados y de mayor tamaño como los LLM

La arquitectura modular permite que todos los elementos de la carga de trabajo de inteligencia artificial funcionen en conjunto o por separado, según las necesidades del modelo. Esto permite que el modelo realice inferencias con mayor rapidez.

Imagina que llm-d es como correr una maratón: cada corredor controla su ritmo. Aunque cruces la línea de llegada en diferentes momentos, cada uno finalizará cuando esté listo para hacerlo. Si todos tuvieran que terminar al mismo tiempo, dependerías de las diferentes necesidades de cada corredor, como la resistencia, las paradas para beber agua o el tiempo de entrenamiento, lo cual complicaría todo. 

Con una arquitectura modular, las diferentes partes del proceso de inferencia funcionan a su propio ritmo para lograr el mejor resultado tan rápido como sea posible. Esto también permite corregir o actualizar con facilidad procesos específicos de manera independiente.

Gracias a este modo específico de procesar los modelos, llm-d puede gestionar los requisitos de la inferencia de LLM a gran escala. Además, anima a los usuarios a no limitarse a las implementaciones de un solo servidor y a utilizar la inferencia de inteligencia artificial generativa en toda la empresa.

Funcionamiento de la inferencia distribuida 

La arquitectura modular de llm-d consta de lo siguiente: 

  • Kubernetes: Se trata de una plataforma de organización de contenedores open source que automatiza muchos de los procesos manuales involucrados en la implementación, la gestión y el ajuste de las aplicaciones en contenedores.
  • vLLM: Se trata de un servidor de inferencia open source que agiliza los resultados de las aplicaciones de inteligencia artificial generativa.
  • Puerta de enlace de inferencia (IGW): Se trata de una extensión de API de puerta de enlace de Kubernetes que aloja funciones tales como el enrutamiento del modelo, el orden de prioridades para la distribución y las funciones "inteligentes" de equilibrio de carga. 

Gracias a esta arquitectura modular accesible, llm-d es una plataforma ideal para la inferencia distribuida de los LLM a gran escala.

Planificación de operaciones de inteligencia artificial

Cuatro aspectos clave para la implementación de la tecnología de inteligencia artificial

Los planes bien definidos hacen referencia a estrategias o "planos técnicos" específicos para diseñar inferencias distribuidas a gran escala con llm-d. La comunidad open source de llm-d los prueba y replica. Consisten en los siguientes elementos.

  • Programador inteligente de inferencias: La programación inteligente de inferencias gestiona las decisiones sobre el enrutamiento de tókenes con diferentes matices. Cuenta con funciones de enrutamiento basado en tókenes (también conocido como equilibrio de carga "inteligente"), las cuales consideran el caché de clave-valor (KV), la latencia, las funciones modulares y la observabilidad del modelo para implementar algoritmos de calificación y filtrado que agilizan la inferencia.
  • Servicios de prellenado y decodificación desagregados: Los servicios de prellenado (procesamiento de peticiones) y decodificación (generación de tókenes) exigen diferentes requisitos informáticos a los servidores de inferencia. Cuando se desagregan (se separan) dos operaciones, cada una de ellas puede funcionar y ajustarse de manera independiente, lo cual evita que los problemas aislados, como los bloqueos de latencia, afecten a todos los modelos a la vez.
  • Paralelismo de expertos amplio: Los modelos de mezcla de expertos (MoE) se desglosan en modelos con habilidades específicas que pueden gestionar peticiones de manera individual. En lugar de tener un único modelo intricado que dependa de toda su base de datos para responder cada petición, llm-d identifica un modelo "experto" más adecuado para realizar dicha tarea. Se asemeja a usar la función de búsqueda para encontrar una palabra en un documento, en lugar de leer todo el texto. Este enfoque agiliza la inferencia y utiliza las GPU de un modo más eficiente.

Además de los planes bien definidos, llm-d usa las herramientas de inferencia inteligentes para aumentar la eficiencia:

  • Enrutamiento basado en tókenes: Los diversos requisitos informáticos de los tókenes generan su ruta específica durante la inferencia. El tráfico de inferencia se enruta en función de la longitud del token, la profundidad de la cola y las predicciones de aciertos del caché para reducir la latencia y evitar interrupciones largas. 

    Volvamos al ejemplo de la carrera: un corredor lento (modelo complejo) podría tomar un camino con menos pendientes (equilibrio de carga inteligente) para alcanzar la línea de llegada (inferencia) tan rápido como sea posible.

    La importancia de la inferencia

  • Caché de KV compartido y reutilización: El caché de KV compartido reconoce los tókenes repetidos para disminuir el tiempo que lleva decodificar cada clave-valor. 

    Por ejemplo, una petición para la capital de Arizona deberá decodificarse en dos tókenes: "cuál es la capital" y "de Arizona". Cuando el modelo recibe la petición para la capital de otro estado ("¿Cuál es la capital de Alaska?"), ya sabe cómo procesar el primer token ("cuál es la capital") porque se calculó previamente. Esto impide que se produzcan cálculos redundantes de prellenado, lo cual agiliza la inferencia ocupando menos almacenamiento de GPU para responder cada petición.
  • Observabilidad e implementación modular: Supervisa, ajusta y actualiza cada modelo modular de manera independiente. En lugar de una "caja negra" que limita el acceso a la información, la flexibilidad modular la proporciona en cada parte del marco. Esto facilita el ajuste de modelos con más rapidez y unifica las cargas de trabajo de inteligencia artificial con las prácticas comunes actuales de DevOps y GitOps

 

Como la comunidad open source desarrolló llm-d, sus funciones dependen de varios elementos dinámicos y colaboraciones. Los elementos principales son los siguientes: 

  • Marco de Kubernetes: llm-d está diseñado para ejecutarse dentro de una plataforma de Kubernetes y aprovechar todos sus beneficios. Para que el marco llm-d sea accesible, se debe utilizar en plataformas distribuidas basadas en Kubernetes (como Red Hat® OpenShift®). Este enfoque de Kubernetes proporciona la capa de políticas, seguridad y observabilidad necesaria para aplicar la inferencia de inteligencia artificial generativa en toda una empresa.
  • Inferencia distribuida de LLM: La inferencia distribuida asigna una solicitud de inferencia compleja en varios servidores y dispositivos del extremo de la red. Luego, todas las funciones trabajan en paralelo para crear un resultado, lo que deriva en servicios de inteligencia artificial más rápidos y adaptables. llm-d utiliza proyectos de la comunidad open source, como Envoy, vLLM y Kserve, para lograr la inferencia distribuida.
  • Proyecto open source basado en la comunidad: Distintos colaboradores de las comunidades open source aportan buenas ideas que permiten mejorar las tecnologías que cualquier persona puede usar. Este proyecto open source se apoya en las ideas de los líderes del sector, como Google, IBM, CoreWeave, NVIDIA y Red Hat.

Estos recursos permiten que las empresas utilicen llm-d para expandir los casos prácticos de inteligencia artificial generativa, sin preocuparse por la latencia, las complejidades o los altos costos.

La inteligencia artificial para empresas

Las peticiones típicas de un modelo de inteligencia artificial siguen un patrón: suelen ser breves y replicadas. Por lo tanto, cada una obtiene los mismos recursos y soporte, que se suele denominar equilibrio de carga "round-robin". 

Sin embargo, los LLM son diferentes de las cargas de trabajo tradicionales. Ejecutan fases largas de decodificación, dependen de la reutilización del caché de prefijos y tienen diferentes requisitos de informática y memoria. Por este motivo, el equilibrio de carga de Kubernetes habitual no satisface las necesidades complejas de los LLM. 

Además, muchas empresas implementan LLM con poco acceso a la información, lo que limita el control sobre sus cargas de trabajo de inteligencia artificial. Esto deriva en latencia y GPU infrautilizada, así como arquitecturas sin flexibilidad que no se ajustan fácilmente. Los sistemas genéricos de inferencia basados en LLM pueden ignorar la infraestructura de las peticiones, el recuento de tókenes y los estados de caché, lo que implica un gasto innecesario de los recursos. 

Funcionamiento conjunto de los cálculos, los tókenes y el caché de KV de los LLM 

Por ejemplo, las peticiones de generación aumentada por recuperación (RAG) requieren un equilibrio de carga distinto de aquellas que dependen del pensamiento o el razonamiento. Cuando estas cargas de trabajo se sobrecargan por las diferentes peticiones que necesitan un equilibrio de carga único, el proceso de inferencia se ralentiza.

Piénsalo de este modo: una pastelería de tu ciudad hace muy buenos pasteles. Hornean pasteles de manzana, arándanos y nueces todos los días y nunca fallan. Pero cuando reciben un pedido de cruasanes, ganache o pasteles de boda, los procesos de los pasteleros no son eficientes. Atienden menos pedidos y algunas tareas quedan sin terminar. Lo que la pastelería necesita es un chef principal que pueda delegar tareas para poder finalizar los pedidos de los productos complicados y los pasteles diarios. Esta persona se encargará de organizar el complejo cronograma de tareas para completar los pedidos de la manera más eficiente posible, ya se trate de pasteles u otros productos. 

En cuanto a tu configuración de tecnología de inteligencia artificial, llm-d es tu chef principal. 

llm-d ofrece una plataforma de inferencia de inteligencia artificial que reconoce los LLM, lo que significa que está preparada para la amplia variedad de características de solicitudes de peticiones de estos modelos. Con el marco open source, es posible supervisar el rendimiento de forma predictiva, optimizar costos y cumplir las expectativas del usuario. llm-d transforma la inferencia de LLM en una arquitectura de Kubernetes para un marco de inferencia gestionable, de manera similar a un microservicio.  

Cuando los usuarios no pueden realizar inferencias a gran escala con facilidad, se incrementa el tiempo de comercialización y los casos prácticos de inteligencia artificial generativa se vuelven más difíciles de aplicar en toda la empresa. 

Descubre más casos prácticos de inteligencia artificial generativa

Gracias a llm-d, el ajuste de los modelos desagregados es más accesible, y los equipos pueden alcanzar objetivos de inteligencia artificial más amplios en menos tiempo y con menos recursos.

  • Calidad y rendimiento del modelo: llm-d utiliza herramientas como el equilibrio de carga inteligente para acortar los tiempos de respuesta de inferencia de los LLM. El marco de llm-d elimina los típicos obstáculos de la inferencia de LLM, como los tókenes repetitivos y las interrupciones de caja negra. Sin ellos, se mejora el rendimiento del modelo y la productividad de los desarrolladores.
  • Rentabilidad: Debido a su modularidad, llm-d permite que más usuarios accedan a las cargas de trabajo de inteligencia artificial al mismo tiempo y obtengan resultados más rápido. Esto permite que los ingenieros y los desarrolladores aprovechen al máximo sus modelos y usen las GPU de manera más efectiva. Al aumentar la accesibilidad y la velocidad, los equipos pueden invertir tiempo y recursos en otras tareas.
  • Control: llm-d utiliza servicios desagregados, que presentan un nuevo nivel de flexibilidad para la inferencia de los LLM. Al separar las diferentes fases de la inferencia (prellenado y decodificación), los elementos dinámicos trabajan de manera independiente y simultánea, por lo que se agiliza el proceso.

Red Hat AI tiene como prioridad mejorar el acceso a la inferencia de inteligencia artificial generativa con capacidad de ajuste. 

Nuestra plataforma de inteligencia artificial usa el vLLM para satisfacer las necesidades de la inferencia cada vez más compleja y las expectativas empresariales. 

Red Hat AI aprovecha el marco llm-d para ofrecer un mejor soporte a las cargas de trabajo de inteligencia artificial empresariales a gran escala. llm-d utiliza las funciones probadas de organización de Kubernetes e integra la ejecución avanzada de inferencias en la infraestructura de inteligencia artificial empresarial que ya existe. 

Además de convertirse en otro caso de éxito de la tecnología de open source, llm-d se alinea con la visión de Red Hat: todos los modelos, todos los aceleradores, todas las nubes.

Descubre Red Hat AI

Publicación en blog

¿Qué es llm-d y por qué es necesario?

Actualmente, se observa una tendencia significativa: cada vez más empresas trasladan sus sistemas de modelos de lenguaje de gran tamaño (LLM) a la infraestructura interna.

La empresa adaptable: Motivos por los que la preparación para la inteligencia artificial implica prepararse para los cambios drásticos

En este ebook, escrito por Michael Ferris, director de operaciones y director de estrategia de Red Hat, se analiza el ritmo de los cambios y las disrupciones tecnológicas que produce la inteligencia artificial y a los que se enfrentan los líderes de TI en la actualidad.

Más información

La inteligencia artificial para empresas | Red Hat

La inteligencia artificial para empresas consiste en la integración de herramientas de esta tecnología y software de machine learning (aprendizaje automático) en los procesos y las operaciones a gran escala. Lo que antes llevaba años, hoy puede resolverse en semanas.

MLOps: qué son las operaciones de machine learning, ventajas y etapas

Las operaciones de machine learning (MLOps) son un conjunto de prácticas para los flujos de trabajo cuyo objetivo es optimizar el proceso de implementación y mantenimiento de los modelos de machine learning (aprendizaje automático).

¿Qué es el deep learning?

El deep learning (aprendizaje profundo) es una técnica de inteligencia artificial que consiste en enseñar a las computadoras a procesar los datos utilizando algoritmos inspirados en el cerebro humano.

IA/ML: lecturas recomendadas

Producto destacado

  • Red Hat AI

    Soluciones flexibles que agilizan el desarrollo y la implementación de las soluciones de inteligencia artificial en los entornos de nube híbrida.

Artículos relacionados