Su prueba de concepto (PoC) del modelo de lenguaje de gran tamaño (LLM) fue un éxito. ¿Y ahora qué? La mayoría de las empresas se topan con un obstáculo en el salto de un solo servidor a la inferencia de inteligencia artificial distribuida a nivel de producción. La infraestructura que lo llevó tan lejos no puede seguirle el ritmo.
Como se analizó en un episodio reciente del podcast Technically Speaking, el proceso de inteligencia artificial y las PoC de la mayoría de las empresas comienzan con la implementación de un modelo en un solo servidor, una tarea manejable. Sin embargo, el siguiente paso a menudo requiere un salto masivo a la inferencia de inteligencia artificial distribuida y de nivel de producción. No se trata simplemente de agregar más máquinas, sino que creemos que esto requiere un nuevo tipo de inteligencia dentro de la infraestructura en sí, un plano de control compatible con la inteligencia artificial que pueda ayudar a gestionar la complejidad de estas cargas de trabajo únicas y dinámicas.
El nuevo desafío: la inferencia de inteligencia artificial distribuida
La implementación de LLM a escala presenta una serie de desafíos que la infraestructura tradicional no está diseñada para manejar. Un servidor web estándar, por ejemplo, procesa solicitudes uniformes. Por el contrario, una solicitud de inferencia de inteligencia artificial puede ser impredecible y consumir muchos recursos, con demandas variables de cómputo, memoria y redes.
Piense en ello como la logística moderna. Trasladar un paquete pequeño de una ciudad a otra es sencillo. Sin embargo, la coordinación de una cadena de suministro global requiere una gestión logística inteligente: un sistema que pueda rastrear miles de envíos, enrutar diferentes tipos de carga de manera dinámica y ajustar la programación para que todo llegue a tiempo. Sin esa inteligencia y coordinación cuidadosa, todo el sistema se descompone. Del mismo modo, sin una capa de infraestructura inteligente, el ajuste de la inteligencia artificial se vuelve ineficiente, costoso y poco confiable.
La complejidad de estas cargas de trabajo está vinculada a las fases de precompletado y decodificación de la inferencia de LLM. La fase de llenado previo procesa toda la petición de entrada a la vez y es una tarea de cómputo pesado, mientras que la fase de decodificación genera los tokens de salida uno a la vez y depende más del ancho de banda de la memoria.
La mayoría de las implementaciones de un solo servidor colocan estas dos fases en el mismo hardware, lo que puede crear cuellos de botella y generar un rendimiento deficiente, especialmente para cargas de trabajo de gran volumen con una variedad de patrones de solicitud. El verdadero desafío es optimizar tanto el tiempo hasta el primer token (desde la fase de llenado previo) como la latencia entre tokens (desde la fase de decodificación) para maximizar el rendimiento, gestionar las solicitudes más simultáneas y, lo que es fundamental para el uso empresarial, cumplir de manera uniforme los objetivos de nivel de servicio (SLO) definidos.
Una visión compartida para un problema común
El poder del open source es evidente para abordar este desafío complejo que afecta a todo el sector. Cuando los proveedores de hardware, los proveedores de nube y los desarrolladores de plataformas comparten un problema, la solución más efectiva suele ser la colaboración. En lugar de tener docenas de empresas que trabajan de forma independiente para resolver el mismo problema, un proyecto open source compartido acelera la innovación y ayuda a establecer un estándar común.
El proyecto llm-d es un excelente ejemplo de esta colaboración en acción. El proyecto, iniciado por Red Hat e IBM Research, pronto se unió a una coalición de líderes del sector, como Google y NVIDIA, que trabajaron para desarrollar una visión en colaboración.
Como tecnología, llm-d está diseñada para ofrecer un plan claro y comprobado para gestionar la inferencia de la inteligencia artificial según sea necesario. En lugar de diseñar todo desde cero, la comunidad se centra en optimizar y estandarizar los desafíos operativos de ejecutar las cargas de trabajo de inteligencia artificial según sea necesario.
llm-d: Un plano para la inteligencia artificial a nivel de producción
El proyecto llm-d desarrolla un plano de control open source que mejora Kubernetes con las funciones específicas que se necesitan para las cargas de trabajo de inteligencia artificial. No reemplaza a Kubernetes, pero agrega una capa especializada de inteligencia y extiende el rendimiento del tiempo de ejecución de vLLM a una capa distribuida.
La comunidad llm-d se centra en diseñar funciones que tengan un impacto directo en el rendimiento y la eficiencia de la inferencia de inteligencia artificial, entre las que se incluyen las siguientes:
- Enrutamiento semántico: el programador de llm-d conoce los requisitos de recursos únicos de cada solicitud de inferencia. Puede tomar decisiones más inteligentes sobre dónde ejecutar una carga de trabajo, lo que permite un uso más eficiente de los recursos costosos y evita el sobreaprovisionamiento costoso. Esto va más allá del balanceo de carga tradicional, ya que utiliza datos en tiempo real, como la utilización de la caché de clave-valor (KV) de un modelo, para enrutar las solicitudes a la instancia más óptima.
- Desglose de las cargas de trabajo: llm-d separa las tareas de inferencia complejas en partes más pequeñas y manejables, específicamente las fases de precompletado y decodificación. Esto proporciona un control granular y permite el uso de hardware heterogéneo, por lo que se utiliza el recurso adecuado para la tarea correcta para ayudar a reducir los costos operativos generales. Por ejemplo, un pod de precompletado se puede optimizar para tareas de cómputo pesado, mientras que un pod de decodificación se adapta para la eficiencia del ancho de banda de memoria. Esto permite un nivel de optimización detallado que es imposible con un enfoque monolítico.
- Compatibilidad con arquitecturas avanzadas: llm-d está diseñado para gestionar arquitecturas de modelos emergentes, como la combinación de expertos (MoE), que requieren una orquestación compleja y paralelismo en varios nodos. Al admitir un paralelismo amplio, llm-d permite el uso eficiente de estos modelos dispersos que son más eficientes y rentables que sus contrapartes densas, pero que son más difíciles de implementar a escala.
La comunidad llm-d toma las mejores ideas de campos como la informática de alto rendimiento (HPC) y los sistemas distribuidos a gran escala, y trabaja para evitar las configuraciones rígidas y especializadas que pueden dificultar su uso. Combina estratégicamente las tecnologías abiertas, como vLLM para el servicio de modelos y la puerta de enlace de inferencia para la programación, para crear un marco único y unificado.
Este enfoque en la operatividad y la flexibilidad es un principio de diseño fundamental, y el proyecto admite varios aceleradores de hardware de proveedores como NVIDIA, AMD e Intel. Gracias a la creación de un plano de control flexible que funciona en diferentes entornos y sistemas de hardware, llm-d busca establecer un estándar sólido y duradero para el futuro de la inteligencia artificial empresarial.
Reflexiones finales
Para los líderes de TI centrados en la puesta en marcha de la inteligencia artificial en la actualidad, el valor del proyecto llm-d se extiende más allá de su comunidad. El trabajo que se lleva a cabo en esta coalición de open source, en especial el desarrollo de un plano de control inteligente que tenga en cuenta la inteligencia artificial, es una respuesta directa a los desafíos de producción que enfrentan muchas empresas en la actualidad.
Las ventajas de llm-d son claras:
- Más allá del servidor único: el escalamiento de los LLM no consiste en agregar más máquinas. Se trata de implementar una capa estratégica de infraestructura que pueda gestionar de manera inteligente las cargas de trabajo distribuidas, gestionar el hardware complejo y optimizar los costos y el rendimiento.
- Aproveche los estándares del open source: las soluciones más sólidas surgen de los esfuerzos colaborativos del open source, no de los silos propietarios. La adopción de una plataforma que cumpla con estos estándares del open source evitará la dependencia de un solo proveedor y proporcionará un entorno más flexible y preparado para el futuro para las iniciativas de inteligencia artificial.
- Operacional con un partner de confianza: no es necesario ser un experto en sistemas distribuidos ni contribuir directamente al proyecto llm-d para beneficiarse de su innovación. El valor creado en la comunidad se integra en las plataformas empresariales compatibles, como Red Hat AI, que proporciona una base uniforme y confiable para implementar y gestionar la inteligencia artificial según sea necesario
El futuro de la inteligencia artificial empresarial depende de una base de infraestructura sólida. El trabajo de la comunidad llm-d está construyendo esa base, y una plataforma como Red Hat AI puede ayudarlo a ponerla en práctica.
Recurso
La empresa adaptable: Motivos por los que la preparación para la inteligencia artificial implica prepararse para los cambios drásticos
Sobre el autor
Chris Wright is senior vice president and chief technology officer (CTO) at Red Hat. Wright leads the Office of the CTO, which is responsible for incubating emerging technologies and developing forward-looking perspectives on innovations such as artificial intelligence, cloud computing, distributed storage, software defined networking and network functions virtualization, containers, automation and continuous delivery, and distributed ledger.
During his more than 20 years as a software engineer, Wright has worked in the telecommunications industry on high availability and distributed systems, and in the Linux industry on security, virtualization, and networking. He has been a Linux developer for more than 15 years, most of that time spent working deep in the Linux kernel. He is passionate about open source software serving as the foundation for next generation IT systems.
Más como éste
Fast and simple AI deployment on Intel Xeon with Red Hat OpenShift
Cracking the inference code: 3 proven strategies for high-performance AI
Technically Speaking | Build a production-ready AI toolbox
Technically Speaking | Platform engineering for AI agents
Navegar por canal
Automatización
Las últimas novedades en la automatización de la TI para los equipos, la tecnología y los entornos
Inteligencia artificial
Descubra las actualizaciones en las plataformas que permiten a los clientes ejecutar cargas de trabajo de inteligecia artificial en cualquier lugar
Nube híbrida abierta
Vea como construimos un futuro flexible con la nube híbrida
Seguridad
Vea las últimas novedades sobre cómo reducimos los riesgos en entornos y tecnologías
Edge computing
Conozca las actualizaciones en las plataformas que simplifican las operaciones en el edge
Infraestructura
Vea las últimas novedades sobre la plataforma Linux empresarial líder en el mundo
Aplicaciones
Conozca nuestras soluciones para abordar los desafíos más complejos de las aplicaciones
Virtualización
El futuro de la virtualización empresarial para tus cargas de trabajo locales o en la nube