Hoy contribuimos con llm-d a la Cloud Native Computing Foundation (CNCF) como un proyecto Sandbox.
Esto no es solo una entrega de código. Es un compromiso para que el servicio de inteligencia artificial de alto rendimiento sea una capacidad central y portátil del stack nativo de la nube. Cuando lanzamos llm-d en mayo de 2025, nos propusimos cerrar la enorme brecha de capacidades entre la experimentación con inteligencia artificial y la inferencia de producción de misión crítica a escala. Al trasladar llm-d a la CNCF, ampliamos el objetivo de una coalición de varios proveedores (que incluye a CoreWeave, IBM, Google y NVIDIA) para crear el estándar abierto para la inferencia distribuida.
La inferencia impulsa la era de la inteligencia artificial con agentes
A medida que entramos en un futuro de inteligencia artificial con agentes, la inferencia de inteligencia artificial que respalda los vastos dominios de agentes empresariales se expandirá enormemente. Será fundamental que el coste y la complejidad de la inferencia no superen el valor empresarial de los propios agentes. Sin embargo, la inferencia puede ser increíblemente costosa, ya que consume grandes cantidades de aceleradores especializados y, a escala, los costes pueden aumentar aún más. Las funciones avanzadas de llm-d abordan esto directamente, ya que cumplen con los objetivos de nivel de servicio (SLO) empresariales y maximizan la eficiencia de la infraestructura. Además, las organizaciones necesitan flexibilidad para implementar la inferencia donde sea conveniente (centro de datos, nube o edge) en el hardware que elijan. Esta flexibilidad solo es posible si el ecosistema subyacente se basa en open source y estándares abiertos.
Reducción de la brecha en el panorama nativo de la nube
Aunque Kubernetes es el estándar del sector para la orquestación, no se diseñó originalmente para las demandas únicas y con estado de la inferencia de modelos de lenguaje de gran tamaño (LLM). En un microservicio tradicional, una solicitud es una solicitud: cada réplica puede procesar cada una de ellas con la misma eficacia. En la inteligencia artificial generativa, el coste de una solicitud varía enormemente según la longitud de los tokens de prompt y salida, el tamaño y la arquitectura del modelo, la ubicación de la caché y si el modelo está en la fase de prefill (limitada por el cómputo) o de decode (limitada por la memoria).
El enrutamiento de servicios estándar ignora estas dinámicas, lo que genera una ubicación ineficiente y una latencia impredecible. Aquí es donde llm-d cierra la brecha. Funciona como una capa de orquestación de plano de datos especializada entre planos de control de alto nivel como KServe y motores de bajo nivel como vLLM. Mediante el uso de primitivas nativas de Kubernetes como Gateway API y LeaderWorkerSet (LWS), transforma la compleja inferencia distribuida en una carga de trabajo nativa de la nube gestionable y observable.
Fortalecimiento del ecosistema mediante la contribución
Al contribuir con llm-d a la CNCF, establecemos caminos claros: planos probados y replicables que convierten los componentes de inteligencia artificial fragmentados en microservicios modulares e interoperables. Esta contribución es más que un solo proyecto; se trata de enriquecer todo el panorama nativo de la nube para que la inferencia se convierta en un ciudadano de primera clase del mismo entorno que las aplicaciones tradicionales basadas en contenedores.
Una parte central de este trabajo es el selector de endpoints (EPP). llm-d actúa como la implementación principal para la extensión de inferencia de la API de gateway de Kubernetes (GAIE), y el EPP permite un enrutamiento programable que reconoce la inferencia. Esto significa que el sistema toma decisiones de enrutamiento basadas en el estado real del motor, optimizando las tasas de acierto de la caché de KV y las características del acelerador de hardware. Este es un requisito fundamental para mantener un rendimiento sostenido bajo objetivos de nivel de servicio estrictos.
llm-d complementa y amplía el panorama existente dentro de la CNCF:
- Kubernetes: Proporciona la plataforma de infraestructura principal para las cargas de trabajo de inteligencia artificial.
- Gateway API: Impulsa la alineación upstream para el enrutamiento específico de la inteligencia artificial, lo que garantiza que la gestión del tráfico siga siendo un componente open source principal.
- KServe: Actúa como el plano de control de alto nivel que se integra con llm-d para admitir funciones avanzadas como la distribución desagregada y el almacenamiento en caché de prefijos.
- LeaderWorkerSet: Utiliza primitivas nativas de Kubernetes para orquestar réplicas complejas de varios nodos y el paralelismo de expertos, lo que transforma motores como vLLM en cargas de trabajo nativas de la nube fáciles de gestionar.
- Prometheus y Grafana: Exporta métricas especializadas como el tiempo hasta el primer token (TTFT) para aportar observabilidad de nivel empresarial a la inteligencia artificial generativa.
Escalar el futuro de la inferencia de forma conjunta
La colaboración ha sido fundamental para llm-d desde su creación. Cuando anunciamos llm-d el año pasado en el Red Hat Summit, los esfuerzos conjuntos de los colaboradores fundadores del proyecto, los líderes del sector y los promotores académicos fueron un motivo de orgullo para Red Hat, no solo por el lanzamiento de llm-d, sino también por establecer una base colaborativa preparada para el futuro. En los diez meses transcurridos desde entonces, diversas empresas han adoptado llm-d tanto para el modelo como servicio (MaaS) privado de inteligencia artificial como para iniciativas de inteligencia artificial a gran escala. Lo que es más importante, las raíces open source del proyecto continúan profundizándose con un ecosistema creciente de colaboradores y socios. Los desarrolladores y las empresas confían en llm-d, y la contribución del proyecto a la Cloud Native Computing Foundation (CNCF) respaldará y mantendrá un futuro abierto. El camino hacia la innovación exitosa en la inteligencia artificial open source es largo, pero juntos construimos la infraestructura para lograrlo.
Sobre el autor
Brian Stevens is Red Hat's Senior Vice President and Chief Technology Officer (CTO) for AI, where he drives the company's vision for an open, hybrid AI future. His work empowers enterprises to build and deploy intelligent applications anywhere, from the datacenter to the edge. As Red Hat’s CTO of Engineering (2001-2014), Brian was central to the company’s initial growth and the expansion of its portfolio into cloud, middleware, and virtualization technologies.
After helping scale Google Cloud as its VP and CTO, Brian’s passion for transformative technology led him to become CEO of Neural Magic, a pioneer in software-based AI acceleration. Red Hat’s strategic acquisition of Neural Magic in 2025 brought Brian back to the company, uniting his leadership with Red Hat's mission to make open source the foundation for the AI era.
Más como éste
La paradoja agéntica y los argumentos a favor de la IA híbrida
Deja de administrar el pasado y comienza a forjar el futuro de TI
Collaboration In Product Security | Compiler
Keeping Track Of Vulnerabilities With CVEs | Compiler
Navegar por canal
Automatización
Las últimas novedades en la automatización de la TI para los equipos, la tecnología y los entornos
Inteligencia artificial
Descubra las actualizaciones en las plataformas que permiten a los clientes ejecutar cargas de trabajo de inteligecia artificial en cualquier lugar
Nube híbrida abierta
Vea como construimos un futuro flexible con la nube híbrida
Seguridad
Vea las últimas novedades sobre cómo reducimos los riesgos en entornos y tecnologías
Edge computing
Conozca las actualizaciones en las plataformas que simplifican las operaciones en el edge
Infraestructura
Vea las últimas novedades sobre la plataforma Linux empresarial líder en el mundo
Aplicaciones
Conozca nuestras soluciones para abordar los desafíos más complejos de las aplicaciones
Virtualización
El futuro de la virtualización empresarial para tus cargas de trabajo locales o en la nube